Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases

넷플릭스 수준의 비디오 번역, 현지화 및 더빙 도구로, AI 자막 분할, 번역, 정렬 및 더빙을 원클릭으로 구현합니다.

Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025

VideoLingo - 넷플릭스 수준의 AI 비디오 번역 자막 및 더빙 도구

🌟 프로젝트 개요

VideoLingo는 비디오 번역, 현지화 및 더빙 기능을 통합한 도구로, 넷플릭스 수준의 고품질 자막을 생성하는 것을 목표로 합니다. 이 프로젝트는 어색한 기계 번역과 여러 줄 자막 문제를 해결하고, 고품질 더빙을 추가하여 전 세계 지식이 언어 장벽 없이 공유될 수 있도록 합니다.

🎯 핵심 기능

주요 기능

🎥 YouTube 비디오 다운로드: yt-dlp를 통해 비디오 다운로드
🎙️ 고정밀 음성 인식: WhisperX를 사용하여 단어 수준 및 낮은 환각 자막 인식
📝 지능형 자막 분할: NLP 및 AI 기술 기반의 자막 분할
📚 용어 관리: 사용자 정의 + AI 생성 용어집을 통해 번역 일관성 확보
🔄 3단계 번역 프로세스: 번역-반성-적응의 영화 수준 품질 처리
✅ 넷플릭스 표준 자막: 단일 행 자막만 생성하여 넷플릭스 표준 준수
🗣️ 다중 엔진 더빙: GPT-SoVITS, Azure, OpenAI 등 다양한 더빙 엔진 지원
🚀 원클릭 실행: Streamlit을 통해 원클릭 실행 및 처리
🌍 다국어 인터페이스: Streamlit UI 다국어 지원
📝 상세 로그: 진행 상황 복구를 지원하는 상세 로그 시스템

동종 프로젝트와의 차별점

단일 행 자막만 생성: 전문적인 표준 준수
탁월한 번역 품질: 다단계 번역 프로세스를 통한 품질 보장
매끄러운 더빙 경험: 다양한 TTS 엔진 선택

🌍 지원 언어

입력 언어 지원

🇺🇸 영어 🤩
🇷🇺 러시아어 😊
🇫🇷 프랑스어 🤩
🇩🇪 독일어 🤩
🇮🇹 이탈리아어 🤩
🇪🇸 스페인어 🤩
🇯🇵 일본어 😐
🇨🇳 중국어* 😊

*중국어는 별도의 구두점 강화 whisper 모델 사용

번역은 모든 언어를 지원하며, 더빙 언어는 선택한 TTS 방법에 따라 달라집니다.

🔧 설치 요구 사항

시스템 요구 사항

Python 3.10
FFmpeg
CUDA 지원 (Windows NVIDIA GPU 사용자)

Windows NVIDIA GPU 사용자 사전 설치 단계

CUDA Toolkit 12.6 설치
CUDNN 9.3.0 설치
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6을 시스템 PATH에 추가
컴퓨터 재시작

FFmpeg 설치

Windows: choco install ffmpeg (Chocolatey를 통해)
macOS: brew install ffmpeg (Homebrew를 통해)
Linux: sudo apt install ffmpeg (Debian/Ubuntu)

📥 설치 단계

1. 저장소 복제

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. 종속성 설치 (python=3.10 필요)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. 애플리케이션 실행

streamlit run st.py

Docker 설치 (선택 사항)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

CUDA 12.4 및 NVIDIA 드라이버 버전 > 550 필요

🔌 API 지원

VideoLingo는 OpenAI-Like API 형식과 다양한 TTS 인터페이스를 지원합니다.

LLM 지원

claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
... (성능 순 정렬, gemini-2.5-flash 사용 시 주의)

WhisperX 옵션

로컬에서 whisperX (large-v3) 실행
302.ai API 사용

TTS 엔진

azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts (custom_tts.py에서 사용자 정의 TTS 수정 가능)

편리한 옵션

302.ai 하나의 API 키로 모든 서비스 (LLM, WhisperX, TTS) 액세스
로컬에서 Ollama 및 Edge-TTS를 실행하여 완전 무료로 API 없이 사용

⚠️ 알려진 제한 사항

오디오 품질 영향: WhisperX 전사 성능은 비디오 배경 소음에 영향을 받을 수 있으며, 배경 음악이 큰 비디오의 경우 음성 분리 강화 기능을 활성화하십시오.
숫자 문자 처리: 숫자 또는 특수 문자로 끝나는 자막은 wav2vac이 숫자 문자 (예: "1")를 구어체 형식 (예: "one")으로 매핑할 수 없기 때문에 미리 잘릴 수 있습니다.
모델 호환성: 약한 모델을 사용하면 엄격한 JSON 형식 요구 사항으로 인해 처리 과정에서 오류가 발생할 수 있습니다.
더빙 완벽도: 언어 간의 말 속도 및 어조 차이, 번역 단계의 영향으로 인해 더빙 기능이 100% 완벽하지 않을 수 있습니다.
다국어 인식: 다국어 비디오 전사 인식은 주요 언어만 유지합니다.
다중 역할 더빙: whisperX의 화자 구별 능력이 충분히 신뢰할 수 없기 때문에 현재 여러 역할에 대해 개별적으로 더빙할 수 없습니다.