넷플릭스 수준의 비디오 번역, 현지화 및 더빙 도구로, AI 자막 분할, 번역, 정렬 및 더빙을 원클릭으로 구현합니다.
VideoLingo - 넷플릭스 수준의 AI 비디오 번역 자막 및 더빙 도구
🌟 프로젝트 개요
VideoLingo는 비디오 번역, 현지화 및 더빙 기능을 통합한 도구로, 넷플릭스 수준의 고품질 자막을 생성하는 것을 목표로 합니다. 이 프로젝트는 어색한 기계 번역과 여러 줄 자막 문제를 해결하고, 고품질 더빙을 추가하여 전 세계 지식이 언어 장벽 없이 공유될 수 있도록 합니다.
🎯 핵심 기능
주요 기능
- 🎥 YouTube 비디오 다운로드: yt-dlp를 통해 비디오 다운로드
- 🎙️ 고정밀 음성 인식: WhisperX를 사용하여 단어 수준 및 낮은 환각 자막 인식
- 📝 지능형 자막 분할: NLP 및 AI 기술 기반의 자막 분할
- 📚 용어 관리: 사용자 정의 + AI 생성 용어집을 통해 번역 일관성 확보
- 🔄 3단계 번역 프로세스: 번역-반성-적응의 영화 수준 품질 처리
- ✅ 넷플릭스 표준 자막: 단일 행 자막만 생성하여 넷플릭스 표준 준수
- 🗣️ 다중 엔진 더빙: GPT-SoVITS, Azure, OpenAI 등 다양한 더빙 엔진 지원
- 🚀 원클릭 실행: Streamlit을 통해 원클릭 실행 및 처리
- 🌍 다국어 인터페이스: Streamlit UI 다국어 지원
- 📝 상세 로그: 진행 상황 복구를 지원하는 상세 로그 시스템
동종 프로젝트와의 차별점
- 단일 행 자막만 생성: 전문적인 표준 준수
- 탁월한 번역 품질: 다단계 번역 프로세스를 통한 품질 보장
- 매끄러운 더빙 경험: 다양한 TTS 엔진 선택
🌍 지원 언어
입력 언어 지원
- 🇺🇸 영어 🤩
- 🇷🇺 러시아어 😊
- 🇫🇷 프랑스어 🤩
- 🇩🇪 독일어 🤩
- 🇮🇹 이탈리아어 🤩
- 🇪🇸 스페인어 🤩
- 🇯🇵 일본어 😐
- 🇨🇳 중국어* 😊
*중국어는 별도의 구두점 강화 whisper 모델 사용
번역은 모든 언어를 지원하며, 더빙 언어는 선택한 TTS 방법에 따라 달라집니다.
🔧 설치 요구 사항
시스템 요구 사항
- Python 3.10
- FFmpeg
- CUDA 지원 (Windows NVIDIA GPU 사용자)
Windows NVIDIA GPU 사용자 사전 설치 단계
- CUDA Toolkit 12.6 설치
- CUDNN 9.3.0 설치
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
을 시스템 PATH에 추가- 컴퓨터 재시작
FFmpeg 설치
- Windows:
choco install ffmpeg
(Chocolatey를 통해) - macOS:
brew install ffmpeg
(Homebrew를 통해) - Linux:
sudo apt install ffmpeg
(Debian/Ubuntu)
📥 설치 단계
1. 저장소 복제
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
2. 종속성 설치 (python=3.10 필요)
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
3. 애플리케이션 실행
streamlit run st.py
Docker 설치 (선택 사항)
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
CUDA 12.4 및 NVIDIA 드라이버 버전 > 550 필요
🔌 API 지원
VideoLingo는 OpenAI-Like API 형식과 다양한 TTS 인터페이스를 지원합니다.
LLM 지원
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
- ... (성능 순 정렬, gemini-2.5-flash 사용 시 주의)
WhisperX 옵션
- 로컬에서 whisperX (large-v3) 실행
- 302.ai API 사용
TTS 엔진
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(custom_tts.py에서 사용자 정의 TTS 수정 가능)
편리한 옵션
- 302.ai 하나의 API 키로 모든 서비스 (LLM, WhisperX, TTS) 액세스
- 로컬에서 Ollama 및 Edge-TTS를 실행하여 완전 무료로 API 없이 사용
⚠️ 알려진 제한 사항
오디오 품질 영향: WhisperX 전사 성능은 비디오 배경 소음에 영향을 받을 수 있으며, 배경 음악이 큰 비디오의 경우 음성 분리 강화 기능을 활성화하십시오.
숫자 문자 처리: 숫자 또는 특수 문자로 끝나는 자막은 wav2vac이 숫자 문자 (예: "1")를 구어체 형식 (예: "one")으로 매핑할 수 없기 때문에 미리 잘릴 수 있습니다.
모델 호환성: 약한 모델을 사용하면 엄격한 JSON 형식 요구 사항으로 인해 처리 과정에서 오류가 발생할 수 있습니다.
더빙 완벽도: 언어 간의 말 속도 및 어조 차이, 번역 단계의 영향으로 인해 더빙 기능이 100% 완벽하지 않을 수 있습니다.
다국어 인식: 다국어 비디오 전사 인식은 주요 언어만 유지합니다.
다중 역할 더빙: whisperX의 화자 구별 능력이 충분히 신뢰할 수 없기 때문에 현재 여러 역할에 대해 개별적으로 더빙할 수 없습니다.