VideoLingo는 비디오 번역, 현지화 및 더빙 기능을 통합한 도구로, 넷플릭스 수준의 고품질 자막을 생성하는 것을 목표로 합니다. 이 프로젝트는 어색한 기계 번역과 여러 줄 자막 문제를 해결하고, 고품질 더빙을 추가하여 전 세계 지식이 언어 장벽 없이 공유될 수 있도록 합니다.
*중국어는 별도의 구두점 강화 whisper 모델 사용
번역은 모든 언어를 지원하며, 더빙 언어는 선택한 TTS 방법에 따라 달라집니다.
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
을 시스템 PATH에 추가choco install ffmpeg
(Chocolatey를 통해)brew install ffmpeg
(Homebrew를 통해)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
CUDA 12.4 및 NVIDIA 드라이버 버전 > 550 필요
VideoLingo는 OpenAI-Like API 형식과 다양한 TTS 인터페이스를 지원합니다.
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(custom_tts.py에서 사용자 정의 TTS 수정 가능)오디오 품질 영향: WhisperX 전사 성능은 비디오 배경 소음에 영향을 받을 수 있으며, 배경 음악이 큰 비디오의 경우 음성 분리 강화 기능을 활성화하십시오.
숫자 문자 처리: 숫자 또는 특수 문자로 끝나는 자막은 wav2vac이 숫자 문자 (예: "1")를 구어체 형식 (예: "one")으로 매핑할 수 없기 때문에 미리 잘릴 수 있습니다.
모델 호환성: 약한 모델을 사용하면 엄격한 JSON 형식 요구 사항으로 인해 처리 과정에서 오류가 발생할 수 있습니다.
더빙 완벽도: 언어 간의 말 속도 및 어조 차이, 번역 단계의 영향으로 인해 더빙 기능이 100% 완벽하지 않을 수 있습니다.
다국어 인식: 다국어 비디오 전사 인식은 주요 언어만 유지합니다.
다중 역할 더빙: whisperX의 화자 구별 능력이 충분히 신뢰할 수 없기 때문에 현재 여러 역할에 대해 개별적으로 더빙할 수 없습니다.