VideoLingo是一个集视频翻译、本地化和配音功能于一体的综合工具,旨在生成Netflix级别质量的字幕。该项目消除了生硬的机器翻译和多行字幕问题,同时添加高质量配音,让全球知识能够跨越语言障碍进行分享。
*中文使用单独的标点增强whisper模型
翻译支持所有语言,配音语言取决于选择的TTS方法。
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
添加到系统PATHchoco install ffmpeg
(通过Chocolatey)brew install ffmpeg
(通过Homebrew)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
需要CUDA 12.4和NVIDIA驱动版本>550
VideoLingo支持OpenAI-Like API格式和各种TTS接口:
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(可在custom_tts.py中修改自定义TTS)音频质量影响:WhisperX转录性能可能受视频背景噪音影响,对于背景音乐较大的视频,请启用人声分离增强功能。
数字字符处理:以数字或特殊字符结尾的字幕可能会被提前截断,因为wav2vac无法将数字字符(如"1")映射到其口语形式(如"one")。
模型兼容性:使用较弱的模型可能由于严格的JSON格式要求导致处理过程中出现错误。
配音完美度:由于语言间语速和语调差异,以及翻译步骤的影响,配音功能可能不是100%完美。
多语言识别:多语言视频转录识别只会保留主要语言。
多角色配音:目前无法单独为多个角色配音,因为whisperX的说话人区分能力不够可靠。