Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases
Netflix级别的视频翻译、本地化和配音工具,一键实现AI字幕切割、翻译、对齐和配音
Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025
VideoLingo - Netflix级AI视频翻译字幕配音工具
🌟 项目概述
VideoLingo是一个集视频翻译、本地化和配音功能于一体的综合工具,旨在生成Netflix级别质量的字幕。该项目消除了生硬的机器翻译和多行字幕问题,同时添加高质量配音,让全球知识能够跨越语言障碍进行分享。
🎯 核心特性
主要功能
- 🎥 YouTube视频下载:通过yt-dlp实现视频下载
- 🎙️ 高精度语音识别:使用WhisperX进行词级别和低幻觉字幕识别
- 📝 智能字幕分割:基于NLP和AI技术的字幕分割
- 📚 术语管理:自定义+AI生成术语表,确保翻译连贯性
- 🔄 三步翻译流程:翻译-反思-适配的电影级质量处理
- ✅ Netflix标准字幕:仅生成单行字幕,符合Netflix标准
- 🗣️ 多引擎配音:支持GPT-SoVITS、Azure、OpenAI等多种配音引擎
- 🚀 一键启动:通过Streamlit实现一键启动和处理
- 🌍 多语言界面:Streamlit UI支持多语言
- 📝 详细日志:支持进度恢复的详细日志系统
与同类项目的区别
- 仅生成单行字幕:符合专业标准
- 卓越的翻译质量:多步翻译流程确保质量
- 无缝配音体验:多种TTS引擎选择
🌍 支持语言
输入语言支持
- 🇺🇸 English 🤩
- 🇷🇺 Russian 😊
- 🇫🇷 French 🤩
- 🇩🇪 German 🤩
- 🇮🇹 Italian 🤩
- 🇪🇸 Spanish 🤩
- 🇯🇵 Japanese 😐
- 🇨🇳 Chinese* 😊
*中文使用单独的标点增强whisper模型
翻译支持所有语言,配音语言取决于选择的TTS方法。
🔧 安装要求
系统要求
- Python 3.10
- FFmpeg
- CUDA支持(Windows NVIDIA GPU用户)
Windows NVIDIA GPU用户预安装步骤
- 安装 CUDA Toolkit 12.6
- 安装 CUDNN 9.3.0
- 将
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
添加到系统PATH - 重启计算机
FFmpeg安装
- Windows:
choco install ffmpeg
(通过Chocolatey) - macOS:
brew install ffmpeg
(通过Homebrew) - Linux:
sudo apt install ffmpeg
(Debian/Ubuntu)
📥 安装步骤
1. 克隆仓库
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
2. 安装依赖(需要python=3.10)
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
3. 启动应用
streamlit run st.py
Docker安装(可选)
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
需要CUDA 12.4和NVIDIA驱动版本>550
🔌 API支持
VideoLingo支持OpenAI-Like API格式和各种TTS接口:
LLM支持
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
- ...(按性能排序,需谨慎使用gemini-2.5-flash)
WhisperX选项
- 本地运行whisperX (large-v3)
- 使用302.ai API
TTS引擎
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(可在custom_tts.py中修改自定义TTS)
便捷选项
- 使用302.ai一个API密钥访问所有服务(LLM、WhisperX、TTS)
- 本地运行Ollama和Edge-TTS完全免费,无需API
⚠️ 已知限制
音频质量影响:WhisperX转录性能可能受视频背景噪音影响,对于背景音乐较大的视频,请启用人声分离增强功能。
数字字符处理:以数字或特殊字符结尾的字幕可能会被提前截断,因为wav2vac无法将数字字符(如"1")映射到其口语形式(如"one")。
模型兼容性:使用较弱的模型可能由于严格的JSON格式要求导致处理过程中出现错误。
配音完美度:由于语言间语速和语调差异,以及翻译步骤的影响,配音功能可能不是100%完美。
多语言识别:多语言视频转录识别只会保留主要语言。
多角色配音:目前无法单独为多个角色配音,因为whisperX的说话人区分能力不够可靠。