Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases
Netflix 等級的影片翻譯、本地化和配音工具,一鍵實現 AI 字幕切割、翻譯、對齊和配音
Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025
VideoLingo - Netflix 級 AI 影片翻譯字幕配音工具
🌟 專案概述
VideoLingo 是一個集影片翻譯、本地化和配音功能於一體的綜合工具,旨在生成 Netflix 級別品質的字幕。該專案消除了生硬的機器翻譯和多行字幕問題,同時添加高品質配音,讓全球知識能夠跨越語言障礙進行分享。
🎯 核心特性
主要功能
- 🎥 YouTube 影片下載:透過 yt-dlp 實現影片下載
- 🎙️ 高精度語音識別:使用 WhisperX 進行詞級別和低幻覺字幕識別
- 📝 智慧字幕分割:基於 NLP 和 AI 技術的字幕分割
- 📚 術語管理:自定義 + AI 生成術語表,確保翻譯連貫性
- 🔄 三步翻譯流程:翻譯 - 反思 - 适配的電影級品質處理
- ✅ Netflix 標準字幕:僅生成單行字幕,符合 Netflix 標準
- 🗣️ 多引擎配音:支持 GPT-SoVITS、Azure、OpenAI 等多種配音引擎
- 🚀 一鍵啟動:透過 Streamlit 實現一鍵啟動和處理
- 🌍 多語言介面:Streamlit UI 支援多語言
- 📝 詳細日誌:支援進度恢復的詳細日誌系統
與同類專案的區別
- 僅生成單行字幕:符合專業標準
- 卓越的翻譯品質:多步翻譯流程確保品質
- 無縫配音體驗:多種 TTS 引擎選擇
🌍 支援語言
輸入語言支援
- 🇺🇸 English 🤩
- 🇷🇺 Russian 😊
- 🇫🇷 French 🤩
- 🇩🇪 German 🤩
- 🇮🇹 Italian 🤩
- 🇪🇸 Spanish 🤩
- 🇯🇵 Japanese 😐
- 🇨🇳 Chinese* 😊
*中文使用單獨的標點增強 whisper 模型
翻譯支援所有語言,配音語言取決於選擇的 TTS 方法。
🔧 安裝要求
系統要求
- Python 3.10
- FFmpeg
- CUDA 支援(Windows NVIDIA GPU 用戶)
Windows NVIDIA GPU 用戶預安裝步驟
- 安裝 CUDA Toolkit 12.6
- 安裝 CUDNN 9.3.0
- 將
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
添加到系統 PATH - 重新啟動電腦
FFmpeg 安裝
- Windows:
choco install ffmpeg
(透過 Chocolatey) - macOS:
brew install ffmpeg
(透過 Homebrew) - Linux:
sudo apt install ffmpeg
(Debian/Ubuntu)
📥 安裝步驟
1. 克隆倉庫
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
2. 安裝依賴(需要 python=3.10)
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
3. 啟動應用
streamlit run st.py
Docker 安裝(可選)
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
需要 CUDA 12.4 和 NVIDIA 驅動版本 > 550
🔌 API 支援
VideoLingo 支援 OpenAI-Like API 格式和各種 TTS 介面:
LLM 支援
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
- ...(按性能排序,需謹慎使用 gemini-2.5-flash)
WhisperX 選項
- 本地運行 whisperX (large-v3)
- 使用 302.ai API
TTS 引擎
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(可在 custom_tts.py 中修改自定義 TTS)
便捷選項
- 使用 302.ai 一個 API 密鑰訪問所有服務(LLM、WhisperX、TTS)
- 本地運行 Ollama 和 Edge-TTS 完全免費,無需 API
⚠️ 已知限制
音訊品質影響:WhisperX 轉錄性能可能受影片背景噪音影響,對於背景音樂較大的影片,請啟用人聲分離增強功能。
數字字符處理:以數字或特殊字符結尾的字幕可能會被提前截斷,因為 wav2vac 無法將數字字符(如 "1")映射到其口語形式(如 "one")。
模型相容性:使用較弱的模型可能由於嚴格的 JSON 格式要求導致處理過程中出現錯誤。
配音完美度:由於語言間語速和語調差異,以及翻譯步驟的影響,配音功能可能不是 100% 完美。
多語言識別:多語言影片轉錄識別只會保留主要語言。
多角色配音:目前無法單獨為多個角色配音,因為 whisperX 的說話人區分能力不夠可靠。