VideoLingo 是一個集影片翻譯、本地化和配音功能於一體的綜合工具,旨在生成 Netflix 級別品質的字幕。該專案消除了生硬的機器翻譯和多行字幕問題,同時添加高品質配音,讓全球知識能夠跨越語言障礙進行分享。
*中文使用單獨的標點增強 whisper 模型
翻譯支援所有語言,配音語言取決於選擇的 TTS 方法。
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
添加到系統 PATHchoco install ffmpeg
(透過 Chocolatey)brew install ffmpeg
(透過 Homebrew)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
需要 CUDA 12.4 和 NVIDIA 驅動版本 > 550
VideoLingo 支援 OpenAI-Like API 格式和各種 TTS 介面:
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(可在 custom_tts.py 中修改自定義 TTS)音訊品質影響:WhisperX 轉錄性能可能受影片背景噪音影響,對於背景音樂較大的影片,請啟用人聲分離增強功能。
數字字符處理:以數字或特殊字符結尾的字幕可能會被提前截斷,因為 wav2vac 無法將數字字符(如 "1")映射到其口語形式(如 "one")。
模型相容性:使用較弱的模型可能由於嚴格的 JSON 格式要求導致處理過程中出現錯誤。
配音完美度:由於語言間語速和語調差異,以及翻譯步驟的影響,配音功能可能不是 100% 完美。
多語言識別:多語言影片轉錄識別只會保留主要語言。
多角色配音:目前無法單獨為多個角色配音,因為 whisperX 的說話人區分能力不夠可靠。