AIBARS 首頁資訊登錄

Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases

Netflix 等級的影片翻譯、本地化和配音工具，一鍵實現 AI 字幕切割、翻譯、對齊和配音

Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025

VideoLingo - Netflix 級 AI 影片翻譯字幕配音工具

🌟 專案概述

VideoLingo 是一個集影片翻譯、本地化和配音功能於一體的綜合工具，旨在生成 Netflix 級別品質的字幕。該專案消除了生硬的機器翻譯和多行字幕問題，同時添加高品質配音，讓全球知識能夠跨越語言障礙進行分享。

🎯 核心特性

主要功能

🎥 YouTube 影片下載：透過 yt-dlp 實現影片下載
🎙️ 高精度語音識別：使用 WhisperX 進行詞級別和低幻覺字幕識別
📝 智慧字幕分割：基於 NLP 和 AI 技術的字幕分割
📚 術語管理：自定義 + AI 生成術語表，確保翻譯連貫性
🔄 三步翻譯流程：翻譯 - 反思 - 适配的電影級品質處理
✅ Netflix 標準字幕：僅生成單行字幕，符合 Netflix 標準
🗣️ 多引擎配音：支持 GPT-SoVITS、Azure、OpenAI 等多種配音引擎
🚀 一鍵啟動：透過 Streamlit 實現一鍵啟動和處理
🌍 多語言介面：Streamlit UI 支援多語言
📝 詳細日誌：支援進度恢復的詳細日誌系統

與同類專案的區別

僅生成單行字幕：符合專業標準
卓越的翻譯品質：多步翻譯流程確保品質
無縫配音體驗：多種 TTS 引擎選擇

🌍 支援語言

輸入語言支援

🇺🇸 English 🤩
🇷🇺 Russian 😊
🇫🇷 French 🤩
🇩🇪 German 🤩
🇮🇹 Italian 🤩
🇪🇸 Spanish 🤩
🇯🇵 Japanese 😐
🇨🇳 Chinese* 😊

*中文使用單獨的標點增強 whisper 模型

翻譯支援所有語言，配音語言取決於選擇的 TTS 方法。

🔧 安裝要求

系統要求

Python 3.10
FFmpeg
CUDA 支援（Windows NVIDIA GPU 用戶）

Windows NVIDIA GPU 用戶預安裝步驟

安裝 CUDA Toolkit 12.6
安裝 CUDNN 9.3.0
將 C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 添加到系統 PATH
重新啟動電腦

FFmpeg 安裝

Windows: choco install ffmpeg（透過 Chocolatey）
macOS: brew install ffmpeg（透過 Homebrew）
Linux: sudo apt install ffmpeg（Debian/Ubuntu）

📥 安裝步驟

1. 克隆倉庫

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. 安裝依賴（需要 python=3.10）

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. 啟動應用

streamlit run st.py

Docker 安裝（可選）

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

需要 CUDA 12.4 和 NVIDIA 驅動版本 > 550

🔌 API 支援

VideoLingo 支援 OpenAI-Like API 格式和各種 TTS 介面：

LLM 支援

claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
...（按性能排序，需謹慎使用 gemini-2.5-flash）

WhisperX 選項

本地運行 whisperX (large-v3)
使用 302.ai API

TTS 引擎

azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts（可在 custom_tts.py 中修改自定義 TTS）

便捷選項

使用 302.ai 一個 API 密鑰訪問所有服務（LLM、WhisperX、TTS）
本地運行 Ollama 和 Edge-TTS 完全免費，無需 API

⚠️ 已知限制

音訊品質影響：WhisperX 轉錄性能可能受影片背景噪音影響，對於背景音樂較大的影片，請啟用人聲分離增強功能。
數字字符處理：以數字或特殊字符結尾的字幕可能會被提前截斷，因為 wav2vac 無法將數字字符（如 "1"）映射到其口語形式（如 "one"）。
模型相容性：使用較弱的模型可能由於嚴格的 JSON 格式要求導致處理過程中出現錯誤。
配音完美度：由於語言間語速和語調差異，以及翻譯步驟的影響，配音功能可能不是 100% 完美。
多語言識別：多語言影片轉錄識別只會保留主要語言。
多角色配音：目前無法單獨為多個角色配音，因為 whisperX 的說話人區分能力不夠可靠。