Home
Login

Netflix 等級的影片翻譯、本地化和配音工具,一鍵實現 AI 字幕切割、翻譯、對齊和配音

Apache-2.0Python 13.7kHuanshereVideoLingo Last Updated: 2025-05-18

VideoLingo - Netflix 級 AI 影片翻譯字幕配音工具

🌟 專案概述

VideoLingo 是一個集影片翻譯、本地化和配音功能於一體的綜合工具,旨在生成 Netflix 級別品質的字幕。該專案消除了生硬的機器翻譯和多行字幕問題,同時添加高品質配音,讓全球知識能夠跨越語言障礙進行分享。

🎯 核心特性

主要功能

  • 🎥 YouTube 影片下載:透過 yt-dlp 實現影片下載
  • 🎙️ 高精度語音識別:使用 WhisperX 進行詞級別和低幻覺字幕識別
  • 📝 智慧字幕分割:基於 NLP 和 AI 技術的字幕分割
  • 📚 術語管理:自定義 + AI 生成術語表,確保翻譯連貫性
  • 🔄 三步翻譯流程:翻譯 - 反思 - 适配的電影級品質處理
  • Netflix 標準字幕:僅生成單行字幕,符合 Netflix 標準
  • 🗣️ 多引擎配音:支持 GPT-SoVITS、Azure、OpenAI 等多種配音引擎
  • 🚀 一鍵啟動:透過 Streamlit 實現一鍵啟動和處理
  • 🌍 多語言介面:Streamlit UI 支援多語言
  • 📝 詳細日誌:支援進度恢復的詳細日誌系統

與同類專案的區別

  • 僅生成單行字幕:符合專業標準
  • 卓越的翻譯品質:多步翻譯流程確保品質
  • 無縫配音體驗:多種 TTS 引擎選擇

🌍 支援語言

輸入語言支援

  • 🇺🇸 English 🤩
  • 🇷🇺 Russian 😊
  • 🇫🇷 French 🤩
  • 🇩🇪 German 🤩
  • 🇮🇹 Italian 🤩
  • 🇪🇸 Spanish 🤩
  • 🇯🇵 Japanese 😐
  • 🇨🇳 Chinese* 😊

*中文使用單獨的標點增強 whisper 模型

翻譯支援所有語言,配音語言取決於選擇的 TTS 方法。

🔧 安裝要求

系統要求

  • Python 3.10
  • FFmpeg
  • CUDA 支援(Windows NVIDIA GPU 用戶)

Windows NVIDIA GPU 用戶預安裝步驟

  1. 安裝 CUDA Toolkit 12.6
  2. 安裝 CUDNN 9.3.0
  3. C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 添加到系統 PATH
  4. 重新啟動電腦

FFmpeg 安裝

  • Windows: choco install ffmpeg(透過 Chocolatey)
  • macOS: brew install ffmpeg(透過 Homebrew)
  • Linux: sudo apt install ffmpeg(Debian/Ubuntu)

📥 安裝步驟

1. 克隆倉庫

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. 安裝依賴(需要 python=3.10)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. 啟動應用

streamlit run st.py

Docker 安裝(可選)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

需要 CUDA 12.4 和 NVIDIA 驅動版本 > 550

🔌 API 支援

VideoLingo 支援 OpenAI-Like API 格式和各種 TTS 介面:

LLM 支援

  • claude-3-5-sonnet
  • gpt-4.1
  • deepseek-v3
  • gemini-2.0-flash
  • ...(按性能排序,需謹慎使用 gemini-2.5-flash)

WhisperX 選項

  • 本地運行 whisperX (large-v3)
  • 使用 302.ai API

TTS 引擎

  • azure-tts
  • openai-tts
  • siliconflow-fishtts
  • fish-tts
  • GPT-SoVITS
  • edge-tts
  • *custom-tts(可在 custom_tts.py 中修改自定義 TTS)

便捷選項

  • 使用 302.ai 一個 API 密鑰訪問所有服務(LLM、WhisperX、TTS)
  • 本地運行 Ollama 和 Edge-TTS 完全免費,無需 API

⚠️ 已知限制

  1. 音訊品質影響:WhisperX 轉錄性能可能受影片背景噪音影響,對於背景音樂較大的影片,請啟用人聲分離增強功能。

  2. 數字字符處理:以數字或特殊字符結尾的字幕可能會被提前截斷,因為 wav2vac 無法將數字字符(如 "1")映射到其口語形式(如 "one")。

  3. 模型相容性:使用較弱的模型可能由於嚴格的 JSON 格式要求導致處理過程中出現錯誤。

  4. 配音完美度:由於語言間語速和語調差異,以及翻譯步驟的影響,配音功能可能不是 100% 完美。

  5. 多語言識別:多語言影片轉錄識別只會保留主要語言。

  6. 多角色配音:目前無法單獨為多個角色配音,因為 whisperX 的說話人區分能力不夠可靠。

Star History Chart