Home
Login

Netflix级别的视频翻译、本地化和配音工具,一键实现AI字幕切割、翻译、对齐和配音

Apache-2.0Python 13.7kHuanshereVideoLingo Last Updated: 2025-05-18

VideoLingo - Netflix级AI视频翻译字幕配音工具

🌟 项目概述

VideoLingo是一个集视频翻译、本地化和配音功能于一体的综合工具,旨在生成Netflix级别质量的字幕。该项目消除了生硬的机器翻译和多行字幕问题,同时添加高质量配音,让全球知识能够跨越语言障碍进行分享。

🎯 核心特性

主要功能

  • 🎥 YouTube视频下载:通过yt-dlp实现视频下载
  • 🎙️ 高精度语音识别:使用WhisperX进行词级别和低幻觉字幕识别
  • 📝 智能字幕分割:基于NLP和AI技术的字幕分割
  • 📚 术语管理:自定义+AI生成术语表,确保翻译连贯性
  • 🔄 三步翻译流程:翻译-反思-适配的电影级质量处理
  • Netflix标准字幕:仅生成单行字幕,符合Netflix标准
  • 🗣️ 多引擎配音:支持GPT-SoVITS、Azure、OpenAI等多种配音引擎
  • 🚀 一键启动:通过Streamlit实现一键启动和处理
  • 🌍 多语言界面:Streamlit UI支持多语言
  • 📝 详细日志:支持进度恢复的详细日志系统

与同类项目的区别

  • 仅生成单行字幕:符合专业标准
  • 卓越的翻译质量:多步翻译流程确保质量
  • 无缝配音体验:多种TTS引擎选择

🌍 支持语言

输入语言支持

  • 🇺🇸 English 🤩
  • 🇷🇺 Russian 😊
  • 🇫🇷 French 🤩
  • 🇩🇪 German 🤩
  • 🇮🇹 Italian 🤩
  • 🇪🇸 Spanish 🤩
  • 🇯🇵 Japanese 😐
  • 🇨🇳 Chinese* 😊

*中文使用单独的标点增强whisper模型

翻译支持所有语言,配音语言取决于选择的TTS方法。

🔧 安装要求

系统要求

  • Python 3.10
  • FFmpeg
  • CUDA支持(Windows NVIDIA GPU用户)

Windows NVIDIA GPU用户预安装步骤

  1. 安装 CUDA Toolkit 12.6
  2. 安装 CUDNN 9.3.0
  3. C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 添加到系统PATH
  4. 重启计算机

FFmpeg安装

  • Windows: choco install ffmpeg(通过Chocolatey)
  • macOS: brew install ffmpeg(通过Homebrew)
  • Linux: sudo apt install ffmpeg(Debian/Ubuntu)

📥 安装步骤

1. 克隆仓库

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. 安装依赖(需要python=3.10)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. 启动应用

streamlit run st.py

Docker安装(可选)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

需要CUDA 12.4和NVIDIA驱动版本>550

🔌 API支持

VideoLingo支持OpenAI-Like API格式和各种TTS接口:

LLM支持

  • claude-3-5-sonnet
  • gpt-4.1
  • deepseek-v3
  • gemini-2.0-flash
  • ...(按性能排序,需谨慎使用gemini-2.5-flash)

WhisperX选项

  • 本地运行whisperX (large-v3)
  • 使用302.ai API

TTS引擎

  • azure-tts
  • openai-tts
  • siliconflow-fishtts
  • fish-tts
  • GPT-SoVITS
  • edge-tts
  • *custom-tts(可在custom_tts.py中修改自定义TTS)

便捷选项

  • 使用302.ai一个API密钥访问所有服务(LLM、WhisperX、TTS)
  • 本地运行Ollama和Edge-TTS完全免费,无需API

⚠️ 已知限制

  1. 音频质量影响:WhisperX转录性能可能受视频背景噪音影响,对于背景音乐较大的视频,请启用人声分离增强功能。

  2. 数字字符处理:以数字或特殊字符结尾的字幕可能会被提前截断,因为wav2vac无法将数字字符(如"1")映射到其口语形式(如"one")。

  3. 模型兼容性:使用较弱的模型可能由于严格的JSON格式要求导致处理过程中出现错误。

  4. 配音完美度:由于语言间语速和语调差异,以及翻译步骤的影响,配音功能可能不是100%完美。

  5. 多语言识别:多语言视频转录识别只会保留主要语言。

  6. 多角色配音:目前无法单独为多个角色配音,因为whisperX的说话人区分能力不够可靠。

Star History Chart