AIBARS 首页资讯登录

Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases

Netflix级别的视频翻译、本地化和配音工具，一键实现AI字幕切割、翻译、对齐和配音

Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025

VideoLingo - Netflix级AI视频翻译字幕配音工具

🌟 项目概述

VideoLingo是一个集视频翻译、本地化和配音功能于一体的综合工具，旨在生成Netflix级别质量的字幕。该项目消除了生硬的机器翻译和多行字幕问题，同时添加高质量配音，让全球知识能够跨越语言障碍进行分享。

🎯 核心特性

主要功能

🎥 YouTube视频下载：通过yt-dlp实现视频下载
🎙️ 高精度语音识别：使用WhisperX进行词级别和低幻觉字幕识别
📝 智能字幕分割：基于NLP和AI技术的字幕分割
📚 术语管理：自定义+AI生成术语表，确保翻译连贯性
🔄 三步翻译流程：翻译-反思-适配的电影级质量处理
✅ Netflix标准字幕：仅生成单行字幕，符合Netflix标准
🗣️ 多引擎配音：支持GPT-SoVITS、Azure、OpenAI等多种配音引擎
🚀 一键启动：通过Streamlit实现一键启动和处理
🌍 多语言界面：Streamlit UI支持多语言
📝 详细日志：支持进度恢复的详细日志系统

与同类项目的区别

仅生成单行字幕：符合专业标准
卓越的翻译质量：多步翻译流程确保质量
无缝配音体验：多种TTS引擎选择

🌍 支持语言

输入语言支持

🇺🇸 English 🤩
🇷🇺 Russian 😊
🇫🇷 French 🤩
🇩🇪 German 🤩
🇮🇹 Italian 🤩
🇪🇸 Spanish 🤩
🇯🇵 Japanese 😐
🇨🇳 Chinese* 😊

*中文使用单独的标点增强whisper模型

翻译支持所有语言，配音语言取决于选择的TTS方法。

🔧 安装要求

系统要求

Python 3.10
FFmpeg
CUDA支持（Windows NVIDIA GPU用户）

Windows NVIDIA GPU用户预安装步骤

安装 CUDA Toolkit 12.6
安装 CUDNN 9.3.0
将 C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 添加到系统PATH
重启计算机

FFmpeg安装

Windows: choco install ffmpeg（通过Chocolatey）
macOS: brew install ffmpeg（通过Homebrew）
Linux: sudo apt install ffmpeg（Debian/Ubuntu）

📥 安装步骤

1. 克隆仓库

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. 安装依赖（需要python=3.10）

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. 启动应用

streamlit run st.py

Docker安装（可选）

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

需要CUDA 12.4和NVIDIA驱动版本>550

🔌 API支持

VideoLingo支持OpenAI-Like API格式和各种TTS接口：

LLM支持

claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
...（按性能排序，需谨慎使用gemini-2.5-flash）

WhisperX选项

本地运行whisperX (large-v3)
使用302.ai API

TTS引擎

azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts（可在custom_tts.py中修改自定义TTS）

便捷选项

使用302.ai一个API密钥访问所有服务（LLM、WhisperX、TTS）
本地运行Ollama和Edge-TTS完全免费，无需API

⚠️ 已知限制

音频质量影响：WhisperX转录性能可能受视频背景噪音影响，对于背景音乐较大的视频，请启用人声分离增强功能。
数字字符处理：以数字或特殊字符结尾的字幕可能会被提前截断，因为wav2vac无法将数字字符（如"1"）映射到其口语形式（如"one"）。
模型兼容性：使用较弱的模型可能由于严格的JSON格式要求导致处理过程中出现错误。
配音完美度：由于语言间语速和语调差异，以及翻译步骤的影响，配音功能可能不是100%完美。
多语言识别：多语言视频转录识别只会保留主要语言。
多角色配音：目前无法单独为多个角色配音，因为whisperX的说话人区分能力不够可靠。