Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases

Herramienta de traducción, localización y doblaje de videos con calidad de Netflix, que permite el corte, la traducción, la alineación y el doblaje de subtítulos con IA con un solo clic.

Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025

VideoLingo - Herramienta de Subtitulado y Doblaje de Video con IA Nivel Netflix

🌟 Resumen del Proyecto

VideoLingo es una herramienta integral que integra funciones de traducción, localización y doblaje de video, diseñada para generar subtítulos con calidad de nivel Netflix. Este proyecto elimina las traducciones automáticas torpes y los problemas de subtítulos de varias líneas, al tiempo que agrega doblaje de alta calidad, permitiendo que el conocimiento global se comparta a través de las barreras del idioma.

🎯 Características Principales

Funciones Principales

🎥 Descarga de Videos de YouTube: Implementada a través de yt-dlp.
🎙️ Reconocimiento de Voz de Alta Precisión: Utiliza WhisperX para reconocimiento de subtítulos a nivel de palabra y con baja alucinación.
📝 División Inteligente de Subtítulos: Basada en NLP y tecnologías de IA.
📚 Gestión de Terminología: Tablas de terminología personalizadas + generadas por IA para asegurar la coherencia de la traducción.
🔄 Proceso de Traducción en Tres Pasos: Tratamiento de calidad cinematográfica: traducción - reflexión - adaptación.
✅ Subtítulos Estándar de Netflix: Genera solo subtítulos de una sola línea, cumpliendo con los estándares de Netflix.
🗣️ Doblaje Multi-Motor: Soporta múltiples motores de doblaje como GPT-SoVITS, Azure, OpenAI, etc.
🚀 Inicio con Un Clic: Implementado a través de Streamlit para inicio y procesamiento con un solo clic.
🌍 Interfaz Multi-Idioma: La interfaz de Streamlit UI soporta múltiples idiomas.
📝 Registro Detallado: Sistema de registro detallado que soporta la recuperación del progreso.

Diferencias con Proyectos Similares

Solo Genera Subtítulos de Una Sola Línea: Cumple con los estándares profesionales.
Calidad de Traducción Superior: El proceso de traducción en múltiples pasos asegura la calidad.
Experiencia de Doblaje Fluida: Variedad de opciones de motores TTS.

🌍 Idiomas Soportados

Idiomas de Entrada Soportados

🇺🇸 Inglés 🤩
🇷🇺 Ruso 😊
🇫🇷 Francés 🤩
🇩🇪 Alemán 🤩
🇮🇹 Italiano 🤩
🇪🇸 Español 🤩
🇯🇵 Japonés 😐
🇨🇳 Chino* 😊

*El chino utiliza un modelo whisper mejorado con puntuación separada.

La traducción soporta todos los idiomas, el doblaje depende del método TTS seleccionado.

🔧 Requisitos de Instalación

Requisitos del Sistema

Python 3.10
FFmpeg
Soporte CUDA (Usuarios de Windows con GPU NVIDIA)

Pasos de Pre-Instalación para Usuarios de Windows con GPU NVIDIA

Instalar CUDA Toolkit 12.6
Instalar CUDNN 9.3.0
Agregar C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 al PATH del sistema.
Reiniciar la computadora.

Instalación de FFmpeg

Windows: choco install ffmpeg (a través de Chocolatey)
macOS: brew install ffmpeg (a través de Homebrew)
Linux: sudo apt install ffmpeg (Debian/Ubuntu)

📥 Pasos de Instalación

1. Clonar el Repositorio

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. Instalar Dependencias (requiere python=3.10)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. Iniciar la Aplicación

streamlit run st.py

Instalación con Docker (Opcional)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

Requiere CUDA 12.4 y versión de controlador NVIDIA >550

🔌 Soporte API

VideoLingo soporta el formato de API similar a OpenAI y varias interfaces TTS:

Soporte LLM

claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
... (ordenado por rendimiento, usar gemini-2.5-flash con precaución)

Opciones de WhisperX

Ejecutar whisperX localmente (large-v3)
Usar la API de 302.ai

Motores TTS

azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts (se puede modificar el TTS personalizado en custom_tts.py)

Opciones Convenientes

Usar una clave API de 302.ai para acceder a todos los servicios (LLM, WhisperX, TTS).
Ejecutar Ollama y Edge-TTS localmente es completamente gratuito, sin necesidad de API.

⚠️ Limitaciones Conocidas

Impacto de la Calidad del Audio: El rendimiento de la transcripción de WhisperX puede verse afectado por el ruido de fondo del video. Para videos con música de fondo fuerte, habilite la función de mejora de separación de voz.
Procesamiento de Caracteres Numéricos: Los subtítulos que terminan con números o caracteres especiales pueden truncarse prematuramente porque wav2vac no puede mapear caracteres numéricos (como "1") a su forma hablada (como "uno").
Compatibilidad del Modelo: El uso de modelos más débiles puede causar errores durante el procesamiento debido a los estrictos requisitos de formato JSON.
Perfección del Doblaje: Debido a las diferencias en la velocidad y el tono entre los idiomas, así como al impacto de los pasos de traducción, la función de doblaje puede no ser 100% perfecta.
Reconocimiento Multi-Idioma: El reconocimiento de transcripción de videos multi-idioma solo conservará el idioma principal.
Doblaje Multi-Personaje: Actualmente no es posible doblar individualmente a múltiples personajes porque la capacidad de distinción de hablantes de whisperX no es lo suficientemente confiable.