VideoLingo es una herramienta integral que integra funciones de traducción, localización y doblaje de video, diseñada para generar subtítulos con calidad de nivel Netflix. Este proyecto elimina las traducciones automáticas torpes y los problemas de subtítulos de varias líneas, al tiempo que agrega doblaje de alta calidad, permitiendo que el conocimiento global se comparta a través de las barreras del idioma.
*El chino utiliza un modelo whisper mejorado con puntuación separada.
La traducción soporta todos los idiomas, el doblaje depende del método TTS seleccionado.
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
al PATH del sistema.choco install ffmpeg
(a través de Chocolatey)brew install ffmpeg
(a través de Homebrew)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
Requiere CUDA 12.4 y versión de controlador NVIDIA >550
VideoLingo soporta el formato de API similar a OpenAI y varias interfaces TTS:
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
gemini-2.5-flash
con precaución)azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(se puede modificar el TTS personalizado en custom_tts.py)Impacto de la Calidad del Audio: El rendimiento de la transcripción de WhisperX puede verse afectado por el ruido de fondo del video. Para videos con música de fondo fuerte, habilite la función de mejora de separación de voz.
Procesamiento de Caracteres Numéricos: Los subtítulos que terminan con números o caracteres especiales pueden truncarse prematuramente porque wav2vac no puede mapear caracteres numéricos (como "1") a su forma hablada (como "uno").
Compatibilidad del Modelo: El uso de modelos más débiles puede causar errores durante el procesamiento debido a los estrictos requisitos de formato JSON.
Perfección del Doblaje: Debido a las diferencias en la velocidad y el tono entre los idiomas, así como al impacto de los pasos de traducción, la función de doblaje puede no ser 100% perfecta.
Reconocimiento Multi-Idioma: El reconocimiento de transcripción de videos multi-idioma solo conservará el idioma principal.
Doblaje Multi-Personaje: Actualmente no es posible doblar individualmente a múltiples personajes porque la capacidad de distinción de hablantes de whisperX no es lo suficientemente confiable.