Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases

Ferramenta de tradução, localização e dublagem de vídeos com qualidade Netflix, que permite corte, tradução, alinhamento e dublagem de legendas com IA em um clique.

Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025

VideoLingo - Ferramenta de Legendas e Dublagem de Vídeo com IA Nível Netflix

🌟 Visão Geral do Projeto

VideoLingo é uma ferramenta abrangente que integra tradução de vídeo, localização e dublagem, com o objetivo de gerar legendas com qualidade de nível Netflix. O projeto elimina traduções automáticas bruscas e problemas de legendas em várias linhas, ao mesmo tempo em que adiciona dublagem de alta qualidade, permitindo que o conhecimento global seja compartilhado além das barreiras linguísticas.

🎯 Principais Características

Funcionalidades Principais

🎥 Download de Vídeos do YouTube: Download de vídeos via yt-dlp
🎙️ Reconhecimento de Voz de Alta Precisão: Utiliza WhisperX para reconhecimento de legendas em nível de palavra e com baixa alucinação
📝 Divisão Inteligente de Legendas: Divisão de legendas baseada em NLP e tecnologias de IA
📚 Gestão de Terminologia: Glossário personalizado + gerado por IA, garantindo a consistência da tradução
🔄 Processo de Tradução em Três Etapas: Processamento de qualidade cinematográfica: tradução - reflexão - adaptação
✅ Legendas Padrão Netflix: Gera apenas legendas de uma linha, em conformidade com o padrão Netflix
🗣️ Dublagem Multi-Motor: Suporta vários motores de dublagem, como GPT-SoVITS, Azure, OpenAI, etc.
🚀 Início com Um Clique: Implementado via Streamlit para início e processamento com um clique
🌍 Interface Multilíngue: UI Streamlit com suporte a vários idiomas
📝 Log Detalhado: Sistema de log detalhado com suporte à recuperação de progresso

Diferenças em Relação a Projetos Similares

Gera Apenas Legendas de Uma Linha: Em conformidade com os padrões profissionais
Qualidade de Tradução Excepcional: Processo de tradução em várias etapas garante a qualidade
Experiência de Dublagem Perfeita: Várias opções de motor TTS

🌍 Idiomas Suportados

Suporte de Idiomas de Entrada

🇺🇸 Inglês 🤩
🇷🇺 Russo 😊
🇫🇷 Francês 🤩
🇩🇪 Alemão 🤩
🇮🇹 Italiano 🤩
🇪🇸 Espanhol 🤩
🇯🇵 Japonês 😐
🇨🇳 Chinês* 😊

*Chinês usa um modelo whisper aprimorado com pontuação separada

A tradução suporta todos os idiomas, o idioma da dublagem depende do método TTS selecionado.

🔧 Requisitos de Instalação

Requisitos do Sistema

Python 3.10
FFmpeg
Suporte CUDA (Usuários Windows com GPU NVIDIA)

Etapas de Pré-Instalação para Usuários Windows com GPU NVIDIA

Instale o CUDA Toolkit 12.6
Instale o CUDNN 9.3.0
Adicione C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 ao PATH do sistema
Reinicie o computador

Instalação do FFmpeg

Windows: choco install ffmpeg (via Chocolatey)
macOS: brew install ffmpeg (via Homebrew)
Linux: sudo apt install ffmpeg (Debian/Ubuntu)

📥 Etapas de Instalação

1. Clone o Repositório

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. Instale as Dependências (requer python=3.10)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. Inicie o Aplicativo

streamlit run st.py

Instalação via Docker (Opcional)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

Requer CUDA 12.4 e versão do driver NVIDIA >550

🔌 Suporte a API

VideoLingo suporta o formato de API semelhante ao OpenAI e várias interfaces TTS:

Suporte LLM

claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
... (ordenado por desempenho, use gemini-2.5-flash com cautela)

Opções WhisperX

Execute o whisperX localmente (large-v3)
Use a API 302.ai

Motores TTS

azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts (pode ser modificado em custom_tts.py para TTS personalizado)

Opções Convenientes

Use 302.ai uma chave de API para acessar todos os serviços (LLM, WhisperX, TTS)
Execute Ollama e Edge-TTS localmente totalmente grátis, sem necessidade de API

⚠️ Limitações Conhecidas

Impacto da Qualidade do Áudio: O desempenho da transcrição do WhisperX pode ser afetado pelo ruído de fundo do vídeo. Para vídeos com música de fundo alta, ative o recurso de aprimoramento de separação vocal.
Processamento de Caracteres Numéricos: Legendas que terminam com números ou caracteres especiais podem ser truncadas prematuramente, pois o wav2vac não consegue mapear caracteres numéricos (como "1") para sua forma falada (como "um").
Compatibilidade do Modelo: O uso de modelos mais fracos pode causar erros durante o processamento devido aos rigorosos requisitos de formato JSON.
Perfeição da Dublagem: Devido às diferenças de velocidade e tom entre os idiomas, bem como ao impacto das etapas de tradução, a função de dublagem pode não ser 100% perfeita.
Reconhecimento Multilíngue: O reconhecimento de transcrição de vídeos multilíngues reterá apenas o idioma principal.
Dublagem de Vários Personagens: Atualmente, não é possível dublar personagens múltiplos separadamente, pois a capacidade de diferenciação de falantes do whisperX não é confiável o suficiente.