Ferramenta de tradução, localização e dublagem de vídeos com qualidade Netflix, que permite corte, tradução, alinhamento e dublagem de legendas com IA em um clique.
VideoLingo - Ferramenta de Legendas e Dublagem de Vídeo com IA Nível Netflix
🌟 Visão Geral do Projeto
VideoLingo é uma ferramenta abrangente que integra tradução de vídeo, localização e dublagem, com o objetivo de gerar legendas com qualidade de nível Netflix. O projeto elimina traduções automáticas bruscas e problemas de legendas em várias linhas, ao mesmo tempo em que adiciona dublagem de alta qualidade, permitindo que o conhecimento global seja compartilhado além das barreiras linguísticas.
🎯 Principais Características
Funcionalidades Principais
- 🎥 Download de Vídeos do YouTube: Download de vídeos via yt-dlp
- 🎙️ Reconhecimento de Voz de Alta Precisão: Utiliza WhisperX para reconhecimento de legendas em nível de palavra e com baixa alucinação
- 📝 Divisão Inteligente de Legendas: Divisão de legendas baseada em NLP e tecnologias de IA
- 📚 Gestão de Terminologia: Glossário personalizado + gerado por IA, garantindo a consistência da tradução
- 🔄 Processo de Tradução em Três Etapas: Processamento de qualidade cinematográfica: tradução - reflexão - adaptação
- ✅ Legendas Padrão Netflix: Gera apenas legendas de uma linha, em conformidade com o padrão Netflix
- 🗣️ Dublagem Multi-Motor: Suporta vários motores de dublagem, como GPT-SoVITS, Azure, OpenAI, etc.
- 🚀 Início com Um Clique: Implementado via Streamlit para início e processamento com um clique
- 🌍 Interface Multilíngue: UI Streamlit com suporte a vários idiomas
- 📝 Log Detalhado: Sistema de log detalhado com suporte à recuperação de progresso
Diferenças em Relação a Projetos Similares
- Gera Apenas Legendas de Uma Linha: Em conformidade com os padrões profissionais
- Qualidade de Tradução Excepcional: Processo de tradução em várias etapas garante a qualidade
- Experiência de Dublagem Perfeita: Várias opções de motor TTS
🌍 Idiomas Suportados
Suporte de Idiomas de Entrada
- 🇺🇸 Inglês 🤩
- 🇷🇺 Russo 😊
- 🇫🇷 Francês 🤩
- 🇩🇪 Alemão 🤩
- 🇮🇹 Italiano 🤩
- 🇪🇸 Espanhol 🤩
- 🇯🇵 Japonês 😐
- 🇨🇳 Chinês* 😊
*Chinês usa um modelo whisper aprimorado com pontuação separada
A tradução suporta todos os idiomas, o idioma da dublagem depende do método TTS selecionado.
🔧 Requisitos de Instalação
Requisitos do Sistema
- Python 3.10
- FFmpeg
- Suporte CUDA (Usuários Windows com GPU NVIDIA)
Etapas de Pré-Instalação para Usuários Windows com GPU NVIDIA
- Instale o CUDA Toolkit 12.6
- Instale o CUDNN 9.3.0
- Adicione
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
ao PATH do sistema - Reinicie o computador
Instalação do FFmpeg
- Windows:
choco install ffmpeg
(via Chocolatey) - macOS:
brew install ffmpeg
(via Homebrew) - Linux:
sudo apt install ffmpeg
(Debian/Ubuntu)
📥 Etapas de Instalação
1. Clone o Repositório
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
2. Instale as Dependências (requer python=3.10)
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
3. Inicie o Aplicativo
streamlit run st.py
Instalação via Docker (Opcional)
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
Requer CUDA 12.4 e versão do driver NVIDIA >550
🔌 Suporte a API
VideoLingo suporta o formato de API semelhante ao OpenAI e várias interfaces TTS:
Suporte LLM
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
- ... (ordenado por desempenho, use gemini-2.5-flash com cautela)
Opções WhisperX
- Execute o whisperX localmente (large-v3)
- Use a API 302.ai
Motores TTS
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(pode ser modificado em custom_tts.py para TTS personalizado)
Opções Convenientes
- Use 302.ai uma chave de API para acessar todos os serviços (LLM, WhisperX, TTS)
- Execute Ollama e Edge-TTS localmente totalmente grátis, sem necessidade de API
⚠️ Limitações Conhecidas
Impacto da Qualidade do Áudio: O desempenho da transcrição do WhisperX pode ser afetado pelo ruído de fundo do vídeo. Para vídeos com música de fundo alta, ative o recurso de aprimoramento de separação vocal.
Processamento de Caracteres Numéricos: Legendas que terminam com números ou caracteres especiais podem ser truncadas prematuramente, pois o wav2vac não consegue mapear caracteres numéricos (como "1") para sua forma falada (como "um").
Compatibilidade do Modelo: O uso de modelos mais fracos pode causar erros durante o processamento devido aos rigorosos requisitos de formato JSON.
Perfeição da Dublagem: Devido às diferenças de velocidade e tom entre os idiomas, bem como ao impacto das etapas de tradução, a função de dublagem pode não ser 100% perfeita.
Reconhecimento Multilíngue: O reconhecimento de transcrição de vídeos multilíngues reterá apenas o idioma principal.
Dublagem de Vários Personagens: Atualmente, não é possível dublar personagens múltiplos separadamente, pois a capacidade de diferenciação de falantes do whisperX não é confiável o suficiente.