VideoLingo é uma ferramenta abrangente que integra tradução de vídeo, localização e dublagem, com o objetivo de gerar legendas com qualidade de nível Netflix. O projeto elimina traduções automáticas bruscas e problemas de legendas em várias linhas, ao mesmo tempo em que adiciona dublagem de alta qualidade, permitindo que o conhecimento global seja compartilhado além das barreiras linguísticas.
*Chinês usa um modelo whisper aprimorado com pontuação separada
A tradução suporta todos os idiomas, o idioma da dublagem depende do método TTS selecionado.
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
ao PATH do sistemachoco install ffmpeg
(via Chocolatey)brew install ffmpeg
(via Homebrew)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
Requer CUDA 12.4 e versão do driver NVIDIA >550
VideoLingo suporta o formato de API semelhante ao OpenAI e várias interfaces TTS:
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(pode ser modificado em custom_tts.py para TTS personalizado)Impacto da Qualidade do Áudio: O desempenho da transcrição do WhisperX pode ser afetado pelo ruído de fundo do vídeo. Para vídeos com música de fundo alta, ative o recurso de aprimoramento de separação vocal.
Processamento de Caracteres Numéricos: Legendas que terminam com números ou caracteres especiais podem ser truncadas prematuramente, pois o wav2vac não consegue mapear caracteres numéricos (como "1") para sua forma falada (como "um").
Compatibilidade do Modelo: O uso de modelos mais fracos pode causar erros durante o processamento devido aos rigorosos requisitos de formato JSON.
Perfeição da Dublagem: Devido às diferenças de velocidade e tom entre os idiomas, bem como ao impacto das etapas de tradução, a função de dublagem pode não ser 100% perfeita.
Reconhecimento Multilíngue: O reconhecimento de transcrição de vídeos multilíngues reterá apenas o idioma principal.
Dublagem de Vários Personagens: Atualmente, não é possível dublar personagens múltiplos separadamente, pois a capacidade de diferenciação de falantes do whisperX não é confiável o suficiente.