Home
Login

Ferramenta de tradução, localização e dublagem de vídeos com qualidade Netflix, que permite corte, tradução, alinhamento e dublagem de legendas com IA em um clique.

Apache-2.0Python 13.7kHuanshereVideoLingo Last Updated: 2025-05-18

VideoLingo - Ferramenta de Legendas e Dublagem de Vídeo com IA Nível Netflix

🌟 Visão Geral do Projeto

VideoLingo é uma ferramenta abrangente que integra tradução de vídeo, localização e dublagem, com o objetivo de gerar legendas com qualidade de nível Netflix. O projeto elimina traduções automáticas bruscas e problemas de legendas em várias linhas, ao mesmo tempo em que adiciona dublagem de alta qualidade, permitindo que o conhecimento global seja compartilhado além das barreiras linguísticas.

🎯 Principais Características

Funcionalidades Principais

  • 🎥 Download de Vídeos do YouTube: Download de vídeos via yt-dlp
  • 🎙️ Reconhecimento de Voz de Alta Precisão: Utiliza WhisperX para reconhecimento de legendas em nível de palavra e com baixa alucinação
  • 📝 Divisão Inteligente de Legendas: Divisão de legendas baseada em NLP e tecnologias de IA
  • 📚 Gestão de Terminologia: Glossário personalizado + gerado por IA, garantindo a consistência da tradução
  • 🔄 Processo de Tradução em Três Etapas: Processamento de qualidade cinematográfica: tradução - reflexão - adaptação
  • Legendas Padrão Netflix: Gera apenas legendas de uma linha, em conformidade com o padrão Netflix
  • 🗣️ Dublagem Multi-Motor: Suporta vários motores de dublagem, como GPT-SoVITS, Azure, OpenAI, etc.
  • 🚀 Início com Um Clique: Implementado via Streamlit para início e processamento com um clique
  • 🌍 Interface Multilíngue: UI Streamlit com suporte a vários idiomas
  • 📝 Log Detalhado: Sistema de log detalhado com suporte à recuperação de progresso

Diferenças em Relação a Projetos Similares

  • Gera Apenas Legendas de Uma Linha: Em conformidade com os padrões profissionais
  • Qualidade de Tradução Excepcional: Processo de tradução em várias etapas garante a qualidade
  • Experiência de Dublagem Perfeita: Várias opções de motor TTS

🌍 Idiomas Suportados

Suporte de Idiomas de Entrada

  • 🇺🇸 Inglês 🤩
  • 🇷🇺 Russo 😊
  • 🇫🇷 Francês 🤩
  • 🇩🇪 Alemão 🤩
  • 🇮🇹 Italiano 🤩
  • 🇪🇸 Espanhol 🤩
  • 🇯🇵 Japonês 😐
  • 🇨🇳 Chinês* 😊

*Chinês usa um modelo whisper aprimorado com pontuação separada

A tradução suporta todos os idiomas, o idioma da dublagem depende do método TTS selecionado.

🔧 Requisitos de Instalação

Requisitos do Sistema

  • Python 3.10
  • FFmpeg
  • Suporte CUDA (Usuários Windows com GPU NVIDIA)

Etapas de Pré-Instalação para Usuários Windows com GPU NVIDIA

  1. Instale o CUDA Toolkit 12.6
  2. Instale o CUDNN 9.3.0
  3. Adicione C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 ao PATH do sistema
  4. Reinicie o computador

Instalação do FFmpeg

  • Windows: choco install ffmpeg (via Chocolatey)
  • macOS: brew install ffmpeg (via Homebrew)
  • Linux: sudo apt install ffmpeg (Debian/Ubuntu)

📥 Etapas de Instalação

1. Clone o Repositório

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. Instale as Dependências (requer python=3.10)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. Inicie o Aplicativo

streamlit run st.py

Instalação via Docker (Opcional)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

Requer CUDA 12.4 e versão do driver NVIDIA >550

🔌 Suporte a API

VideoLingo suporta o formato de API semelhante ao OpenAI e várias interfaces TTS:

Suporte LLM

  • claude-3-5-sonnet
  • gpt-4.1
  • deepseek-v3
  • gemini-2.0-flash
  • ... (ordenado por desempenho, use gemini-2.5-flash com cautela)

Opções WhisperX

  • Execute o whisperX localmente (large-v3)
  • Use a API 302.ai

Motores TTS

  • azure-tts
  • openai-tts
  • siliconflow-fishtts
  • fish-tts
  • GPT-SoVITS
  • edge-tts
  • *custom-tts (pode ser modificado em custom_tts.py para TTS personalizado)

Opções Convenientes

  • Use 302.ai uma chave de API para acessar todos os serviços (LLM, WhisperX, TTS)
  • Execute Ollama e Edge-TTS localmente totalmente grátis, sem necessidade de API

⚠️ Limitações Conhecidas

  1. Impacto da Qualidade do Áudio: O desempenho da transcrição do WhisperX pode ser afetado pelo ruído de fundo do vídeo. Para vídeos com música de fundo alta, ative o recurso de aprimoramento de separação vocal.

  2. Processamento de Caracteres Numéricos: Legendas que terminam com números ou caracteres especiais podem ser truncadas prematuramente, pois o wav2vac não consegue mapear caracteres numéricos (como "1") para sua forma falada (como "um").

  3. Compatibilidade do Modelo: O uso de modelos mais fracos pode causar erros durante o processamento devido aos rigorosos requisitos de formato JSON.

  4. Perfeição da Dublagem: Devido às diferenças de velocidade e tom entre os idiomas, bem como ao impacto das etapas de tradução, a função de dublagem pode não ser 100% perfeita.

  5. Reconhecimento Multilíngue: O reconhecimento de transcrição de vídeos multilíngues reterá apenas o idioma principal.

  6. Dublagem de Vários Personagens: Atualmente, não é possível dublar personagens múltiplos separadamente, pois a capacidade de diferenciação de falantes do whisperX não é confiável o suficiente.

Star History Chart