Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases

Outil de traduction, de localisation et de doublage vidéo de qualité Netflix, permettant la découpe, la traduction, l'alignement et le doublage des sous-titres par IA en un seul clic.

Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025

VideoLingo - Outil de sous-titrage et de doublage vidéo IA de qualité Netflix

🌟 Aperçu du projet

VideoLingo est un outil complet intégrant des fonctionnalités de traduction, de localisation et de doublage vidéo, conçu pour générer des sous-titres de qualité Netflix. Ce projet élimine les traductions automatiques maladroites et les problèmes de sous-titres multilignes, tout en ajoutant un doublage de haute qualité, permettant ainsi le partage mondial des connaissances au-delà des barrières linguistiques.

🎯 Caractéristiques principales

Fonctionnalités principales

🎥 Téléchargement de vidéos YouTube : via yt-dlp
🎙️ Reconnaissance vocale de haute précision : utilisation de WhisperX pour la reconnaissance des sous-titres au niveau des mots et à faible hallucination
📝 Segmentation intelligente des sous-titres : basée sur les technologies NLP et IA
📚 Gestion de la terminologie : glossaire personnalisé + généré par IA pour assurer la cohérence de la traduction
🔄 Processus de traduction en trois étapes : traitement de qualité cinématographique : traduction - réflexion - adaptation
✅ Sous-titres aux normes Netflix : génération de sous-titres sur une seule ligne, conformes aux normes Netflix
🗣️ Doublage multi-moteurs : prise en charge de plusieurs moteurs de doublage tels que GPT-SoVITS, Azure, OpenAI, etc.
🚀 Lancement en un clic : via Streamlit pour un lancement et un traitement en un clic
🌍 Interface multilingue : interface utilisateur Streamlit prenant en charge plusieurs langues
📝 Journalisation détaillée : système de journalisation détaillé prenant en charge la reprise de la progression

Différences par rapport aux projets similaires

Génération de sous-titres sur une seule ligne uniquement : conforme aux normes professionnelles
Qualité de traduction exceptionnelle : processus de traduction en plusieurs étapes garantissant la qualité
Expérience de doublage transparente : choix de plusieurs moteurs TTS

🌍 Langues prises en charge

Langues d'entrée prises en charge

🇺🇸 Anglais 🤩
🇷🇺 Russe 😊
🇫🇷 Français 🤩
🇩🇪 Allemand 🤩
🇮🇹 Italien 🤩
🇪🇸 Espagnol 🤩
🇯🇵 Japonais 😐
🇨🇳 Chinois* 😊

*Le chinois utilise un modèle whisper amélioré avec une ponctuation spécifique

La traduction prend en charge toutes les langues, les langues de doublage dépendent de la méthode TTS choisie.

🔧 Exigences d'installation

Configuration système requise

Python 3.10
FFmpeg
Prise en charge de CUDA (utilisateurs Windows avec GPU NVIDIA)

Étapes de pré-installation pour les utilisateurs Windows avec GPU NVIDIA

Installer CUDA Toolkit 12.6
Installer CUDNN 9.3.0
Ajouter C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 au PATH système
Redémarrer l'ordinateur

Installation de FFmpeg

Windows : choco install ffmpeg (via Chocolatey)
macOS : brew install ffmpeg (via Homebrew)
Linux : sudo apt install ffmpeg (Debian/Ubuntu)

📥 Étapes d'installation

1. Cloner le dépôt

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. Installer les dépendances (nécessite python=3.10)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. Lancer l'application

streamlit run st.py

Installation Docker (facultatif)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

Nécessite CUDA 12.4 et une version du pilote NVIDIA > 550

🔌 Prise en charge de l'API

VideoLingo prend en charge le format d'API de type OpenAI et diverses interfaces TTS :

Prise en charge de LLM

claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
... (trié par performance, utiliser gemini-2.5-flash avec prudence)

Options WhisperX

Exécuter whisperX localement (large-v3)
Utiliser l'API 302.ai

Moteurs TTS

azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts (peut être modifié dans custom_tts.py pour un TTS personnalisé)

Options pratiques

Utiliser une clé API 302.ai pour accéder à tous les services (LLM, WhisperX, TTS)
Exécuter Ollama et Edge-TTS localement est entièrement gratuit, sans API

⚠️ Limitations connues

Impact de la qualité audio : Les performances de transcription de WhisperX peuvent être affectées par le bruit de fond de la vidéo. Pour les vidéos avec une musique de fond importante, veuillez activer la fonction d'amélioration de la séparation vocale.
Traitement des caractères numériques : Les sous-titres se terminant par des chiffres ou des caractères spéciaux peuvent être tronqués prématurément, car wav2vac ne peut pas mapper les caractères numériques (par exemple, "1") à leur forme orale (par exemple, "un").
Compatibilité des modèles : L'utilisation de modèles plus faibles peut entraîner des erreurs pendant le traitement en raison d'exigences strictes en matière de format JSON.
Perfection du doublage : En raison des différences de débit de parole et d'intonation entre les langues, ainsi que de l'impact des étapes de traduction, la fonction de doublage peut ne pas être parfaite à 100 %.
Reconnaissance multilingue : La reconnaissance de la transcription vidéo multilingue ne conservera que la langue principale.
Doublage multi-rôles : Il n'est actuellement pas possible de doubler plusieurs rôles séparément, car la capacité de différenciation des locuteurs de whisperX n'est pas suffisamment fiable.