VideoLingo ist ein umfassendes Werkzeug, das Videoübersetzung, Lokalisierung und Synchronisation in einem vereint, mit dem Ziel, Untertitel in Netflix-Qualität zu erstellen. Das Projekt beseitigt holprige maschinelle Übersetzungen und mehrzeilige Untertitelprobleme und fügt gleichzeitig hochwertige Synchronisation hinzu, damit globales Wissen sprachübergreifend geteilt werden kann.
*Chinesisch verwendet ein separates Whisper-Modell zur Verbesserung der Zeichensetzung
Die Übersetzung unterstützt alle Sprachen, die Synchronisationssprache hängt von der gewählten TTS-Methode ab.
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
zum System-PATH hinzuchoco install ffmpeg
(über Chocolatey)brew install ffmpeg
(über Homebrew)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
Benötigt CUDA 12.4 und NVIDIA-Treiberversion >550
VideoLingo unterstützt das OpenAI-Like API-Format und verschiedene TTS-Schnittstellen:
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(kann in custom_tts.py geändert werden)Audioqualitätseinfluss: Die Transkriptionsleistung von WhisperX kann durch Hintergrundgeräusche im Video beeinträchtigt werden. Aktivieren Sie für Videos mit lauter Hintergrundmusik die Funktion zur Verbesserung der Sprachtrennung.
Verarbeitung numerischer Zeichen: Untertitel, die mit Zahlen oder Sonderzeichen enden, können vorzeitig abgeschnitten werden, da wav2vac numerische Zeichen (z. B. "1") nicht ihren gesprochenen Formen (z. B. "eins") zuordnen kann.
Modellkompatibilität: Die Verwendung schwächerer Modelle kann aufgrund strenger JSON-Formatanforderungen zu Fehlern im Verarbeitungsprozess führen.
Perfektion der Synchronisation: Aufgrund von Unterschieden in Sprechgeschwindigkeit und Tonlage zwischen den Sprachen sowie den Auswirkungen der Übersetzungsschritte ist die Synchronisationsfunktion möglicherweise nicht zu 100 % perfekt.
Mehrsprachenerkennung: Die Transkriptionserkennung von mehrsprachigen Videos behält nur die Hauptsprache bei.
Mehrere Rollen-Synchronisation: Derzeit ist es nicht möglich, mehrere Rollen separat zu synchronisieren, da die Sprecherunterscheidungsfähigkeit von whisperX nicht zuverlässig genug ist.