VideoLingoは、動画翻訳、ローカライズ、吹き替え機能を統合したツールで、Netflixレベルの高品質な字幕生成を目指しています。機械翻訳特有の不自然さや複数行字幕の問題を解消し、高品質な吹き替えを追加することで、世界中の知識が言語の壁を越えて共有されることを可能にします。
*中国語は個別の句読点強化whisperモデルを使用
翻訳はすべての言語をサポートし、吹き替え言語は選択したTTS方法によって異なります。
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
をシステムPATHに追加choco install ffmpeg
(Chocolatey経由)brew install ffmpeg
(Homebrew経由)sudo apt install ffmpeg
(Debian/Ubuntu)git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
streamlit run st.py
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
CUDA 12.4とNVIDIAドライバーバージョン>550が必要
VideoLingoはOpenAI-Like API形式と様々なTTSインターフェースをサポートします。
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(custom_tts.pyでカスタムTTSを変更可能)音声品質の影響:WhisperXの転写性能は、動画の背景ノイズの影響を受ける可能性があります。背景音楽が大きい動画の場合は、ボーカル分離強化機能を有効にしてください。
数字文字の処理:数字または特殊文字で終わる字幕は、wav2vacが数字文字(例:「1」)をその口語形(例:「one」)にマッピングできないため、途中で切り捨てられることがあります。
モデルの互換性:弱いモデルを使用すると、厳格なJSON形式の要件により、処理中にエラーが発生する可能性があります。
吹き替えの完璧さ:言語間の語速や語調の違い、および翻訳ステップの影響により、吹き替え機能は100%完璧ではない可能性があります。
多言語認識:多言語動画の転写認識では、主要言語のみが保持されます。
マルチキャラクター吹き替え:whisperXの話し手区別能力が十分ではないため、現時点では複数のキャラクターに個別に吹き替えを行うことはできません。