Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases
Netflixレベルの動画翻訳、ローカライズ、吹き替えツール。AI字幕の分割、翻訳、調整、吹き替えをワンクリックで実現
Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025
VideoLingo - NetflixレベルのAI動画翻訳字幕・吹き替えツール
🌟 プロジェクト概要
VideoLingoは、動画翻訳、ローカライズ、吹き替え機能を統合したツールで、Netflixレベルの高品質な字幕生成を目指しています。機械翻訳特有の不自然さや複数行字幕の問題を解消し、高品質な吹き替えを追加することで、世界中の知識が言語の壁を越えて共有されることを可能にします。
🎯 主要機能
主な機能
- 🎥 YouTube動画ダウンロード:yt-dlpを使用して動画をダウンロード
- 🎙️ 高精度音声認識:WhisperXを使用して単語レベルで低ハルシネーションな字幕を認識
- 📝 スマート字幕分割:NLPとAI技術に基づいた字幕分割
- 📚 用語管理:カスタム+AI生成の用語集で、翻訳の一貫性を確保
- 🔄 3ステップ翻訳プロセス:翻訳-反省-適応の映画品質処理
- ✅ Netflix標準字幕:単一行字幕のみを生成し、Netflix標準に準拠
- 🗣️ マルチエンジン吹き替え:GPT-SoVITS、Azure、OpenAIなど、様々な吹き替えエンジンをサポート
- 🚀 ワンクリック起動:Streamlitを使用してワンクリックで起動・処理
- 🌍 多言語インターフェース:Streamlit UIは多言語をサポート
- 📝 詳細ログ:進捗状況の復元をサポートする詳細なログシステム
同種のプロジェクトとの違い
- 単一行字幕のみ生成:プロフェッショナルな基準に準拠
- 卓越した翻訳品質:多段階翻訳プロセスで品質を確保
- シームレスな吹き替え体験:多様なTTSエンジンを選択可能
🌍 対応言語
入力言語サポート
- 🇺🇸 English 🤩
- 🇷🇺 Russian 😊
- 🇫🇷 French 🤩
- 🇩🇪 German 🤩
- 🇮🇹 Italian 🤩
- 🇪🇸 Spanish 🤩
- 🇯🇵 Japanese 😐
- 🇨🇳 Chinese* 😊
*中国語は個別の句読点強化whisperモデルを使用
翻訳はすべての言語をサポートし、吹き替え言語は選択したTTS方法によって異なります。
🔧 インストール要件
システム要件
- Python 3.10
- FFmpeg
- CUDAサポート(Windows NVIDIA GPUユーザー)
Windows NVIDIA GPUユーザー向け事前インストール手順
- CUDA Toolkit 12.6 をインストール
- CUDNN 9.3.0 をインストール
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
をシステムPATHに追加- コンピューターを再起動
FFmpegインストール
- Windows:
choco install ffmpeg
(Chocolatey経由) - macOS:
brew install ffmpeg
(Homebrew経由) - Linux:
sudo apt install ffmpeg
(Debian/Ubuntu)
📥 インストール手順
1. リポジトリをクローン
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
2. 依存関係をインストール(python=3.10が必要)
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
3. アプリケーションを起動
streamlit run st.py
Dockerインストール(オプション)
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
CUDA 12.4とNVIDIAドライバーバージョン>550が必要
🔌 APIサポート
VideoLingoはOpenAI-Like API形式と様々なTTSインターフェースをサポートします。
LLMサポート
claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
- ...(性能順、gemini-2.5-flashの使用は慎重に)
WhisperXオプション
- ローカルでwhisperX (large-v3)を実行
- 302.ai APIを使用
TTSエンジン
azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts
(custom_tts.pyでカスタムTTSを変更可能)
便利なオプション
- 302.aiのAPIキー1つで、すべてのサービス(LLM、WhisperX、TTS)にアクセス
- ローカルでOllamaとEdge-TTSを実行すると完全に無料で、APIは不要
⚠️ 既知の制限事項
音声品質の影響:WhisperXの転写性能は、動画の背景ノイズの影響を受ける可能性があります。背景音楽が大きい動画の場合は、ボーカル分離強化機能を有効にしてください。
数字文字の処理:数字または特殊文字で終わる字幕は、wav2vacが数字文字(例:「1」)をその口語形(例:「one」)にマッピングできないため、途中で切り捨てられることがあります。
モデルの互換性:弱いモデルを使用すると、厳格なJSON形式の要件により、処理中にエラーが発生する可能性があります。
吹き替えの完璧さ:言語間の語速や語調の違い、および翻訳ステップの影響により、吹き替え機能は100%完璧ではない可能性があります。
多言語認識:多言語動画の転写認識では、主要言語のみが保持されます。
マルチキャラクター吹き替え:whisperXの話し手区別能力が十分ではないため、現時点では複数のキャラクターに個別に吹き替えを行うことはできません。