AIBARS ホームニュースログイン

Huanshere/VideoLingoView GitHub Homepage for Latest Official Releases

Netflixレベルの動画翻訳、ローカライズ、吹き替えツール。AI字幕の分割、翻訳、調整、吹き替えをワンクリックで実現

Apache-2.0PythonVideoLingoHuanshere 14.9k Last Updated: May 18, 2025

VideoLingo - NetflixレベルのAI動画翻訳字幕・吹き替えツール

🌟 プロジェクト概要

VideoLingoは、動画翻訳、ローカライズ、吹き替え機能を統合したツールで、Netflixレベルの高品質な字幕生成を目指しています。機械翻訳特有の不自然さや複数行字幕の問題を解消し、高品質な吹き替えを追加することで、世界中の知識が言語の壁を越えて共有されることを可能にします。

🎯 主要機能

主な機能

🎥 YouTube動画ダウンロード：yt-dlpを使用して動画をダウンロード
🎙️ 高精度音声認識：WhisperXを使用して単語レベルで低ハルシネーションな字幕を認識
📝 スマート字幕分割：NLPとAI技術に基づいた字幕分割
📚 用語管理：カスタム+AI生成の用語集で、翻訳の一貫性を確保
🔄 3ステップ翻訳プロセス：翻訳-反省-適応の映画品質処理
✅ Netflix標準字幕：単一行字幕のみを生成し、Netflix標準に準拠
🗣️ マルチエンジン吹き替え：GPT-SoVITS、Azure、OpenAIなど、様々な吹き替えエンジンをサポート
🚀 ワンクリック起動：Streamlitを使用してワンクリックで起動・処理
🌍 多言語インターフェース：Streamlit UIは多言語をサポート
📝 詳細ログ：進捗状況の復元をサポートする詳細なログシステム

同種のプロジェクトとの違い

単一行字幕のみ生成：プロフェッショナルな基準に準拠
卓越した翻訳品質：多段階翻訳プロセスで品質を確保
シームレスな吹き替え体験：多様なTTSエンジンを選択可能

🌍 対応言語

入力言語サポート

🇺🇸 English 🤩
🇷🇺 Russian 😊
🇫🇷 French 🤩
🇩🇪 German 🤩
🇮🇹 Italian 🤩
🇪🇸 Spanish 🤩
🇯🇵 Japanese 😐
🇨🇳 Chinese* 😊

*中国語は個別の句読点強化whisperモデルを使用

翻訳はすべての言語をサポートし、吹き替え言語は選択したTTS方法によって異なります。

🔧 インストール要件

システム要件

Python 3.10
FFmpeg
CUDAサポート（Windows NVIDIA GPUユーザー）

Windows NVIDIA GPUユーザー向け事前インストール手順

CUDA Toolkit 12.6 をインストール
CUDNN 9.3.0 をインストール
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 をシステムPATHに追加
コンピューターを再起動

FFmpegインストール

Windows: choco install ffmpeg（Chocolatey経由）
macOS: brew install ffmpeg（Homebrew経由）
Linux: sudo apt install ffmpeg（Debian/Ubuntu）

📥 インストール手順

1. リポジトリをクローン

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. 依存関係をインストール（python=3.10が必要）

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. アプリケーションを起動

streamlit run st.py

Dockerインストール（オプション）

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

CUDA 12.4とNVIDIAドライバーバージョン>550が必要

🔌 APIサポート

VideoLingoはOpenAI-Like API形式と様々なTTSインターフェースをサポートします。

LLMサポート

claude-3-5-sonnet
gpt-4.1
deepseek-v3
gemini-2.0-flash
...（性能順、gemini-2.5-flashの使用は慎重に）

WhisperXオプション

ローカルでwhisperX (large-v3)を実行
302.ai APIを使用

TTSエンジン

azure-tts
openai-tts
siliconflow-fishtts
fish-tts
GPT-SoVITS
edge-tts
*custom-tts（custom_tts.pyでカスタムTTSを変更可能）

便利なオプション

302.aiのAPIキー1つで、すべてのサービス（LLM、WhisperX、TTS）にアクセス
ローカルでOllamaとEdge-TTSを実行すると完全に無料で、APIは不要

⚠️ 既知の制限事項

音声品質の影響：WhisperXの転写性能は、動画の背景ノイズの影響を受ける可能性があります。背景音楽が大きい動画の場合は、ボーカル分離強化機能を有効にしてください。
数字文字の処理：数字または特殊文字で終わる字幕は、wav2vacが数字文字（例：「1」）をその口語形（例：「one」）にマッピングできないため、途中で切り捨てられることがあります。
モデルの互換性：弱いモデルを使用すると、厳格なJSON形式の要件により、処理中にエラーが発生する可能性があります。
吹き替えの完璧さ：言語間の語速や語調の違い、および翻訳ステップの影響により、吹き替え機能は100％完璧ではない可能性があります。
多言語認識：多言語動画の転写認識では、主要言語のみが保持されます。
マルチキャラクター吹き替え：whisperXの話し手区別能力が十分ではないため、現時点では複数のキャラクターに個別に吹き替えを行うことはできません。