Home
Login

Netflixレベルの動画翻訳、ローカライズ、吹き替えツール。AI字幕の分割、翻訳、調整、吹き替えをワンクリックで実現

Apache-2.0Python 13.7kHuanshereVideoLingo Last Updated: 2025-05-18

VideoLingo - NetflixレベルのAI動画翻訳字幕・吹き替えツール

🌟 プロジェクト概要

VideoLingoは、動画翻訳、ローカライズ、吹き替え機能を統合したツールで、Netflixレベルの高品質な字幕生成を目指しています。機械翻訳特有の不自然さや複数行字幕の問題を解消し、高品質な吹き替えを追加することで、世界中の知識が言語の壁を越えて共有されることを可能にします。

🎯 主要機能

主な機能

  • 🎥 YouTube動画ダウンロード:yt-dlpを使用して動画をダウンロード
  • 🎙️ 高精度音声認識:WhisperXを使用して単語レベルで低ハルシネーションな字幕を認識
  • 📝 スマート字幕分割:NLPとAI技術に基づいた字幕分割
  • 📚 用語管理:カスタム+AI生成の用語集で、翻訳の一貫性を確保
  • 🔄 3ステップ翻訳プロセス:翻訳-反省-適応の映画品質処理
  • Netflix標準字幕:単一行字幕のみを生成し、Netflix標準に準拠
  • 🗣️ マルチエンジン吹き替え:GPT-SoVITS、Azure、OpenAIなど、様々な吹き替えエンジンをサポート
  • 🚀 ワンクリック起動:Streamlitを使用してワンクリックで起動・処理
  • 🌍 多言語インターフェース:Streamlit UIは多言語をサポート
  • 📝 詳細ログ:進捗状況の復元をサポートする詳細なログシステム

同種のプロジェクトとの違い

  • 単一行字幕のみ生成:プロフェッショナルな基準に準拠
  • 卓越した翻訳品質:多段階翻訳プロセスで品質を確保
  • シームレスな吹き替え体験:多様なTTSエンジンを選択可能

🌍 対応言語

入力言語サポート

  • 🇺🇸 English 🤩
  • 🇷🇺 Russian 😊
  • 🇫🇷 French 🤩
  • 🇩🇪 German 🤩
  • 🇮🇹 Italian 🤩
  • 🇪🇸 Spanish 🤩
  • 🇯🇵 Japanese 😐
  • 🇨🇳 Chinese* 😊

*中国語は個別の句読点強化whisperモデルを使用

翻訳はすべての言語をサポートし、吹き替え言語は選択したTTS方法によって異なります。

🔧 インストール要件

システム要件

  • Python 3.10
  • FFmpeg
  • CUDAサポート(Windows NVIDIA GPUユーザー)

Windows NVIDIA GPUユーザー向け事前インストール手順

  1. CUDA Toolkit 12.6 をインストール
  2. CUDNN 9.3.0 をインストール
  3. C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 をシステムPATHに追加
  4. コンピューターを再起動

FFmpegインストール

  • Windows: choco install ffmpeg(Chocolatey経由)
  • macOS: brew install ffmpeg(Homebrew経由)
  • Linux: sudo apt install ffmpeg(Debian/Ubuntu)

📥 インストール手順

1. リポジトリをクローン

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

2. 依存関係をインストール(python=3.10が必要)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

3. アプリケーションを起動

streamlit run st.py

Dockerインストール(オプション)

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

CUDA 12.4とNVIDIAドライバーバージョン>550が必要

🔌 APIサポート

VideoLingoはOpenAI-Like API形式と様々なTTSインターフェースをサポートします。

LLMサポート

  • claude-3-5-sonnet
  • gpt-4.1
  • deepseek-v3
  • gemini-2.0-flash
  • ...(性能順、gemini-2.5-flashの使用は慎重に)

WhisperXオプション

  • ローカルでwhisperX (large-v3)を実行
  • 302.ai APIを使用

TTSエンジン

  • azure-tts
  • openai-tts
  • siliconflow-fishtts
  • fish-tts
  • GPT-SoVITS
  • edge-tts
  • *custom-tts(custom_tts.pyでカスタムTTSを変更可能)

便利なオプション

  • 302.aiのAPIキー1つで、すべてのサービス(LLM、WhisperX、TTS)にアクセス
  • ローカルでOllamaとEdge-TTSを実行すると完全に無料で、APIは不要

⚠️ 既知の制限事項

  1. 音声品質の影響:WhisperXの転写性能は、動画の背景ノイズの影響を受ける可能性があります。背景音楽が大きい動画の場合は、ボーカル分離強化機能を有効にしてください。

  2. 数字文字の処理:数字または特殊文字で終わる字幕は、wav2vacが数字文字(例:「1」)をその口語形(例:「one」)にマッピングできないため、途中で切り捨てられることがあります。

  3. モデルの互換性:弱いモデルを使用すると、厳格なJSON形式の要件により、処理中にエラーが発生する可能性があります。

  4. 吹き替えの完璧さ:言語間の語速や語調の違い、および翻訳ステップの影響により、吹き替え機能は100%完璧ではない可能性があります。

  5. 多言語認識:多言語動画の転写認識では、主要言語のみが保持されます。

  6. マルチキャラクター吹き替え:whisperXの話し手区別能力が十分ではないため、現時点では複数のキャラクターに個別に吹き替えを行うことはできません。

Star History Chart