fishaudio/fish-speechView GitHub Homepage for Latest Official Releases
SOTAオープンソーステキスト読み上げ(TTS)システム
Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025
Fish Speech - オープンソースのテキスト音声変換システム
プロジェクト概要
Fish Speechは、FishAudioチームが開発した最新技術に基づくオープンソースのテキスト音声変換(TTS)システムです。このプロジェクトは、現在の音声合成技術の最高水準(SOTA - State of the Art)を代表し、強力な音声生成およびクローン機能を提供します。
主要な特徴
🎯 ゼロショットおよび少数ショットTTS
- わずか10〜30秒の音声サンプルを入力するだけで、高品質のTTS出力を生成できます。
- 長時間のトレーニングなしで、迅速な音声クローン作成をサポートします。
- 詳細な音声クローン作成のベストプラクティスガイドを提供します。
🌍 多言語およびクロスリンガルサポート
- 英語、日本語、中国語など、複数の言語をサポートします。
- 多言語テキストをコピーして入力ボックスに貼り付けるだけで、言語認識を気にする必要はありません。
- 強力なクロスリンガル能力。
🔤 音素非依存
- モデルは強力な汎化能力を備えています。
- 音素に依存せずにTTS処理を行います。
- あらゆる言語スクリプトのテキストを処理できます。
📊 高精度
- 5分間の英語テキストの場合、文字誤り率(CER)と単語誤り率(WER)は約2%です。
- 業界をリードする正確性。
⚡ 高速推論
- Nvidia RTX 4060ラップトップで、リアルタイム率は約1:5です。
- Nvidia RTX 4090で、リアルタイム率は約1:15です。
- fish-tech加速技術を採用。
🖥️ ユーザーフレンドリーなインターフェース
- WebUI推論:Gradioに基づく使いやすいWebインターフェースで、Chrome、Firefox、Edgeなどのブラウザと互換性があります。
- GUI推論:PyQt6グラフィカルインターフェースを提供し、APIサーバーとシームレスに連携し、Linux、Windows、macOSをサポートします。
🚀 デプロイフレンドリー
- 推論サーバーを簡単に設定できます。
- Linux、Windows、macOSをネイティブにサポートします。
- 速度損失を最小限に抑えます。
🔄 完全エンドツーエンド
- ASRとTTS部分を自動的に統合します。
- 他のモデルを挿入する必要はありません。
- 真のエンドツーエンドソリューションであり、3段階(ASR + LLM + TTS)アーキテクチャではありません。
🎨 高度な機能
- 音色制御:参照オーディオを使用して音声の音色を制御できます。
- 感情表現:モデルは強い感情を持つ音声を生成できます。
技術アーキテクチャ
Fish Speechは、大規模言語モデル(LLM)技術に基づいており、高度な深層学習アルゴリズムを利用して、高品質の多言語テキスト音声変換合成を実現します。このシステムは、完全なエンドツーエンドのアーキテクチャ設計を採用しており、従来の3段階方式の複雑さを回避しています。
ライセンス情報
- コードリポジトリ:Apache Licenseに基づいて公開されます。
- モデルの重み:CC-BY-NC-SA-4.0 Licenseに基づいて公開されます。
- 使用時には、コンテンツがCC BY-NC-SA 4.0ライセンスに基づいて公開されていることを言及する必要があります。
最新の発展
このプロジェクトはOpenAudioブランドにアップグレードされ、Fish-Speechの基盤に基づいた新世代の高度なテキスト音声変換モデルシリーズが導入され、大幅な改善と新機能が追加されました。
学術引用
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
まとめ
Fish Speechは、強力で使いやすいオープンソースのTTSソリューションであり、高品質の音声合成および音声クローン作成機能を必要とする開発者や研究者に特に適しています。その高度な技術アーキテクチャ、多言語サポート、およびユーザーフレンドリーなインターフェースにより、現在最高のオープンソースTTSシステムの1つとなっています。