fishaudio/fish-speechView GitHub Homepage for Latest Official Releases
SOTA 開源文本轉語音 (TTS) 系統
Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025
Fish Speech - 開源文本轉語音系統
項目概述
Fish Speech 是一個基於最新技術的開源文本轉語音(TTS)系統,由 FishAudio 團隊開發。該項目代表了當前語音合成技術的最高水平(SOTA - State of the Art),提供了強大的語音生成和克隆功能。
核心特性
🎯 零樣本和少樣本TTS
- 只需輸入 10-30 秒的語音樣本,即可生成高品質的TTS輸出
- 支持快速語音克隆,無需長時間訓練
- 提供詳細的語音克隆最佳實踐指南
🌍 多語言和跨語言支持
- 支持多種語言:英語、日語、中文等
- 只需複製粘貼多語言文本到輸入框,無需擔心語言識別
- 強大的跨語言能力
🔤 無音素依賴
- 模型具有強大的泛化能力
- 不依賴音素進行TTS處理
- 可以處理任何語言腳本的文本
📊 高精確度
- 對於5分鐘的英文文本,字符錯誤率(CER)和詞錯誤率(WER)約為2%
- 業界領先的準確率表現
⚡ 高速推理
- 在 Nvidia RTX 4060 筆記本上實時率約為 1:5
- 在 Nvidia RTX 4090 上實時率約為 1:15
- 採用 fish-tech 加速技術
🖥️ 用戶友好的界面
- WebUI 推理:基於 Gradio 的易用網頁界面,兼容 Chrome、Firefox、Edge 等瀏覽器
- GUI 推理:提供 PyQt6 圖形界面,與 API 伺服器無縫配合,支持 Linux、Windows 和 macOS
🚀 部署友好
- 易於設置推理伺服器
- 原生支持 Linux、Windows 和 macOS
- 最小化速度損失
🔄 完全端到端
- 自動集成 ASR 和 TTS 部分
- 無需插入其他模型
- 真正的端到端解決方案,非三階段(ASR+LLM+TTS)架構
🎨 高級功能
- 音色控制:可使用參考音頻控制語音音色
- 情感表達:模型可以生成具有強烈情感的語音
技術架構
Fish Speech 基於大型語言模型(LLM)技術,利用先進的深度學習算法實現高品質的多語言文本轉語音合成。該系統採用完全端到端的架構設計,避免了傳統三階段方法的複雜性。
許可證信息
- 代碼庫:基於 Apache License 發布
- 模型權重:基於 CC-BY-NC-SA-4.0 License 發布
- 使用時需要提及內容基於 CC BY-NC-SA 4.0 許可證發布
最新發展
該項目已經升級為 OpenAudio 品牌,推出了基於 Fish-Speech 基礎的新一代高級文本轉語音模型系列,具有顯著改進和新功能。
學術引用
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
總結
Fish Speech 是一個功能強大、易於使用的開源TTS解決方案,特別適合需要高品質語音合成和語音克隆功能的開發者和研究人員。其先進的技術架構、多語言支持和用戶友好的界面使其成為當前最優秀的開源TTS系統之一。