fishaudio/fish-speechView GitHub Homepage for Latest Official Releases

SOTA 開源文本轉語音 (TTS) 系統

Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025

Fish Speech - 開源文本轉語音系統

項目概述

Fish Speech 是一個基於最新技術的開源文本轉語音(TTS)系統，由 FishAudio 團隊開發。該項目代表了當前語音合成技術的最高水平(SOTA - State of the Art)，提供了強大的語音生成和克隆功能。

核心特性

🎯 零樣本和少樣本TTS

只需輸入 10-30 秒的語音樣本，即可生成高品質的TTS輸出
支持快速語音克隆，無需長時間訓練
提供詳細的語音克隆最佳實踐指南

🌍 多語言和跨語言支持

支持多種語言：英語、日語、中文等
只需複製粘貼多語言文本到輸入框，無需擔心語言識別
強大的跨語言能力

🔤 無音素依賴

模型具有強大的泛化能力
不依賴音素進行TTS處理
可以處理任何語言腳本的文本

📊 高精確度

對於5分鐘的英文文本，字符錯誤率(CER)和詞錯誤率(WER)約為2%
業界領先的準確率表現

⚡ 高速推理

在 Nvidia RTX 4060 筆記本上實時率約為 1:5
在 Nvidia RTX 4090 上實時率約為 1:15
採用 fish-tech 加速技術

🖥️ 用戶友好的界面

WebUI 推理：基於 Gradio 的易用網頁界面，兼容 Chrome、Firefox、Edge 等瀏覽器
GUI 推理：提供 PyQt6 圖形界面，與 API 伺服器無縫配合，支持 Linux、Windows 和 macOS

🚀 部署友好

易於設置推理伺服器
原生支持 Linux、Windows 和 macOS
最小化速度損失

🔄 完全端到端

自動集成 ASR 和 TTS 部分
無需插入其他模型
真正的端到端解決方案，非三階段(ASR+LLM+TTS)架構

🎨 高級功能

音色控制：可使用參考音頻控制語音音色
情感表達：模型可以生成具有強烈情感的語音

技術架構

Fish Speech 基於大型語言模型(LLM)技術，利用先進的深度學習算法實現高品質的多語言文本轉語音合成。該系統採用完全端到端的架構設計，避免了傳統三階段方法的複雜性。

許可證信息

代碼庫：基於 Apache License 發布
模型權重：基於 CC-BY-NC-SA-4.0 License 發布
使用時需要提及內容基於 CC BY-NC-SA 4.0 許可證發布

學術引用

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

總結

Fish Speech 是一個功能強大、易於使用的開源TTS解決方案，特別適合需要高品質語音合成和語音克隆功能的開發者和研究人員。其先進的技術架構、多語言支持和用戶友好的界面使其成為當前最優秀的開源TTS系統之一。