fishaudio/fish-speechView GitHub Homepage for Latest Official Releases

SOTA 开源文本转语音 (TTS) 系统

Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025

Fish Speech - 开源文本转语音系统

项目概述

Fish Speech 是一个基于最新技术的开源文本转语音(TTS)系统，由 FishAudio 团队开发。该项目代表了当前语音合成技术的最高水平(SOTA - State of the Art)，提供了强大的语音生成和克隆功能。

核心特性

🎯 零样本和少样本TTS

只需输入 10-30 秒的语音样本，即可生成高质量的TTS输出
支持快速语音克隆，无需长时间训练
提供详细的语音克隆最佳实践指南

🌍 多语言和跨语言支持

支持多种语言：英语、日语、中文等
只需复制粘贴多语言文本到输入框，无需担心语言识别
强大的跨语言能力

🔤 无音素依赖

模型具有强大的泛化能力
不依赖音素进行TTS处理
可以处理任何语言脚本的文本

📊 高精确度

对于5分钟的英文文本，字符错误率(CER)和词错误率(WER)约为2%
业界领先的准确率表现

⚡ 高速推理

在 Nvidia RTX 4060 笔记本上实时率约为 1:5
在 Nvidia RTX 4090 上实时率约为 1:15
采用 fish-tech 加速技术

🖥️ 用户友好的界面

WebUI 推理：基于 Gradio 的易用网页界面，兼容 Chrome、Firefox、Edge 等浏览器
GUI 推理：提供 PyQt6 图形界面，与 API 服务器无缝配合，支持 Linux、Windows 和 macOS

🚀 部署友好

易于设置推理服务器
原生支持 Linux、Windows 和 macOS
最小化速度损失

🔄 完全端到端

自动集成 ASR 和 TTS 部分
无需插入其他模型
真正的端到端解决方案，非三阶段(ASR+LLM+TTS)架构

🎨 高级功能

音色控制：可使用参考音频控制语音音色
情感表达：模型可以生成具有强烈情感的语音

技术架构

Fish Speech 基于大型语言模型(LLM)技术，利用先进的深度学习算法实现高质量的多语言文本转语音合成。该系统采用完全端到端的架构设计，避免了传统三阶段方法的复杂性。

许可证信息

代码库：基于 Apache License 发布
模型权重：基于 CC-BY-NC-SA-4.0 License 发布
使用时需要提及内容基于 CC BY-NC-SA 4.0 许可证发布

学术引用

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

总结

Fish Speech 是一个功能强大、易于使用的开源TTS解决方案，特别适合需要高质量语音合成和语音克隆功能的开发者和研究人员。其先进的技术架构、多语言支持和用户友好的界面使其成为当前最优秀的开源TTS系统之一。