fishaudio/fish-speechView GitHub Homepage for Latest Official Releases
SOTA 开源文本转语音 (TTS) 系统
Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025
Fish Speech - 开源文本转语音系统
项目概述
Fish Speech 是一个基于最新技术的开源文本转语音(TTS)系统,由 FishAudio 团队开发。该项目代表了当前语音合成技术的最高水平(SOTA - State of the Art),提供了强大的语音生成和克隆功能。
核心特性
🎯 零样本和少样本TTS
- 只需输入 10-30 秒的语音样本,即可生成高质量的TTS输出
- 支持快速语音克隆,无需长时间训练
- 提供详细的语音克隆最佳实践指南
🌍 多语言和跨语言支持
- 支持多种语言:英语、日语、中文等
- 只需复制粘贴多语言文本到输入框,无需担心语言识别
- 强大的跨语言能力
🔤 无音素依赖
- 模型具有强大的泛化能力
- 不依赖音素进行TTS处理
- 可以处理任何语言脚本的文本
📊 高精确度
- 对于5分钟的英文文本,字符错误率(CER)和词错误率(WER)约为2%
- 业界领先的准确率表现
⚡ 高速推理
- 在 Nvidia RTX 4060 笔记本上实时率约为 1:5
- 在 Nvidia RTX 4090 上实时率约为 1:15
- 采用 fish-tech 加速技术
🖥️ 用户友好的界面
- WebUI 推理:基于 Gradio 的易用网页界面,兼容 Chrome、Firefox、Edge 等浏览器
- GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝配合,支持 Linux、Windows 和 macOS
🚀 部署友好
- 易于设置推理服务器
- 原生支持 Linux、Windows 和 macOS
- 最小化速度损失
🔄 完全端到端
- 自动集成 ASR 和 TTS 部分
- 无需插入其他模型
- 真正的端到端解决方案,非三阶段(ASR+LLM+TTS)架构
🎨 高级功能
- 音色控制:可使用参考音频控制语音音色
- 情感表达:模型可以生成具有强烈情感的语音
技术架构
Fish Speech 基于大型语言模型(LLM)技术,利用先进的深度学习算法实现高质量的多语言文本转语音合成。该系统采用完全端到端的架构设计,避免了传统三阶段方法的复杂性。
许可证信息
- 代码库:基于 Apache License 发布
- 模型权重:基于 CC-BY-NC-SA-4.0 License 发布
- 使用时需要提及内容基于 CC BY-NC-SA 4.0 许可证发布
最新发展
该项目已经升级为 OpenAudio 品牌,推出了基于 Fish-Speech 基础的新一代高级文本转语音模型系列,具有显著改进和新功能。
学术引用
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
总结
Fish Speech 是一个功能强大、易于使用的开源TTS解决方案,特别适合需要高质量语音合成和语音克隆功能的开发者和研究人员。其先进的技术架构、多语言支持和用户友好的界面使其成为当前最优秀的开源TTS系统之一。