Home
Login

SOTA 开源文本转语音 (TTS) 系统

Apache-2.0Python 21.9kfishaudio Last Updated: 2025-06-12

Fish Speech - 开源文本转语音系统

项目概述

Fish Speech 是一个基于最新技术的开源文本转语音(TTS)系统,由 FishAudio 团队开发。该项目代表了当前语音合成技术的最高水平(SOTA - State of the Art),提供了强大的语音生成和克隆功能。

核心特性

🎯 零样本和少样本TTS

  • 只需输入 10-30 秒的语音样本,即可生成高质量的TTS输出
  • 支持快速语音克隆,无需长时间训练
  • 提供详细的语音克隆最佳实践指南

🌍 多语言和跨语言支持

  • 支持多种语言:英语、日语、中文等
  • 只需复制粘贴多语言文本到输入框,无需担心语言识别
  • 强大的跨语言能力

🔤 无音素依赖

  • 模型具有强大的泛化能力
  • 不依赖音素进行TTS处理
  • 可以处理任何语言脚本的文本

📊 高精确度

  • 对于5分钟的英文文本,字符错误率(CER)和词错误率(WER)约为2%
  • 业界领先的准确率表现

⚡ 高速推理

  • 在 Nvidia RTX 4060 笔记本上实时率约为 1:5
  • 在 Nvidia RTX 4090 上实时率约为 1:15
  • 采用 fish-tech 加速技术

🖥️ 用户友好的界面

  • WebUI 推理:基于 Gradio 的易用网页界面,兼容 Chrome、Firefox、Edge 等浏览器
  • GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝配合,支持 Linux、Windows 和 macOS

🚀 部署友好

  • 易于设置推理服务器
  • 原生支持 Linux、Windows 和 macOS
  • 最小化速度损失

🔄 完全端到端

  • 自动集成 ASR 和 TTS 部分
  • 无需插入其他模型
  • 真正的端到端解决方案,非三阶段(ASR+LLM+TTS)架构

🎨 高级功能

  • 音色控制:可使用参考音频控制语音音色
  • 情感表达:模型可以生成具有强烈情感的语音

技术架构

Fish Speech 基于大型语言模型(LLM)技术,利用先进的深度学习算法实现高质量的多语言文本转语音合成。该系统采用完全端到端的架构设计,避免了传统三阶段方法的复杂性。

许可证信息

  • 代码库:基于 Apache License 发布
  • 模型权重:基于 CC-BY-NC-SA-4.0 License 发布
  • 使用时需要提及内容基于 CC BY-NC-SA 4.0 许可证发布

最新发展

该项目已经升级为 OpenAudio 品牌,推出了基于 Fish-Speech 基础的新一代高级文本转语音模型系列,具有显著改进和新功能。

学术引用

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

总结

Fish Speech 是一个功能强大、易于使用的开源TTS解决方案,特别适合需要高质量语音合成和语音克隆功能的开发者和研究人员。其先进的技术架构、多语言支持和用户友好的界面使其成为当前最优秀的开源TTS系统之一。