Fish Speech 是一个基于最新技术的开源文本转语音(TTS)系统,由 FishAudio 团队开发。该项目代表了当前语音合成技术的最高水平(SOTA - State of the Art),提供了强大的语音生成和克隆功能。
Fish Speech 基于大型语言模型(LLM)技术,利用先进的深度学习算法实现高质量的多语言文本转语音合成。该系统采用完全端到端的架构设计,避免了传统三阶段方法的复杂性。
该项目已经升级为 OpenAudio 品牌,推出了基于 Fish-Speech 基础的新一代高级文本转语音模型系列,具有显著改进和新功能。
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
Fish Speech 是一个功能强大、易于使用的开源TTS解决方案,特别适合需要高质量语音合成和语音克隆功能的开发者和研究人员。其先进的技术架构、多语言支持和用户友好的界面使其成为当前最优秀的开源TTS系统之一。