Fish Speech 是一個基於最新技術的開源文本轉語音(TTS)系統,由 FishAudio 團隊開發。該項目代表了當前語音合成技術的最高水平(SOTA - State of the Art),提供了強大的語音生成和克隆功能。
Fish Speech 基於大型語言模型(LLM)技術,利用先進的深度學習算法實現高品質的多語言文本轉語音合成。該系統採用完全端到端的架構設計,避免了傳統三階段方法的複雜性。
該項目已經升級為 OpenAudio 品牌,推出了基於 Fish-Speech 基礎的新一代高級文本轉語音模型系列,具有顯著改進和新功能。
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
Fish Speech 是一個功能強大、易於使用的開源TTS解決方案,特別適合需要高品質語音合成和語音克隆功能的開發者和研究人員。其先進的技術架構、多語言支持和用戶友好的界面使其成為當前最優秀的開源TTS系統之一。