Home
Login

SOTA 開源文本轉語音 (TTS) 系統

Apache-2.0Python 21.9kfishaudio Last Updated: 2025-06-12

Fish Speech - 開源文本轉語音系統

項目概述

Fish Speech 是一個基於最新技術的開源文本轉語音(TTS)系統,由 FishAudio 團隊開發。該項目代表了當前語音合成技術的最高水平(SOTA - State of the Art),提供了強大的語音生成和克隆功能。

核心特性

🎯 零樣本和少樣本TTS

  • 只需輸入 10-30 秒的語音樣本,即可生成高品質的TTS輸出
  • 支持快速語音克隆,無需長時間訓練
  • 提供詳細的語音克隆最佳實踐指南

🌍 多語言和跨語言支持

  • 支持多種語言:英語、日語、中文等
  • 只需複製粘貼多語言文本到輸入框,無需擔心語言識別
  • 強大的跨語言能力

🔤 無音素依賴

  • 模型具有強大的泛化能力
  • 不依賴音素進行TTS處理
  • 可以處理任何語言腳本的文本

📊 高精確度

  • 對於5分鐘的英文文本,字符錯誤率(CER)和詞錯誤率(WER)約為2%
  • 業界領先的準確率表現

⚡ 高速推理

  • 在 Nvidia RTX 4060 筆記本上實時率約為 1:5
  • 在 Nvidia RTX 4090 上實時率約為 1:15
  • 採用 fish-tech 加速技術

🖥️ 用戶友好的界面

  • WebUI 推理:基於 Gradio 的易用網頁界面,兼容 Chrome、Firefox、Edge 等瀏覽器
  • GUI 推理:提供 PyQt6 圖形界面,與 API 伺服器無縫配合,支持 Linux、Windows 和 macOS

🚀 部署友好

  • 易於設置推理伺服器
  • 原生支持 Linux、Windows 和 macOS
  • 最小化速度損失

🔄 完全端到端

  • 自動集成 ASR 和 TTS 部分
  • 無需插入其他模型
  • 真正的端到端解決方案,非三階段(ASR+LLM+TTS)架構

🎨 高級功能

  • 音色控制:可使用參考音頻控制語音音色
  • 情感表達:模型可以生成具有強烈情感的語音

技術架構

Fish Speech 基於大型語言模型(LLM)技術,利用先進的深度學習算法實現高品質的多語言文本轉語音合成。該系統採用完全端到端的架構設計,避免了傳統三階段方法的複雜性。

許可證信息

  • 代碼庫:基於 Apache License 發布
  • 模型權重:基於 CC-BY-NC-SA-4.0 License 發布
  • 使用時需要提及內容基於 CC BY-NC-SA 4.0 許可證發布

最新發展

該項目已經升級為 OpenAudio 品牌,推出了基於 Fish-Speech 基礎的新一代高級文本轉語音模型系列,具有顯著改進和新功能。

學術引用

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

總結

Fish Speech 是一個功能強大、易於使用的開源TTS解決方案,特別適合需要高品質語音合成和語音克隆功能的開發者和研究人員。其先進的技術架構、多語言支持和用戶友好的界面使其成為當前最優秀的開源TTS系統之一。