Home
Login
WhisperSpeech/WhisperSpeech

透過逆向工程 Whisper 建構的開源文字轉語音系統

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08
https://github.com/WhisperSpeech/WhisperSpeech

WhisperSpeech 項目詳細介紹

概述

WhisperSpeech 是一個通過逆向工程 OpenAI Whisper 構建的開源文本轉語音 (TTS) 系統。該項目的願景是成為語音合成領域的 "Stable Diffusion" —— 既強大又易於客製化。

項目最初被稱為 spear-tts-pytorch,現在已發展成為一個成熟的多語言語音合成解決方案。WhisperSpeech 專注於使用合規授權的語音錄音數據,所有程式碼都是開源的,確保商業應用的安全性。

核心功能與特性

🎯 主要特性

  • 開源且商業安全: 採用 Apache-2.0/MIT 許可證,所有程式碼開源,僅使用合規授權的語音數據
  • 多語言支持: 目前支持英語和波蘭語,計畫擴展到更多語言
  • 語音克隆: 支持基於參考音訊檔案的語音克隆功能
  • 多語言混合: 可在單個句子中混合多種語言
  • 高性能優化: 在消費級 4090 顯卡上實現超過 12 倍實時速度的推理性能

🔧 技術架構

WhisperSpeech 的架構類似於 Google 的 AudioLM 和 SPEAR TTS,以及 Meta 的 MusicGen,構建在強大的開源模型之上:

  • Whisper (OpenAI): 用於生成語義標記和執行轉錄
  • EnCodec (Meta): 用於聲學建模
  • Vocos (Charactr Inc): 作為高品質聲碼器

📊 模型組件

  1. 語義標記生成: 利用 OpenAI Whisper 編碼器塊生成嵌入,然後量化獲得語義標記
  2. 聲學建模: 使用 EnCodec 對音訊波形建模,在 1.5kbps 下提供合理品質
  3. 高品質聲碼器: 通過 Vocos 將 EnCodec 標記轉換為高品質音訊

🌍 數據集與訓練

  • 英語數據: 基於 LibreLight 數據集訓練
  • 多語言拓展: 已成功在英語 + 波蘭語 + 法語數據集上訓練小型模型
  • 語音克隆: 支持跨語言語音克隆,即使語義標記僅在部分語言上訓練

最新進展

性能優化

  • 集成 torch.compile
  • 添加 kv-caching
  • 優化網路層結構
  • 在 4090 顯卡上實現 12 倍以上實時推理速度

多語言能力

  • 成功實現英語和波蘭語混合語音合成
  • 支持單句中多語言無縫切換
  • 跨語言語音克隆功能

模型更新

  • 發布更快的 SD S2A 模型,在保持高品質的同時提高了速度
  • 改進的語音克隆功能
  • 優化依賴關係,安裝時間縮短至 30 秒以內

使用方式

快速開始

  • Google Colab: 提供即用型 Colab 筆記本,30 秒內完成安裝
  • 本地運行: 支持本地筆記本環境
  • HuggingFace: 預訓練模型和轉換數據集均可在 HuggingFace 上獲取

模型下載

技術原理

WhisperSpeech 採用了創新的 "逆向工程" 方法:

  1. 使用 Whisper 的語音識別能力反向構建語音合成系統
  2. 通過語義標記橋接文本和語音
  3. 利用現有的強大開源模型避免重複造輪子
  4. 專注於合規數據和商業安全性

總結

WhisperSpeech 代表了開源語音合成技術的重要突破。它不僅在技術上實現了高品質的多語言語音合成,更重要的是建立了一個完全開源、商業安全的生態系統。通過逆向工程 Whisper 的創新方法,該項目為語音合成領域提供了一個強大而靈活的解決方案。