Home
Login
WhisperSpeech/WhisperSpeech

通过逆向工程Whisper构建的开源文本转语音系统

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08
https://github.com/WhisperSpeech/WhisperSpeech

WhisperSpeech 项目详细介绍

概述

WhisperSpeech是一个通过逆向工程OpenAI Whisper构建的开源文本转语音(TTS)系统。该项目的愿景是成为语音合成领域的"Stable Diffusion"——既强大又易于定制化。

项目最初被称为spear-tts-pytorch,现在已发展成为一个成熟的多语言语音合成解决方案。WhisperSpeech专注于使用合规授权的语音录音数据,所有代码都是开源的,确保商业应用的安全性。

核心功能与特性

🎯 主要特性

  • 开源且商业安全: 采用Apache-2.0/MIT许可证,所有代码开源,仅使用合规授权的语音数据
  • 多语言支持: 目前支持英语和波兰语,计划扩展到更多语言
  • 语音克隆: 支持基于参考音频文件的语音克隆功能
  • 多语言混合: 可在单个句子中混合多种语言
  • 高性能优化: 在消费级4090显卡上实现超过12倍实时速度的推理性能

🔧 技术架构

WhisperSpeech的架构类似于Google的AudioLM和SPEAR TTS,以及Meta的MusicGen,构建在强大的开源模型之上:

  • Whisper (OpenAI): 用于生成语义标记和执行转录
  • EnCodec (Meta): 用于声学建模
  • Vocos (Charactr Inc): 作为高质量声码器

📊 模型组件

  1. 语义标记生成: 利用OpenAI Whisper编码器块生成嵌入,然后量化获得语义标记
  2. 声学建模: 使用EnCodec对音频波形建模,在1.5kbps下提供合理质量
  3. 高质量声码器: 通过Vocos将EnCodec标记转换为高质量音频

🌍 数据集与训练

  • 英语数据: 基于LibreLight数据集训练
  • 多语言拓展: 已成功在英语+波兰语+法语数据集上训练小型模型
  • 语音克隆: 支持跨语言语音克隆,即使语义标记仅在部分语言上训练

最新进展

性能优化

  • 集成torch.compile
  • 添加kv-caching
  • 优化网络层结构
  • 在4090显卡上实现12倍以上实时推理速度

多语言能力

  • 成功实现英语和波兰语混合语音合成
  • 支持单句中多语言无缝切换
  • 跨语言语音克隆功能

模型更新

  • 发布更快的SD S2A模型,在保持高质量的同时提高了速度
  • 改进的语音克隆功能
  • 优化依赖关系,安装时间缩短至30秒以内

使用方式

快速开始

  • Google Colab: 提供即用型Colab笔记本,30秒内完成安装
  • 本地运行: 支持本地笔记本环境
  • HuggingFace: 预训练模型和转换数据集均可在HuggingFace上获取

模型下载

技术原理

WhisperSpeech采用了创新的"逆向工程"方法:

  1. 使用Whisper的语音识别能力反向构建语音合成系统
  2. 通过语义标记桥接文本和语音
  3. 利用现有的强大开源模型避免重复造轮子
  4. 专注于合规数据和商业安全性

总结

WhisperSpeech代表了开源语音合成技术的重要突破。它不仅在技术上实现了高质量的多语言语音合成,更重要的是建立了一个完全开源、商业安全的生态系统。通过逆向工程Whisper的创新方法,该项目为语音合成领域提供了一个强大而灵活的解决方案。