O primeiro modelo de texto para fala de código aberto de nível de produção, com controle de exagero emocional e síntese de fala zero-shot.

MITPythonchatterboxresemble-ai 10.1k Last Updated: August 01, 2025

Chatterbox - Modelo de Texto para Voz de Código Aberto

Visão Geral do Projeto

Chatterbox é o primeiro modelo de texto para voz (TTS) de código aberto de nível de produção desenvolvido pela Resemble AI. Lançado sob a licença MIT, este projeto é uma solução inovadora de síntese de voz que supera outros em vários benchmarks, superando consistentemente sistemas proprietários líderes como o ElevenLabs em avaliações lado a lado.

Principais Características

🎯 Vantagens Técnicas

  • Tecnologia TTS Zero-Shot de Última Geração: Gera voz de alta qualidade sem necessidade de treinamento.
  • Rede Troncal Llama de 500 Milhões de Parâmetros: Arquitetura de modelo poderosa garante qualidade de geração.
  • Controle Único de Exagero/Intensidade Emocional: Primeiro modelo TTS de código aberto da indústria a suportar controle emocional.
  • Inferência Sensível ao Alinhamento Ultra-Estável: Garante a estabilidade e consistência da voz gerada.
  • Dados de Treinamento em Larga Escala: Treinado com base em 500.000 horas de dados limpos.
  • Funcionalidade de Marca d'Água Integrada: Todo o áudio gerado contém uma marca d'água de limiar de percepção Perth.

🚀 Desempenho

  • Superior ao ElevenLabs: Desempenho superior em testes comparativos na plataforma Podonos.
  • Baixa Latência: A versão comercial suporta latência ultrabaixa de menos de 200ms.
  • Síntese de Alta Qualidade: Treinado com base em dados limpos em larga escala, garantindo a qualidade da saída.

Casos de Uso

Chatterbox é adequado para uma variedade de casos de uso:

  • Criação de Conteúdo: Criação de memes, dublagem de vídeos.
  • Desenvolvimento de Jogos: Vozes de personagens, narração de jogos.
  • Agentes de IA: Assistentes inteligentes, chatbots.
  • Mídia Interativa: Aplicações interativas, conteúdo educacional.
  • Conversão de Voz: Conversão de estilo de voz.

Instalação e Uso

Instalação Rápida

pip install chatterbox-tts

Exemplo de Uso Básico

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Inicializa o modelo
model = ChatterboxTTS.from_pretrained(device="cuda")

# Gera voz
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# Usa um prompt de áudio para clonagem de voz
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

Guia de Ajuste de Parâmetros

Uso Geral (TTS e Agente de Voz)

  • Configurações Padrão: exaggeration=0.5, cfg=0.5 são adequados para a maioria dos prompts.
  • Estilo de Voz Rápido: Se o orador de referência tiver uma velocidade de fala rápida, reduza o cfg para cerca de 0.3 para melhorar o ritmo.

Voz Expressiva ou Dramática

  • Valor de CFG Baixo: Tente um valor de cfg mais baixo (como ~0.3).
  • Alto Exagero: Aumente o exaggeration para cerca de 0.7 ou mais.
  • Compensação de Velocidade: Um exaggeration mais alto acelera a velocidade da fala, diminuir o cfg ajuda a compensar com um ritmo mais lento e ponderado.

Arquitetura Técnica

Arquitetura do Modelo

  • Rede Troncal: Modelo de 500 milhões de parâmetros baseado na arquitetura Llama.
  • Dados de Treinamento: 500.000 horas de dados limpos de alta qualidade.
  • Otimização de Inferência: A tecnologia de inferência sensível ao alinhamento garante a estabilidade.

Recursos de Segurança

  • Marca d'Água Integrada: Usa a tecnologia de marca d'água Perth (limiar de percepção) da Resemble AI.
  • Precisão de Detecção: A marca d'água mantém quase 100% de precisão de detecção após compressão MP3, edição de áudio e operações comuns.
  • Transparência: O modelo de código aberto oferece total transparência e controle.

Recursos do Projeto

Suporte Comercial

Para usuários que precisam escalar ou ajustar para maior precisão, a Resemble AI oferece serviços de TTS com preços competitivos, com as seguintes características:

  • Desempenho Confiável: Serviço de nível de produção estável.
  • Latência Ultrabaixa: Tempo de resposta inferior a 200ms.
  • Casos de Uso: Uso de produção para agentes, aplicativos ou mídia interativa.

Termos de Uso

Este modelo deve ser usado de forma responsável e não deve ser usado para fins maliciosos. Os prompts de treinamento são derivados de dados disponíveis gratuitamente na Internet.

Contribuição e Comunidade

Como um projeto de código aberto, o Chatterbox recebe contribuições da comunidade. Os desenvolvedores podem participar do desenvolvimento do projeto no GitHub, enviar relatórios de problemas ou sugestões de recursos.

Star History Chart