resemble-ai/chatterbox View GitHub Homepage for Latest Official Releases

O primeiro modelo de texto para fala de código aberto de nível de produção, com controle de exagero emocional e síntese de fala zero-shot.

MITPythonchatterboxresemble-ai 18.6k Last Updated: December 15, 2025

Chatterbox - Modelo de Texto para Voz de Código Aberto

Visão Geral do Projeto

Chatterbox é o primeiro modelo de texto para voz (TTS) de código aberto de nível de produção desenvolvido pela Resemble AI. Lançado sob a licença MIT, este projeto é uma solução inovadora de síntese de voz que supera outros em vários benchmarks, superando consistentemente sistemas proprietários líderes como o ElevenLabs em avaliações lado a lado.

Principais Características

🎯 Vantagens Técnicas

Tecnologia TTS Zero-Shot de Última Geração: Gera voz de alta qualidade sem necessidade de treinamento.
Rede Troncal Llama de 500 Milhões de Parâmetros: Arquitetura de modelo poderosa garante qualidade de geração.
Controle Único de Exagero/Intensidade Emocional: Primeiro modelo TTS de código aberto da indústria a suportar controle emocional.
Inferência Sensível ao Alinhamento Ultra-Estável: Garante a estabilidade e consistência da voz gerada.
Dados de Treinamento em Larga Escala: Treinado com base em 500.000 horas de dados limpos.
Funcionalidade de Marca d'Água Integrada: Todo o áudio gerado contém uma marca d'água de limiar de percepção Perth.

🚀 Desempenho

Superior ao ElevenLabs: Desempenho superior em testes comparativos na plataforma Podonos.
Baixa Latência: A versão comercial suporta latência ultrabaixa de menos de 200ms.
Síntese de Alta Qualidade: Treinado com base em dados limpos em larga escala, garantindo a qualidade da saída.

Casos de Uso

Chatterbox é adequado para uma variedade de casos de uso:

Criação de Conteúdo: Criação de memes, dublagem de vídeos.
Desenvolvimento de Jogos: Vozes de personagens, narração de jogos.
Agentes de IA: Assistentes inteligentes, chatbots.
Mídia Interativa: Aplicações interativas, conteúdo educacional.
Conversão de Voz: Conversão de estilo de voz.

Instalação e Uso

Instalação Rápida

pip install chatterbox-tts

Exemplo de Uso Básico

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Inicializa o modelo
model = ChatterboxTTS.from_pretrained(device="cuda")

# Gera voz
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# Usa um prompt de áudio para clonagem de voz
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

Guia de Ajuste de Parâmetros

Uso Geral (TTS e Agente de Voz)

Configurações Padrão: exaggeration=0.5, cfg=0.5 são adequados para a maioria dos prompts.
Estilo de Voz Rápido: Se o orador de referência tiver uma velocidade de fala rápida, reduza o cfg para cerca de 0.3 para melhorar o ritmo.

Voz Expressiva ou Dramática

Valor de CFG Baixo: Tente um valor de cfg mais baixo (como ~0.3).
Alto Exagero: Aumente o exaggeration para cerca de 0.7 ou mais.
Compensação de Velocidade: Um exaggeration mais alto acelera a velocidade da fala, diminuir o cfg ajuda a compensar com um ritmo mais lento e ponderado.

Arquitetura Técnica

Arquitetura do Modelo

Rede Troncal: Modelo de 500 milhões de parâmetros baseado na arquitetura Llama.
Dados de Treinamento: 500.000 horas de dados limpos de alta qualidade.
Otimização de Inferência: A tecnologia de inferência sensível ao alinhamento garante a estabilidade.

Recursos de Segurança

Marca d'Água Integrada: Usa a tecnologia de marca d'água Perth (limiar de percepção) da Resemble AI.
Precisão de Detecção: A marca d'água mantém quase 100% de precisão de detecção após compressão MP3, edição de áudio e operações comuns.
Transparência: O modelo de código aberto oferece total transparência e controle.

Recursos do Projeto

Repositório GitHub: https://github.com/resemble-ai/chatterbox
Demonstração Hugging Face: Experimente o aplicativo Gradio online.
Site Oficial: https://www.resemble.ai/chatterbox/
Licença: MIT License

Suporte Comercial

Para usuários que precisam escalar ou ajustar para maior precisão, a Resemble AI oferece serviços de TTS com preços competitivos, com as seguintes características:

Desempenho Confiável: Serviço de nível de produção estável.
Latência Ultrabaixa: Tempo de resposta inferior a 200ms.
Casos de Uso: Uso de produção para agentes, aplicativos ou mídia interativa.

Termos de Uso

Este modelo deve ser usado de forma responsável e não deve ser usado para fins maliciosos. Os prompts de treinamento são derivados de dados disponíveis gratuitamente na Internet.

Contribuição e Comunidade

Como um projeto de código aberto, o Chatterbox recebe contribuições da comunidade. Os desenvolvedores podem participar do desenvolvimento do projeto no GitHub, enviar relatórios de problemas ou sugestões de recursos.