O primeiro modelo de texto para fala de código aberto de nível de produção, com controle de exagero emocional e síntese de fala zero-shot.
Chatterbox - Modelo de Texto para Voz de Código Aberto
Visão Geral do Projeto
Chatterbox é o primeiro modelo de texto para voz (TTS) de código aberto de nível de produção desenvolvido pela Resemble AI. Lançado sob a licença MIT, este projeto é uma solução inovadora de síntese de voz que supera outros em vários benchmarks, superando consistentemente sistemas proprietários líderes como o ElevenLabs em avaliações lado a lado.
Principais Características
🎯 Vantagens Técnicas
- Tecnologia TTS Zero-Shot de Última Geração: Gera voz de alta qualidade sem necessidade de treinamento.
- Rede Troncal Llama de 500 Milhões de Parâmetros: Arquitetura de modelo poderosa garante qualidade de geração.
- Controle Único de Exagero/Intensidade Emocional: Primeiro modelo TTS de código aberto da indústria a suportar controle emocional.
- Inferência Sensível ao Alinhamento Ultra-Estável: Garante a estabilidade e consistência da voz gerada.
- Dados de Treinamento em Larga Escala: Treinado com base em 500.000 horas de dados limpos.
- Funcionalidade de Marca d'Água Integrada: Todo o áudio gerado contém uma marca d'água de limiar de percepção Perth.
🚀 Desempenho
- Superior ao ElevenLabs: Desempenho superior em testes comparativos na plataforma Podonos.
- Baixa Latência: A versão comercial suporta latência ultrabaixa de menos de 200ms.
- Síntese de Alta Qualidade: Treinado com base em dados limpos em larga escala, garantindo a qualidade da saída.
Casos de Uso
Chatterbox é adequado para uma variedade de casos de uso:
- Criação de Conteúdo: Criação de memes, dublagem de vídeos.
- Desenvolvimento de Jogos: Vozes de personagens, narração de jogos.
- Agentes de IA: Assistentes inteligentes, chatbots.
- Mídia Interativa: Aplicações interativas, conteúdo educacional.
- Conversão de Voz: Conversão de estilo de voz.
Instalação e Uso
Instalação Rápida
pip install chatterbox-tts
Exemplo de Uso Básico
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# Inicializa o modelo
model = ChatterboxTTS.from_pretrained(device="cuda")
# Gera voz
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# Usa um prompt de áudio para clonagem de voz
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
Guia de Ajuste de Parâmetros
Uso Geral (TTS e Agente de Voz)
- Configurações Padrão:
exaggeration=0.5
,cfg=0.5
são adequados para a maioria dos prompts. - Estilo de Voz Rápido: Se o orador de referência tiver uma velocidade de fala rápida, reduza o
cfg
para cerca de0.3
para melhorar o ritmo.
Voz Expressiva ou Dramática
- Valor de CFG Baixo: Tente um valor de
cfg
mais baixo (como~0.3
). - Alto Exagero: Aumente o
exaggeration
para cerca de0.7
ou mais. - Compensação de Velocidade: Um
exaggeration
mais alto acelera a velocidade da fala, diminuir ocfg
ajuda a compensar com um ritmo mais lento e ponderado.
Arquitetura Técnica
Arquitetura do Modelo
- Rede Troncal: Modelo de 500 milhões de parâmetros baseado na arquitetura Llama.
- Dados de Treinamento: 500.000 horas de dados limpos de alta qualidade.
- Otimização de Inferência: A tecnologia de inferência sensível ao alinhamento garante a estabilidade.
Recursos de Segurança
- Marca d'Água Integrada: Usa a tecnologia de marca d'água Perth (limiar de percepção) da Resemble AI.
- Precisão de Detecção: A marca d'água mantém quase 100% de precisão de detecção após compressão MP3, edição de áudio e operações comuns.
- Transparência: O modelo de código aberto oferece total transparência e controle.
Recursos do Projeto
- Repositório GitHub: https://github.com/resemble-ai/chatterbox
- Demonstração Hugging Face: Experimente o aplicativo Gradio online.
- Site Oficial: https://www.resemble.ai/chatterbox/
- Licença: MIT License
Suporte Comercial
Para usuários que precisam escalar ou ajustar para maior precisão, a Resemble AI oferece serviços de TTS com preços competitivos, com as seguintes características:
- Desempenho Confiável: Serviço de nível de produção estável.
- Latência Ultrabaixa: Tempo de resposta inferior a 200ms.
- Casos de Uso: Uso de produção para agentes, aplicativos ou mídia interativa.
Termos de Uso
Este modelo deve ser usado de forma responsável e não deve ser usado para fins maliciosos. Os prompts de treinamento são derivados de dados disponíveis gratuitamente na Internet.
Contribuição e Comunidade
Como um projeto de código aberto, o Chatterbox recebe contribuições da comunidade. Os desenvolvedores podem participar do desenvolvimento do projeto no GitHub, enviar relatórios de problemas ou sugestões de recursos.