Fish Speech - Sistema de Texto para Voz de Código Aberto
Visão Geral do Projeto
Fish Speech é um sistema de texto para voz (TTS) de código aberto baseado nas tecnologias mais recentes, desenvolvido pela equipe FishAudio. Este projeto representa o mais alto nível da tecnologia de síntese de voz atual (SOTA - State of the Art), oferecendo poderosas funcionalidades de geração e clonagem de voz.
Principais Características
🎯 TTS Zero-Shot e Few-Shot
🌍 Suporte Multilíngue e Interlíngue
- Suporta vários idiomas: inglês, japonês, chinês, etc.
- Basta copiar e colar texto multilíngue na caixa de entrada, sem se preocupar com o reconhecimento de idiomas
- Poderosa capacidade interlíngue
🔤 Sem Dependência de Fonemas
- O modelo possui forte capacidade de generalização
- Não depende de fonemas para processamento TTS
- Pode processar texto em qualquer script de idioma
📊 Alta Precisão
- Para texto em inglês de 5 minutos, a taxa de erro de caracteres (CER) e a taxa de erro de palavras (WER) são de aproximadamente 2%
- Desempenho de precisão líder do setor
⚡ Inferência de Alta Velocidade
- Taxa em tempo real de aproximadamente 1:5 em um laptop Nvidia RTX 4060
- Taxa em tempo real de aproximadamente 1:15 em uma Nvidia RTX 4090
- Adota a tecnologia de aceleração fish-tech
🖥️ Interface Amigável
- Inferência WebUI: Interface web fácil de usar baseada em Gradio, compatível com Chrome, Firefox, Edge, etc.
- Inferência GUI: Fornece interface gráfica PyQt6, que funciona perfeitamente com o servidor API, suportando Linux, Windows e macOS
🚀 Implantação Amigável
- Fácil de configurar o servidor de inferência
- Suporte nativo para Linux, Windows e macOS
- Perda de velocidade minimizada
🔄 Totalmente End-to-End
- Integra automaticamente as partes ASR e TTS
- Não há necessidade de inserir outros modelos
- Solução end-to-end verdadeira, arquitetura não de três estágios (ASR+LLM+TTS)
🎨 Recursos Avançados
- Controle de Timbre: O timbre da voz pode ser controlado usando áudio de referência
- Expressão Emocional: O modelo pode gerar fala com fortes emoções
Arquitetura Técnica
Fish Speech é baseado na tecnologia de grandes modelos de linguagem (LLM), utilizando algoritmos avançados de aprendizado profundo para realizar síntese de texto para voz multilíngue de alta qualidade. O sistema adota um design de arquitetura totalmente end-to-end, evitando a complexidade dos métodos tradicionais de três estágios.
Informações de Licença
- Repositório de Código: Lançado sob a Licença Apache
- Pesos do Modelo: Lançado sob a Licença CC-BY-NC-SA-4.0
- O uso requer menção de que o conteúdo é lançado sob a licença CC BY-NC-SA 4.0
Desenvolvimentos Recentes
O projeto foi atualizado para a marca OpenAudio, lançando uma nova geração de modelos avançados de texto para voz baseados na base do Fish-Speech, com melhorias significativas e novos recursos.
Citação Acadêmica
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
Resumo
Fish Speech é uma solução TTS de código aberto poderosa e fácil de usar, especialmente adequada para desenvolvedores e pesquisadores que precisam de síntese de voz e clonagem de voz de alta qualidade. Sua arquitetura técnica avançada, suporte multilíngue e interface amigável o tornam um dos melhores sistemas TTS de código aberto atualmente disponíveis.