fishaudio/fish-speechView GitHub Homepage for Latest Official Releases

Sistema de texto para fala (TTS) de código aberto SOTA

Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025

Fish Speech - Sistema de Texto para Voz de Código Aberto

Visão Geral do Projeto

Fish Speech é um sistema de texto para voz (TTS) de código aberto baseado nas tecnologias mais recentes, desenvolvido pela equipe FishAudio. Este projeto representa o mais alto nível da tecnologia de síntese de voz atual (SOTA - State of the Art), oferecendo poderosas funcionalidades de geração e clonagem de voz.

Principais Características

🎯 TTS Zero-Shot e Few-Shot

Gere saída TTS de alta qualidade com apenas 10-30 segundos de amostra de voz
Suporta clonagem rápida de voz, sem necessidade de treinamento prolongado
Fornece um guia detalhado de melhores práticas para clonagem de voz

🌍 Suporte Multilíngue e Interlíngue

Suporta vários idiomas: inglês, japonês, chinês, etc.
Basta copiar e colar texto multilíngue na caixa de entrada, sem se preocupar com o reconhecimento de idiomas
Poderosa capacidade interlíngue

🔤 Sem Dependência de Fonemas

O modelo possui forte capacidade de generalização
Não depende de fonemas para processamento TTS
Pode processar texto em qualquer script de idioma

📊 Alta Precisão

Para texto em inglês de 5 minutos, a taxa de erro de caracteres (CER) e a taxa de erro de palavras (WER) são de aproximadamente 2%
Desempenho de precisão líder do setor

⚡ Inferência de Alta Velocidade

Taxa em tempo real de aproximadamente 1:5 em um laptop Nvidia RTX 4060
Taxa em tempo real de aproximadamente 1:15 em uma Nvidia RTX 4090
Adota a tecnologia de aceleração fish-tech

🖥️ Interface Amigável

Inferência WebUI: Interface web fácil de usar baseada em Gradio, compatível com Chrome, Firefox, Edge, etc.
Inferência GUI: Fornece interface gráfica PyQt6, que funciona perfeitamente com o servidor API, suportando Linux, Windows e macOS

🚀 Implantação Amigável

Fácil de configurar o servidor de inferência
Suporte nativo para Linux, Windows e macOS
Perda de velocidade minimizada

🔄 Totalmente End-to-End

Integra automaticamente as partes ASR e TTS
Não há necessidade de inserir outros modelos
Solução end-to-end verdadeira, arquitetura não de três estágios (ASR+LLM+TTS)

🎨 Recursos Avançados

Controle de Timbre: O timbre da voz pode ser controlado usando áudio de referência
Expressão Emocional: O modelo pode gerar fala com fortes emoções

Arquitetura Técnica

Fish Speech é baseado na tecnologia de grandes modelos de linguagem (LLM), utilizando algoritmos avançados de aprendizado profundo para realizar síntese de texto para voz multilíngue de alta qualidade. O sistema adota um design de arquitetura totalmente end-to-end, evitando a complexidade dos métodos tradicionais de três estágios.

Informações de Licença

Repositório de Código: Lançado sob a Licença Apache
Pesos do Modelo: Lançado sob a Licença CC-BY-NC-SA-4.0
O uso requer menção de que o conteúdo é lançado sob a licença CC BY-NC-SA 4.0

Desenvolvimentos Recentes

O projeto foi atualizado para a marca OpenAudio, lançando uma nova geração de modelos avançados de texto para voz baseados na base do Fish-Speech, com melhorias significativas e novos recursos.

Citação Acadêmica

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

Resumo

Fish Speech é uma solução TTS de código aberto poderosa e fácil de usar, especialmente adequada para desenvolvedores e pesquisadores que precisam de síntese de voz e clonagem de voz de alta qualidade. Sua arquitetura técnica avançada, suporte multilíngue e interface amigável o tornam um dos melhores sistemas TTS de código aberto atualmente disponíveis.