fishaudio/fish-speechView GitHub Homepage for Latest Official Releases

Sistema de texto a voz (TTS) de código abierto SOTA

Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025

Fish Speech - Sistema de Texto a Voz de Código Abierto

Resumen del Proyecto

Fish Speech es un sistema de texto a voz (TTS) de código abierto basado en las últimas tecnologías, desarrollado por el equipo de FishAudio. Este proyecto representa el más alto nivel actual de la tecnología de síntesis de voz (SOTA - State of the Art), ofreciendo potentes funciones de generación y clonación de voz.

Características Principales

🎯 TTS de Cero y Pocos Ejemplos

Simplemente introduzca muestras de voz de 10 a 30 segundos para generar salidas TTS de alta calidad.
Soporta la clonación rápida de voz, sin necesidad de un entrenamiento prolongado.
Proporciona una guía detallada de las mejores prácticas para la clonación de voz.

🌍 Soporte Multilingüe e Interlingüístico

Soporta múltiples idiomas: inglés, japonés, chino, etc.
Simplemente copie y pegue texto multilingüe en el cuadro de entrada, sin preocuparse por el reconocimiento de idiomas.
Potente capacidad interlingüística.

🔤 Sin Dependencia de Fonemas

El modelo tiene una gran capacidad de generalización.
No depende de fonemas para el procesamiento TTS.
Puede procesar texto de cualquier script de idioma.

📊 Alta Precisión

Para texto en inglés de 5 minutos, la tasa de error de caracteres (CER) y la tasa de error de palabras (WER) son de aproximadamente el 2%.
Rendimiento de precisión líder en la industria.

⚡ Inferencia de Alta Velocidad

En una computadora portátil Nvidia RTX 4060, la tasa en tiempo real es de aproximadamente 1:5.
En una Nvidia RTX 4090, la tasa en tiempo real es de aproximadamente 1:15.
Adopta la tecnología de aceleración fish-tech.

🖥️ Interfaz Amigable para el Usuario

Inferencia WebUI: Interfaz web fácil de usar basada en Gradio, compatible con navegadores como Chrome, Firefox, Edge, etc.
Inferencia GUI: Proporciona una interfaz gráfica PyQt6, que funciona a la perfección con el servidor API, compatible con Linux, Windows y macOS.

🚀 Facilidad de Implementación

Fácil de configurar el servidor de inferencia.
Soporte nativo para Linux, Windows y macOS.
Minimiza la pérdida de velocidad.

🔄 Completamente de Extremo a Extremo

Integra automáticamente las partes ASR y TTS.
No es necesario insertar otros modelos.
Verdadera solución de extremo a extremo, arquitectura no de tres etapas (ASR+LLM+TTS).

🎨 Funciones Avanzadas

Control de Tono: Se puede utilizar audio de referencia para controlar el tono de la voz.
Expresión Emocional: El modelo puede generar voz con fuertes emociones.

Arquitectura Técnica

Fish Speech se basa en la tecnología de modelos de lenguaje grandes (LLM), utilizando algoritmos avanzados de aprendizaje profundo para lograr una síntesis de texto a voz multilingüe de alta calidad. El sistema adopta un diseño de arquitectura completamente de extremo a extremo, evitando la complejidad de los métodos tradicionales de tres etapas.

Información de Licencia

Repositorio de Código: Publicado bajo la Licencia Apache.
Pesos del Modelo: Publicados bajo la Licencia CC-BY-NC-SA-4.0.
El uso requiere mencionar que el contenido se publica bajo la licencia CC BY-NC-SA 4.0.

Últimos Desarrollos

El proyecto se ha actualizado a la marca OpenAudio, lanzando una nueva generación de modelos avanzados de texto a voz basados en Fish-Speech, con mejoras significativas y nuevas funciones.

Cita Académica

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

Resumen

Fish Speech es una solución TTS de código abierto potente y fácil de usar, especialmente adecuada para desarrolladores e investigadores que necesitan síntesis de voz y funciones de clonación de voz de alta calidad. Su arquitectura técnica avanzada, soporte multilingüe e interfaz amigable para el usuario lo convierten en uno de los mejores sistemas TTS de código abierto disponibles en la actualidad.