jianchang512/ChatTTS-ui

ChatTTS-ui: una interfaz web local sencilla que utiliza ChatTTS para sintetizar texto en voz, al tiempo que admite la provisión de interfaces API externas.

NOASSERTIONPython 7.1kjianchang512 Last Updated: 2025-04-21

https://github.com/jianchang512/ChatTTS-ui

Descripción Detallada del Proyecto ChatTTS-ui

Resumen del Proyecto

ChatTTS-ui es un proyecto de interfaz web local simple basado en ChatTTS, creado y mantenido por el desarrollador jianchang512. Este proyecto proporciona a los usuarios una interfaz web amigable para usar ChatTTS para la síntesis de texto a voz, y también ofrece una interfaz API completa para llamadas externas.

Dirección del Proyecto: https://github.com/jianchang512/ChatTTS-ui

Descripción del Proyecto: Una interfaz web local simple que utiliza ChatTTS para sintetizar texto en voz, y también admite la provisión de interfaces API para uso externo.

Funciones/Características Principales

🎯 Funciones Principales

Síntesis de Texto a Voz: Admite la conversión de texto mixto en chino, inglés, números, símbolos, etc., en voz natural y fluida.
Soporte de Múltiples Tonos: Ofrece una variedad de tonos preestablecidos para elegir, permitiendo a los usuarios seleccionar diferentes estilos de voz según sus necesidades.
Interfaz Web: Proporciona una interfaz de operación web local simple e intuitiva, que se puede usar sin configuraciones complejas.
Interfaz API: Interfaz API RESTful completa, conveniente para la integración en otras aplicaciones.
Soporte Multiplataforma: Compatible con múltiples sistemas operativos como Windows, Linux, macOS.

🚀 Características Técnicas

Aceleración por GPU: Admite la aceleración por GPU NVIDIA CUDA y AMD ROCm, mejorando la velocidad de síntesis de voz.
Despliegue con Docker: Proporciona una solución de despliegue en contenedores Docker, simplificando el proceso de despliegue.
Múltiples Métodos de Instalación: Admite múltiples métodos de instalación, como paquetes precompilados, despliegue desde el código fuente y Docker.
Personalización de Tonos: Admite valores de semilla de tono personalizados para generar voces personalizadas.
Soporte de Caracteres de Control: Admite caracteres de control de voz como risas y pausas, mejorando el efecto de expresión.

📋 Lenguajes y Formatos Soportados

Soporte de Idiomas: Chino, inglés y mezcla de chino e inglés.
Formato de Salida: Archivo de audio WAV.
Procesamiento de Texto: Admite contenido de texto complejo como números, símbolos y caracteres de control.

Métodos de Despliegue

1. Despliegue con Paquete Precompilado (Recomendado para Principiantes)

Descargue el paquete comprimido desde la página de Releases.
Descomprímalo y ejecute directamente app.exe.
El navegador se abrirá automáticamente y accederá a http://127.0.0.1:9966

2. Despliegue con Docker

# Versión GPU
docker compose -f docker-compose.gpu.yaml up -d

# Versión CPU
docker compose -f docker-compose.cpu.yaml up -d

3. Despliegue desde el Código Fuente

# Clonar el proyecto
git clone https://github.com/jianchang512/ChatTTS-ui.git

# Crear un entorno virtual
python3 -m venv venv
source ./venv/bin/activate

# Instalar dependencias
pip3 install -r requirements.txt

# Iniciar el servicio
python3 app.py

Requisitos del Sistema

Requisitos de Hardware

Memoria: Se recomienda 4GB o más.
Tarjeta Gráfica: Tarjeta gráfica NVIDIA con 4GB o más de memoria de video (opcional, para aceleración por GPU).
Almacenamiento: Al menos 2GB de espacio disponible (para archivos de modelo).

Entorno de Software

Python: Versión 3.9-3.11.
Sistema Operativo: Windows 10+, Linux, macOS.
Dependencias: FFmpeg (debe estar instalado).
CUDA: 11.8+ (aceleración por GPU opcional).

Escenarios de Aplicación

🎭 Creación de Contenido

Doblaje de videos y producción de narraciones.
Generación de podcasts y contenido de audio.
Síntesis de voz para materiales de formación educativa.

🤖 Integración de Desarrollo

Respuestas de voz para chatbots.
Anuncios de voz para servicio al cliente inteligente.
Indicaciones de voz para aplicaciones.

📢 Aplicaciones Comerciales

Doblaje para anuncios y videos promocionales.
Navegación por voz para sistemas telefónicos.
Voz para presentaciones multimedia.

Ventajas del Proyecto

Fácil de Usar: Proporciona una interfaz web intuitiva, sin necesidad de conocimientos técnicos profesionales.
Despliegue Sencillo: Múltiples métodos de despliegue, adecuados para usuarios con diferentes niveles de habilidad técnica.
Rendimiento Excelente: Admite la aceleración por GPU, la velocidad de síntesis de voz es rápida.
Código Abierto y Gratuito: Completamente de código abierto, se puede usar y modificar libremente.
Mantenimiento Activo: Actualizaciones y correcciones de errores continuas, buen soporte de la comunidad.
API Completa: Proporciona una interfaz API completa, fácil de integrar en el desarrollo.

Resumen

ChatTTS-ui es una solución de texto a voz completa y fácil de usar. Envuelve el potente modelo ChatTTS en una interfaz amigable, proporcionando a usuarios individuales y desarrolladores una herramienta conveniente de síntesis de voz. Ya sea para la creación de contenido, el desarrollo de aplicaciones o las aplicaciones comerciales, se pueden encontrar escenarios de uso adecuados.