Home
Login
SparkAudio/Spark-TTS

Spark-TTS: Un sistema eficiente de texto a voz basado en modelos de lenguaje grandes, que admite la clonación de voz de cero disparos y la generación de voz controlable.

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09
https://github.com/SparkAudio/Spark-TTS

Descripción Detallada del Proyecto Spark-TTS

Resumen del Proyecto

Spark-TTS es un sistema avanzado de texto a voz (TTS) basado en un modelo de lenguaje grande (LLM), desarrollado por el equipo de SparkAudio. Este sistema emplea una innovadora tecnología de tokens de voz desacoplados de un solo flujo, capaz de generar efectos de síntesis de voz naturales y de alta calidad. El proyecto se basa en el modelo de lenguaje grande Qwen2.5 y está diseñado para entornos de investigación y producción, caracterizándose por su eficiencia, flexibilidad y potencia.

Funciones y Características Principales

1. Diseño de Arquitectura Sencillo y Eficaz

  • Construido completamente sobre Qwen2.5, sin necesidad de modelos generativos adicionales (como modelos de coincidencia de flujo).
  • Reconstrucción directa del audio a partir del código predicho por el LLM, simplificando el proceso de tratamiento.
  • Aumenta la eficiencia y reduce la complejidad del sistema.

2. Clonación de Voz Zero-Shot

  • Soporta la tecnología de clonación de voz zero-shot, que permite replicar la voz de un hablante sin necesidad de datos de entrenamiento específicos.
  • Ideal para escenarios de cambio de idioma y código.
  • Capaz de cambiar sin problemas entre diferentes idiomas y voces.

3. Capacidad de Soporte Bilingüe

  • Soporta la síntesis de voz en chino e inglés.
  • Posee capacidad de clonación de voz zero-shot entre idiomas.
  • Mantiene una alta naturalidad y precisión en entornos multilingües.

4. Generación de Voz Controlable

  • Permite crear hablantes virtuales ajustando parámetros.
  • Se pueden controlar características de la voz como el género, el tono y la velocidad.
  • Ofrece control de atributos de grano grueso y ajuste de parámetros de grano fino.

5. Arquitectura Técnica Avanzada

  • Tecnología BiCodec: Códec de voz de un solo flujo que descompone la voz en dos tipos de tokens complementarios:
    • Tokens semánticos de baja tasa de bits: para el contenido del lenguaje.
    • Tokens globales de longitud fija: para atributos específicos del hablante.
  • Método de Generación de Cadena de Pensamiento (CoT): Combina la representación desacoplada para lograr un control preciso.

Especificaciones Técnicas

Requisitos del Sistema

  • Sistema Operativo: Linux (soporte principal), Windows (consultar la guía de instalación).
  • Versión de Python: 3.12+
  • Framework de Aprendizaje Profundo: PyTorch 2.5+
  • Licencia: Apache 2.0

Información del Modelo

  • Nombre del Modelo: Spark-TTS-0.5B
  • Plataforma de Alojamiento: Hugging Face
  • Plataforma de Soporte: Soporta el servicio de inferencia Nvidia Triton.

Instalación y Uso

Instalación Básica

# Clonar el repositorio
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# Crear un entorno Conda
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

Descarga del Modelo

# Descargar a través de Python
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

Modo de Uso

  1. Interfaz de Línea de Comandos: Soporta la inferencia directa desde la línea de comandos.
  2. Interfaz Web UI: Proporciona una interfaz gráfica, que soporta la clonación y creación de voz.
  3. Interfaz API: Soporta la llamada programática.

Rendimiento

Rendimiento de Inferencia

  • Pruebas de referencia realizadas en una sola GPU L20.
  • Datos de prueba: 26 pares diferentes de audio/texto objetivo (un total de 169 segundos de audio).
  • Soporta el procesamiento de alta concurrencia.
  • Proporciona métricas de rendimiento del factor de tiempo real (RTF).

Calidad de Voz

  • Efectos de clonación de voz zero-shot de alta calidad.
  • Soporta la reproducción de la voz de múltiples personajes y figuras conocidas.
  • Mantiene un rendimiento excelente en entornos bilingües chino-inglés.

Escenarios de Aplicación

Investigación Académica

  • Investigación sobre tecnología de síntesis de voz.
  • Investigación lingüística.
  • Investigación en inteligencia artificial y aprendizaje automático.

Aplicaciones Prácticas

  • Síntesis de voz personalizada.
  • Desarrollo de tecnología de asistencia.
  • Producción de contenido multimedia.
  • Herramientas de comunicación interlingüística.

Ventajas Técnicas

  1. Arquitectura Innovadora: Diseño novedoso basado en tokens de voz desacoplados de un solo flujo.
  2. Implementación Eficaz: Reconstrucción directa del audio a partir de la salida del LLM, evitando pasos intermedios complejos.
  3. Control Flexible: Soporta el control de características de la voz en múltiples niveles.
  4. Capacidad Interlingüística: Excelente rendimiento multilingüe e interlingüístico.
  5. Aprendizaje Zero-Shot: Se adapta a nuevos hablantes sin necesidad de entrenamiento adicional.

Ética y Normas de Uso

El proyecto establece claramente las directrices de uso:

  • Utilizar únicamente para investigación académica, fines educativos y aplicaciones legales.
  • Prohibido su uso para clonación de voz no autorizada, suplantación de identidad, fraude u otras actividades ilegales.
  • Los usuarios deben cumplir con las leyes, regulaciones y estándares éticos locales.
  • Los desarrolladores no asumen responsabilidad por el uso indebido.

Resumen

Spark-TTS es un sistema de texto a voz tecnológicamente avanzado y potente, que representa la vanguardia de la tecnología TTS actual. A través de un diseño de arquitectura innovador y tecnologías avanzadas de aprendizaje profundo, ofrece una calidad de voz excepcional y una capacidad de control flexible, manteniendo al mismo tiempo la eficiencia. Este proyecto no solo es adecuado para la investigación académica, sino que también tiene potencial para aplicaciones prácticas, siendo una contribución importante al campo de la síntesis de voz.