SparkAudio/Spark-TTS

Spark-TTS: نظام فعال لتحويل النص إلى كلام يعتمد على نموذج لغوي كبير، يدعم استنساخ الصوت بدون عينات وتوليد صوت يمكن التحكم فيه

Apache-2.0Python 9.8kSparkAudio Last Updated: 2025-04-09

وصف تفصيلي لمشروع Spark-TTS

نظرة عامة على المشروع

Spark-TTS هو نظام متطور لتحويل النص إلى كلام (TTS) يعتمد على نموذج لغوي كبير (LLM)، تم تطويره بواسطة فريق SparkAudio. يستخدم هذا النظام تقنية مبتكرة لترميز الكلام أحادي التدفق وفك الترميز، مما يتيح توليد تأثيرات تركيب كلام عالية الجودة وطبيعية. يعتمد المشروع على نموذج Qwen2.5 اللغوي الكبير، وهو مصمم خصيصًا لبيئات البحث والإنتاج، ويتميز بالكفاءة والمرونة والقوة.

الوظائف والميزات الأساسية

1. تصميم معماري بسيط وفعال

مبني بالكامل على Qwen2.5، لا حاجة إلى نماذج توليد إضافية (مثل نماذج مطابقة التدفق)
إعادة بناء الصوت مباشرة من التعليمات البرمجية المتوقعة بواسطة LLM، مما يبسط عملية المعالجة
يزيد الكفاءة ويقلل من تعقيد النظام

2. استنساخ صوتي بدون عينات

يدعم تقنية استنساخ الصوت بدون عينات، مما يتيح نسخ صوت المتحدث دون الحاجة إلى بيانات تدريب محددة
مثالي لسيناريوهات التبديل بين اللغات والتعليمات البرمجية
القدرة على التبديل بسلاسة بين اللغات والأصوات المختلفة

3. قدرة دعم اللغة المزدوجة

يدعم تركيب الكلام باللغتين الصينية والإنجليزية
يتمتع بقدرة استنساخ صوتي بدون عينات عبر اللغات
يحافظ على درجة عالية من الطبيعية والدقة في البيئات متعددة اللغات

4. توليد كلام قابل للتحكم

يدعم إنشاء متحدثين افتراضيين عن طريق تعديل المعلمات
يمكن التحكم في خصائص الصوت مثل الجنس والنبرة وسرعة الكلام
يوفر تحكمًا في السمات ذات الحبيبات الخشنة وتعديل المعلمات الدقيقة

5. بنية تقنية متقدمة

تقنية BiCodec: برنامج ترميز وفك ترميز صوتي أحادي التدفق، يقسم الصوت إلى نوعين من الرموز التكميلية
- رموز دلالية منخفضة معدل البت: للمحتوى اللغوي
- رموز عالمية ثابتة الطول: لخصائص محددة للمتحدث
طريقة توليد سلسلة التفكير (CoT): تجمع بين التمثيل المفصول لتحقيق تحكم دقيق

المواصفات الفنية

متطلبات النظام

نظام التشغيل: Linux (مدعوم بشكل أساسي)، Windows (راجع دليل التثبيت)
إصدار Python: 3.12+
إطار عمل التعلم العميق: PyTorch 2.5+
الترخيص: Apache 2.0

معلومات النموذج

اسم النموذج: Spark-TTS-0.5B
منصة الاستضافة: Hugging Face
المنصات المدعومة: يدعم خدمة الاستدلال Nvidia Triton

التثبيت والاستخدام

التثبيت الأساسي

# استنساخ المستودع
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

# إنشاء بيئة Conda
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

تنزيل النموذج

# التنزيل عبر Python
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

طرق الاستخدام

واجهة سطر الأوامر: تدعم الاستدلال المباشر من سطر الأوامر
واجهة مستخدم الويب: توفر واجهة رسومية، تدعم استنساخ الصوت وإنشاء الصوت
واجهة برمجة التطبيقات (API): تدعم الاستدعاء البرمجي

أداء

أداء الاستدلال

تم إجراء اختبارات معيارية على وحدة معالجة الرسومات L20 واحدة
بيانات الاختبار: 26 زوجًا من مطالبات الصوت/النصوص المستهدفة (إجمالي 169 ثانية من الصوت)
يدعم المعالجة المتزامنة العالية
يوفر مقياس أداء عامل الوقت الفعلي (RTF)

جودة الصوت

تأثيرات استنساخ صوتي عالية الجودة بدون عينات
يدعم استنساخ أصوات العديد من الشخصيات والأدوار المعروفة
يحافظ على أداء ممتاز في البيئات ثنائية اللغة (الصينية والإنجليزية)

سيناريوهات التطبيق

البحث الأكاديمي

أبحاث تقنية تركيب الكلام
أبحاث علم اللغة
أبحاث الذكاء الاصطناعي والتعلم الآلي

التطبيقات العملية

تركيب كلام مخصص
تطوير التقنيات المساعدة
إنتاج محتوى الوسائط المتعددة
أدوات التواصل عبر اللغات

المزايا التقنية

هندسة مبتكرة: تصميم جديد يعتمد على رموز كلام مفصولة أحادية التدفق
تنفيذ فعال: إعادة بناء الصوت مباشرة من مخرجات LLM، وتجنب الخطوات الوسيطة المعقدة
تحكم مرن: يدعم التحكم متعدد المستويات في خصائص الصوت
قدرة عبر اللغات: أداء ممتاز متعدد اللغات وعبر اللغات
التعلم بدون عينات: القدرة على التكيف مع متحدثين جدد دون الحاجة إلى تدريب إضافي

الأخلاقيات وقواعد الاستخدام

يحدد المشروع بوضوح إرشادات الاستخدام:

يستخدم فقط للبحث الأكاديمي والأغراض التعليمية والتطبيقات القانونية
يحظر استخدامه في استنساخ الصوت غير المصرح به أو انتحال الشخصية أو الاحتيال أو الأنشطة غير القانونية الأخرى
يجب على المستخدمين الالتزام بالقوانين واللوائح المحلية والمعايير الأخلاقية
لا يتحمل المطورون مسؤولية سوء الاستخدام

ملخص

Spark-TTS هو نظام متقدم تقنيًا وقوي لتحويل النص إلى كلام، ويمثل أحدث ما توصلت إليه تقنية TTS. من خلال التصميم المعماري المبتكر وتقنيات التعلم العميق المتقدمة، فإنه يوفر جودة صوت فائقة وقدرات تحكم مرنة مع الحفاظ على الكفاءة. هذا المشروع ليس مناسبًا فقط للبحث الأكاديمي، ولكنه يتمتع أيضًا بإمكانات التطبيق العملي، وهو مساهمة مهمة في مجال تركيب الكلام.