سلسلة نماذج TTS متقدمة ومفتوحة المصدر تدعم توليد الكلام متعدد اللغات، واستنساخ الصوت في 3 ثوانٍ، وتوليف البث بزمن انتقال منخفض للغاية
Qwen3-TTS: سلسلة نماذج متقدمة لتحويل النص إلى كلام
نظرة عامة على المشروع
Qwen3-TTS هي سلسلة مفتوحة المصدر من نماذج تحويل النص إلى كلام (TTS) المتقدمة التي طورها فريق Qwen في Alibaba Cloud. تم إصدار هذه المجموعة الشاملة من نماذج تحويل النص إلى كلام في يناير 2026، وتمثل تقدمًا كبيرًا في تكنولوجيا توليد الكلام، حيث تقدم قدرات غير مسبوقة في توليد الصوت واستنساخه والبث المباشر في الوقت الفعلي.
الميزات والقدرات الرئيسية
الوظائف الأساسية
- دعم متعدد اللغات: دعم أصلي لـ 10 لغات رئيسية بما في ذلك الصينية والإنجليزية واليابانية والكورية والألمانية والفرنسية والروسية والبرتغالية والإسبانية والإيطالية
- استنساخ الصوت: استنساخ صوتي سريع متطور في 3 ثوانٍ من الحد الأدنى من مدخلات الصوت
- تصميم الصوت: إنشاء أصوات جديدة تمامًا باستخدام أوصاف اللغة الطبيعية
- توليد البث المباشر: بث مباشر بزمن انتقال فائق الانخفاض مع انبعاث أول حزمة في 97 مللي ثانية
- التحكم المخصص في الصوت: تحكم دقيق في السمات الصوتية بما في ذلك النبرة والعاطفة والتنغيم
البنية التقنية
بنية نموذج لغوي مزدوج المسار
تستخدم Qwen3-TTS بنية مبتكرة لتوليد البث المباشر الهجين مزدوج المسار تدعم وضعي التوليد المتدفق وغير المتدفق. يتيح هذا التصميم إخراج الصوت الفوري بعد إدخال حرف واحد، مما يجعله مثاليًا للتطبيقات التفاعلية في الوقت الفعلي.
اثنان من مُرمّزات الكلام
Qwen-TTS-Tokenizer-25Hz:
- مُرمّز ذو كود بوك واحد يركز على المحتوى الدلالي
- تكامل سلس مع نماذج Qwen-Audio
- يدعم إعادة بناء الموجة الصوتية المتدفقة عبر DiT كتلة بكتلة
Qwen-TTS-Tokenizer-12Hz:
- تصميم متعدد الكود بوك مع 16 طبقة تعمل بتردد 12.5 هرتز
- تقليل معدل البت بشكل كبير للبث المباشر بزمن انتقال فائق الانخفاض
- شبكة عصبية تلافيفية سببية خفيفة الوزن لإعادة بناء الكلام بكفاءة
نماذج مختلفة
النماذج المتاحة
- Qwen3-TTS-12Hz-1.7B-Base: نموذج أساسي لاستنساخ الصوت والضبط الدقيق
- Qwen3-TTS-12Hz-1.7B-CustomVoice: مُعد مسبقًا بـ 9 نغمات صوتية مميزة
- Qwen3-TTS-12Hz-1.7B-VoiceDesign: متخصص في إنشاء الصوت القائم على الوصف
- Qwen3-TTS-12Hz-0.6B-CustomVoice: نسخة خفيفة الوزن مع إمكانيات صوت مخصصة
- Qwen3-TTS-12Hz-0.6B-Base: نموذج أساسي مدمج
بيانات التدريب
- تم التدريب على أكثر من 5 ملايين ساعة من بيانات الكلام عالية الجودة
- تغطية شاملة عبر 10 لغات وملفات تعريف لهجات متعددة
- فهم سياقي متقدم للتحكم التكيفي في النبرة والتعبير العاطفي
الابتكارات التقنية
تمثيل متقدم للكلام
- فصل الدلالات عن الصوتيات: فصل المحتوى الدلالي عالي المستوى عن التفاصيل الصوتية
- تنبؤ متعدد الرموز (MTP): يتيح فك تشفير الكلام الفوري من إطار المُرمّز الأول
- التدريب القائم على GAN: يعمل المُولّد على الموجات الصوتية الخام مع المُميّز الذي يحسن الطبيعية
قدرات البث المباشر
- بنية سببية: مُشفّرات ومُفكّكات ميزات سببية بالكامل للمعالجة في الوقت الفعلي
- التوليف في الوقت الفعلي: زمن انتقال التوليف من طرف إلى طرف يصل إلى 97 مللي ثانية
- فك التشفير التدريجي: إعادة بناء الصوت التدريجي من الرموز المنفصلة
التثبيت والاستخدام
التثبيت السريع
# إنشاء بيئة معزولة
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# التثبيت عبر PyPI
pip install qwen-tts
# اختياري: FlashAttention 2 لتحسين الذاكرة
pip install flash-attn
التثبيت للتطوير
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .
مثال على الاستخدام الأساسي
from qwen_tts import Qwen3TTSModel
import torch
# تحميل النموذج
tts = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-Base",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2"
)
# توليد الكلام
text = "Hello, this is Qwen3-TTS speaking!"
wavs, sr = tts.generate_speech(text)
الأداء والمعايير
نتائج متطورة
- أداء متفوق على مجموعات اختبار تحويل النص إلى كلام متعددة اللغات
- درجات ممتازة على معايير InstructTTSEval
- نتائج استثنائية في مهام توليد الكلام الطويل
- معالجة قوية للنصوص المدخلة المشوشة
مقاييس الجودة
- إعادة بناء كلام عالي الدقة
- تنغيم وتعبير عاطفي طبيعي
- جودة صوت متسقة عبر اللغات
- الحد الأدنى من العيوب في وضع البث المباشر
التكامل والنشر
دعم المنصات
- vLLM-Omni: دعم رسمي يوم الصفر للنشر والاستدلال
- ComfyUI: تطبيقات مجتمعية متعددة للتكامل مع سير العمل
- Hugging Face: استضافة نماذج مباشرة وواجهات برمجة تطبيقات للاستدلال
- DashScope API: منصة النشر المحسّنة من Alibaba Cloud
متطلبات الأجهزة
- يوصى ببطاقة رسومات متوافقة مع CUDA
- أجهزة متوافقة مع FlashAttention 2 للحصول على الأداء الأمثل
- دعم دقة torch.float16 أو torch.bfloat16
المجتمع والنظام البيئي
الالتزام بالمصدر المفتوح
- تم إصداره بموجب ترخيص Apache 2.0
- تتوفر أوزان النماذج الكاملة والمُرمّزات
- وثائق وأمثلة شاملة
- دعم نشط لتطوير المجتمع
تكاملات المجتمع
- تطبيقات عقد مخصصة متعددة لـ ComfyUI
- مكتبات وأدوات تغليف من طرف ثالث
- التكامل مع أطر عمل التعلم الآلي الشائعة
- رمز أمثلة ودروس تعليمية واسعة النطاق
البحث والتطوير
ورقة تقنية
يصاحب المشروع تقرير تقني شامل (arXiv:2601.15621) يفصل البنية ومنهجية التدريب وتقييمات الأداء.
خارطة الطريق المستقبلية
- تحسين قدرات الخدمة عبر الإنترنت
- دعم لغات إضافية
- تحسينات إضافية في أداء البث المباشر
- توسيع التكامل مع أنظمة الذكاء الاصطناعي متعددة الوسائط
الخلاصة
تمثل Qwen3-TTS قفزة كبيرة إلى الأمام في تكنولوجيا تحويل النص إلى كلام مفتوحة المصدر. بفضل مزيجها من الدعم متعدد اللغات، والبث المباشر بزمن انتقال فائق الانخفاض، وقدرات استنساخ الصوت المتقدمة، والأداء القوي عبر سيناريوهات متنوعة، فإنها تضع معيارًا جديدًا لتوليد الكلام عالي الجودة والمتاح. إن التزام المشروع بالتطوير مفتوح المصدر والتوثيق الشامل يجعله خيارًا ممتازًا للباحثين والمطورين والمؤسسات التي تبحث عن قدرات تحويل النص إلى كلام متطورة.