Chatterbox - نموذج تحويل النص إلى كلام مفتوح المصدر
نظرة عامة على المشروع
Chatterbox هو أول نموذج مفتوح المصدر لتحويل النص إلى كلام (TTS) على مستوى الإنتاج تم تطويره بواسطة Resemble AI. تم إصدار هذا المشروع بموجب ترخيص MIT، وهو حل رائد لتوليف الكلام يتفوق في العديد من الاختبارات المعيارية، وحتى يتفوق باستمرار على الأنظمة المغلقة المصدر الرائدة مثل ElevenLabs في التقييمات جنبًا إلى جنب.
الميزات الأساسية
🎯 المزايا التقنية
- أحدث تقنيات TTS بدون عينات: توليد كلام عالي الجودة دون الحاجة إلى التدريب.
- شبكة Llama الأساسية بـ 500 مليون معلمة: بنية نموذج قوية تضمن جودة التوليد.
- تحكم فريد في المبالغة/الشدة العاطفية: أول نموذج TTS مفتوح المصدر في الصناعة يدعم التحكم العاطفي.
- استدلال مستقر للغاية مع إدراك المحاذاة: يضمن استقرار واتساق الكلام الناتج.
- بيانات تدريب واسعة النطاق: تم التدريب على بيانات نظيفة تبلغ 500 ألف ساعة.
- وظيفة العلامة المائية المدمجة: تحتوي جميع الملفات الصوتية التي تم إنشاؤها على علامة مائية Perth ذات عتبة الإدراك.
🚀 الأداء
- أفضل من ElevenLabs: أداء أفضل في اختبارات المقارنة على منصة Podonos.
- زمن انتقال منخفض: يدعم الإصدار التجاري زمن انتقال منخفض للغاية أقل من 200 مللي ثانية.
- توليف عالي الجودة: تم التدريب على بيانات نظيفة واسعة النطاق، مما يضمن جودة الإخراج.
حالات الاستخدام
Chatterbox مناسب لمجموعة متنوعة من حالات الاستخدام:
- إنشاء المحتوى: صناعة الميمات، دبلجة الفيديو.
- تطوير الألعاب: أصوات الشخصيات، التعليق الصوتي للألعاب.
- وكلاء الذكاء الاصطناعي: مساعدون أذكياء، روبوتات الدردشة.
- الوسائط التفاعلية: تطبيقات تفاعلية، محتوى تعليمي.
- تحويل الصوت: تحويل نمط الصوت.
التثبيت والاستخدام
تثبيت سريع
pip install chatterbox-tts
مثال على الاستخدام الأساسي
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# تهيئة النموذج
model = ChatterboxTTS.from_pretrained(device="cuda")
# توليد الكلام
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# استخدام موجه صوتي لاستنساخ الصوت
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
دليل ضبط المعلمات
الاستخدام العام (TTS ووكيل الصوت)
- الإعدادات الافتراضية:
exaggeration=0.5
, cfg=0.5
مناسبة لمعظم المطالبات.
- نمط صوت سريع: إذا كان المتحدث المرجعي يتحدث بسرعة، يمكن تقليل
cfg
إلى حوالي 0.3
لتحسين الإيقاع.
صوت تعبيري أو درامي
- قيمة CFG منخفضة: جرب قيمة
cfg
منخفضة (مثل ~0.3
).
- مبالغة عالية: قم بزيادة
exaggeration
إلى حوالي 0.7
أو أعلى.
- تعويض السرعة: ستؤدي
exaggeration
الأعلى إلى تسريع الكلام، ويساعد تقليل cfg
على التعويض بإيقاع أبطأ وأكثر تفكيرًا.
البنية التقنية
بنية النموذج
- الشبكة الأساسية: نموذج بـ 500 مليون معلمة يعتمد على بنية Llama.
- بيانات التدريب: 500 ألف ساعة من البيانات النظيفة عالية الجودة.
- تحسين الاستدلال: تضمن تقنية الاستدلال مع إدراك المحاذاة الاستقرار.
ميزات الأمان
- العلامة المائية المدمجة: تستخدم تقنية العلامة المائية Perth (عتبة الإدراك) من Resemble AI.
- دقة الكشف: تحافظ العلامة المائية على دقة كشف تقارب 100٪ حتى بعد ضغط MP3 وتحرير الصوت والعمليات الشائعة.
- الشفافية: يوفر النموذج مفتوح المصدر شفافية وتحكمًا كاملين.
موارد المشروع
الدعم التجاري
بالنسبة للمستخدمين الذين يحتاجون إلى التوسع أو الضبط الدقيق لتحقيق دقة أعلى، تقدم Resemble AI خدمات TTS بأسعار تنافسية، مع الميزات التالية:
- أداء موثوق: خدمة مستقرة على مستوى الإنتاج.
- زمن انتقال منخفض للغاية: وقت استجابة أقل من 200 مللي ثانية.
- حالات الاستخدام: الاستخدام الإنتاجي للوكلاء أو التطبيقات أو الوسائط التفاعلية.
إشعار الاستخدام
يجب استخدام هذا النموذج بمسؤولية وعدم استخدامه لأغراض ضارة. تأتي مطالبات التدريب من بيانات متاحة مجانًا على الإنترنت.
المساهمة والمجتمع
باعتباره مشروعًا مفتوح المصدر، يرحب Chatterbox بمساهمات المجتمع. يمكن للمطورين المشاركة في تطوير المشروع من خلال GitHub، أو إرسال تقارير المشكلات أو اقتراحات الميزات.
