نظرة عامة على مشروع TTS-WebUI
TTS-WebUI عبارة عن منصة واجهة ويب قوية لتحويل النص إلى كلام (Text-to-Speech)، تم تطويرها وصيانتها بواسطة rsxdalv. يدمج هذا المشروع العديد من نماذج TTS المتقدمة في واجهة ويب موحدة، مما يوفر للمستخدمين حلولًا مريحة لتركيب الكلام.
عنوان المشروع: https://github.com/rsxdalv/TTS-WebUI
الميزات الأساسية
🎯 تكامل نماذج متعددة
يدمج المشروع أكثر من 20 نموذجًا مختلفًا لـ TTS وتوليد الصوت، بما في ذلك:
نماذج تحويل النص إلى كلام
- ACE-Step - تركيب كلام عالي الجودة
- Kimi Audio - نموذج تعليمات 7B
- Piper TTS - تركيب كلام خفيف الوزن
- GPT-SoVITS - تركيب كلام يعتمد على GPT
- CosyVoice - تركيب كلام متعدد اللغات
- XTTSv2 - تحويل النص إلى كلام عبر اللغات
- DIA - صوت ذكاء اصطناعي حواري
- Kokoro - تركيب كلام عاطفي
- OpenVoice - استنساخ صوت مفتوح المصدر
- ParlerTTS - توليد صوت ديناميكي مدفوع بالإشارات
- StyleTTS2 - تركيب كلام منمق
- Tortoise - تركيب كلام عالي الجودة
- Bark - نموذج صوت متعدد اللغات
نماذج توليد الصوت
- Stable Audio - توليد صوت مستقر
- MMS - التعرف على الكلام متعدد اللغات
- MAGNet - شبكة توليد الصوت
- AudioGen - توليد محتوى صوتي
- MusicGen - نموذج توليد الموسيقى
أدوات معالجة الصوت
- RVC - تحويل الصوت المستند إلى الاسترجاع
- Vocos - ترميز وفك ترميز محسّن
- Demucs - فصل الصوت
- SeamlessM4T - ترجمة متعددة الوسائط
🖥️ تصميم واجهة مزدوجة
واجهة Gradio
- واجهة ويب تقليدية، سهلة الاستخدام
- دعم المعاينة والتصحيح في الوقت الفعلي
- خيارات تكوين نموذج كاملة
واجهة React
- تجربة مستخدم حديثة
- تصميم سريع الاستجابة
- ميزات متقدمة وخيارات تخصيص
🔧 البنية التقنية
تقنيات الواجهة الأمامية
- React - إطار عمل حديث للواجهة الأمامية للويب
- Gradio - واجهة نموذج أولي سريعة لنموذج التعلم الآلي
تقنيات الواجهة الخلفية
- Python - لغة البرمجة الرئيسية
- PyTorch - إطار عمل التعلم العميق
- FastAPI - إطار عمل API عالي الأداء
الأنظمة الأساسية المدعومة
- Windows - دعم كامل
- Linux - دعم كامل
- macOS - دعم أساسي (بعض الوظائف محدودة)
التثبيت والنشر
تثبيت سريع
التثبيت التلقائي (موصى به)
# تنزيل أحدث إصدار
wget https://github.com/rsxdalv/tts-webui/archive/refs/heads/main.zip
# فك الضغط وتشغيل
unzip main.zip
cd tts-webui-main
# مستخدمو Windows
start_tts_webui.bat
# مستخدمو Linux/macOS
./start_tts_webui.sh
نشر Docker
# سحب الصورة
docker pull ghcr.io/rsxdalv/tts-webui:main
# ابدأ باستخدام Docker Compose
docker compose up -d
# عرض السجلات
docker logs tts-webui
تكوين المنفذ
متطلبات النظام
- حجم التثبيت الأساسي: حوالي 10.7 جيجابايت
- كل نموذج: يتطلب مساحة إضافية من 2 إلى 8 جيجابايت
- إصدار Python: 3.10 (موصى به)
- GPU: دعم NVIDIA CUDA (اختياري، يمكن تشغيله على وحدة المعالجة المركزية CPU ولكن أبطأ)
الوظائف الرئيسية
📢 تركيب الكلام
- دعم لغات ولهجات متعددة
- سرعة الصوت ودرجة الصوت ومستوى الصوت قابلة للتعديل
- دعم معالجة الدُفعات للنصوص الطويلة
- معاينة الصوت في الوقت الفعلي
🎵 توليد الموسيقى
- إنشاء موسيقى بناءً على مطالبات نصية
- دعم أنماط الموسيقى المتعددة
- طول الموسيقى والتعقيد قابلان للتعديل
🔄 تحويل الصوت
- تقنية استنساخ الصوت
- تحويل نمط الصوت
- تركيب صوت متعدد المتحدثين
🔌 تكامل API
- واجهة API متوافقة مع OpenAI
- دعم تكامل SillyTavern
- تصميم RESTful API
- واجهة معالجة الدُفعات
نظام التوسع
إدارة التوسع
يعتمد المشروع نظام توسع معياري، يمكن للمستخدمين:
- تثبيت التوسعات من خلال واجهة الويب
- استخدام مدير التوسعات لإدارة الدُفعات
- تطوير توسعات مخصصة
التوسعات الموصى بها
- Kokoro TTS API - واجهة برمجة تطبيقات تركيب الكلام متوافقة مع OpenAI
- ACE-Step - تركيب كلام عالي الجودة
- OpenVoice V2 - أحدث إصدار من استنساخ الصوت
- Chatterbox - تركيب كلام حواري
حالات الاستخدام
🎙️ إنشاء المحتوى
- إنتاج البودكاست
- الكتب الصوتية
- دبلجة الفيديو
- إنتاج الإعلانات
🎮 تطوير الألعاب
- صوت الشخصية
- سرد الألعاب
- توطين متعدد اللغات
🤖 تطبيقات الذكاء الاصطناعي
- مساعد ذكي
- روبوتات الدردشة
- أنظمة التفاعل الصوتي
📚 التعليم والتدريب
- الدورات التدريبية عبر الإنترنت
- تعلم اللغة
- قراءة بدون عوائق
الميزات التقنية
🔧 تحسين النموذج
- دعم تكميم النموذج
- التكيف مع GPU/CPU
- إدارة الذاكرة المحسنة
- تسريع المعالجة الدفعية
🔒 الأمان
- خيار النشر المحلي
- حماية خصوصية البيانات
- التحكم في أذونات النموذج
🌐 التوافق
- دعم عبر الأنظمة الأساسية
- تنسيقات صوتية متعددة
- واجهة API قياسية
- تكامل الطرف الثالث
معلومات الترخيص
ترخيص التعليمات البرمجية
- مستودع التعليمات البرمجية الرئيسي: ترخيص MIT
- التبعيات: تتبع التراخيص الخاصة بها
ترخيص النموذج
- Bark: ترخيص MIT
- Tortoise: ترخيص Apache-2.0
- MusicGen: CC BY-NC 4.0
- AudioGen: CC BY-NC 4.0
تنبيه
قد تعتمد بعض التبعيات على تراخيص غير تجارية، يرجى قراءة شروط الترخيص ذات الصلة بعناية قبل الاستخدام.
تفاصيل المكدس التقني
التبعيات الأساسية
# التبعيات الرئيسية
torch>=2.6.0 # إطار عمل التعلم العميق
gradio==5.5.0 # إطار عمل واجهة الويب
transformers # نماذج مدربة مسبقًا
accelerate>=0.33.0 # تسريع النموذج
ffmpeg-python # معالجة الصوت
معالجة الصوت
- FFmpeg: ترميز وفك ترميز الصوت
- librosa: تحليل الصوت
- soundfile: قراءة وكتابة ملفات الصوت
- torchaudio: معالجة الصوت PyTorch
إطار عمل النموذج
- Hugging Face Transformers: نماذج مدربة مسبقًا
- ONNX: تحسين النموذج ونشره
- TensorRT: تسريع NVIDIA GPU
تحسين الأداء
🚀 تقنيات التسريع
- تسريع GPU: دعم CUDA وROCm
- تكميم النموذج: تقليل استخدام الذاكرة
- المعالجة الدفعية: زيادة الإنتاجية
- آلية التخزين المؤقت: تقليل العمليات الحسابية المتكررة
📊 مقاييس الأداء
- الكمون: عادةً <2 ثانية (بيئة GPU)
- الإنتاجية: دعم الطلبات المتزامنة
- استخدام الذاكرة: قيود الذاكرة القابلة للتكوين
- مساحة القرص: التثبيت المعياري يوفر المساحة
ملخص
TTS-WebUI هو حل شامل لتحويل النص إلى كلام، وقد نجح في دمج العديد من نماذج الذكاء الاصطناعي المتقدمة في واجهة ويب سهلة الاستخدام. سواء كنت منشئ محتوى فرديًا أو مطورًا مؤسسيًا أو باحثًا، يمكنك العثور على أداة تركيب الكلام التي تناسب احتياجاتك في هذا المشروع.
