rsxdalv/TTS-WebUIView GitHub Homepage for Latest Official Releases

منصة ويب موحدة لتحويل النص إلى كلام تدمج نماذج TTS متعددة

MITTypeScriptTTS-WebUIrsxdalv 2.6k Last Updated: September 20, 2025

نظرة عامة على مشروع TTS-WebUI

TTS-WebUI عبارة عن منصة واجهة ويب قوية لتحويل النص إلى كلام (Text-to-Speech)، تم تطويرها وصيانتها بواسطة rsxdalv. يدمج هذا المشروع العديد من نماذج TTS المتقدمة في واجهة ويب موحدة، مما يوفر للمستخدمين حلولًا مريحة لتركيب الكلام.

عنوان المشروع: https://github.com/rsxdalv/TTS-WebUI

الميزات الأساسية

🎯 تكامل نماذج متعددة

يدمج المشروع أكثر من 20 نموذجًا مختلفًا لـ TTS وتوليد الصوت، بما في ذلك:

نماذج تحويل النص إلى كلام

ACE-Step - تركيب كلام عالي الجودة
Kimi Audio - نموذج تعليمات 7B
Piper TTS - تركيب كلام خفيف الوزن
GPT-SoVITS - تركيب كلام يعتمد على GPT
CosyVoice - تركيب كلام متعدد اللغات
XTTSv2 - تحويل النص إلى كلام عبر اللغات
DIA - صوت ذكاء اصطناعي حواري
Kokoro - تركيب كلام عاطفي
OpenVoice - استنساخ صوت مفتوح المصدر
ParlerTTS - توليد صوت ديناميكي مدفوع بالإشارات
StyleTTS2 - تركيب كلام منمق
Tortoise - تركيب كلام عالي الجودة
Bark - نموذج صوت متعدد اللغات

نماذج توليد الصوت

Stable Audio - توليد صوت مستقر
MMS - التعرف على الكلام متعدد اللغات
MAGNet - شبكة توليد الصوت
AudioGen - توليد محتوى صوتي
MusicGen - نموذج توليد الموسيقى

أدوات معالجة الصوت

RVC - تحويل الصوت المستند إلى الاسترجاع
Vocos - ترميز وفك ترميز محسّن
Demucs - فصل الصوت
SeamlessM4T - ترجمة متعددة الوسائط

🖥️ تصميم واجهة مزدوجة

واجهة Gradio

واجهة ويب تقليدية، سهلة الاستخدام
دعم المعاينة والتصحيح في الوقت الفعلي
خيارات تكوين نموذج كاملة

واجهة React

تجربة مستخدم حديثة
تصميم سريع الاستجابة
ميزات متقدمة وخيارات تخصيص

🔧 البنية التقنية

تقنيات الواجهة الأمامية

React - إطار عمل حديث للواجهة الأمامية للويب
Gradio - واجهة نموذج أولي سريعة لنموذج التعلم الآلي

تقنيات الواجهة الخلفية

Python - لغة البرمجة الرئيسية
PyTorch - إطار عمل التعلم العميق
FastAPI - إطار عمل API عالي الأداء

الأنظمة الأساسية المدعومة

Windows - دعم كامل
Linux - دعم كامل
macOS - دعم أساسي (بعض الوظائف محدودة)

التثبيت والنشر

تثبيت سريع

التثبيت التلقائي (موصى به)

# تنزيل أحدث إصدار
wget https://github.com/rsxdalv/tts-webui/archive/refs/heads/main.zip

# فك الضغط وتشغيل
unzip main.zip
cd tts-webui-main

# مستخدمو Windows
start_tts_webui.bat

# مستخدمو Linux/macOS
./start_tts_webui.sh

نشر Docker

# سحب الصورة
docker pull ghcr.io/rsxdalv/tts-webui:main

# ابدأ باستخدام Docker Compose
docker compose up -d

# عرض السجلات
docker logs tts-webui

تكوين المنفذ

الواجهة الخلفية لـ Gradio: http://localhost:7770
الواجهة الأمامية لـ React: http://localhost:3000

متطلبات النظام

حجم التثبيت الأساسي: حوالي 10.7 جيجابايت
كل نموذج: يتطلب مساحة إضافية من 2 إلى 8 جيجابايت
إصدار Python: 3.10 (موصى به)
GPU: دعم NVIDIA CUDA (اختياري، يمكن تشغيله على وحدة المعالجة المركزية CPU ولكن أبطأ)

الوظائف الرئيسية

📢 تركيب الكلام

دعم لغات ولهجات متعددة
سرعة الصوت ودرجة الصوت ومستوى الصوت قابلة للتعديل
دعم معالجة الدُفعات للنصوص الطويلة
معاينة الصوت في الوقت الفعلي

🎵 توليد الموسيقى

إنشاء موسيقى بناءً على مطالبات نصية
دعم أنماط الموسيقى المتعددة
طول الموسيقى والتعقيد قابلان للتعديل

🔄 تحويل الصوت

تقنية استنساخ الصوت
تحويل نمط الصوت
تركيب صوت متعدد المتحدثين

🔌 تكامل API

واجهة API متوافقة مع OpenAI
دعم تكامل SillyTavern
تصميم RESTful API
واجهة معالجة الدُفعات

نظام التوسع

إدارة التوسع

يعتمد المشروع نظام توسع معياري، يمكن للمستخدمين:

تثبيت التوسعات من خلال واجهة الويب
استخدام مدير التوسعات لإدارة الدُفعات
تطوير توسعات مخصصة

التوسعات الموصى بها

Kokoro TTS API - واجهة برمجة تطبيقات تركيب الكلام متوافقة مع OpenAI
ACE-Step - تركيب كلام عالي الجودة
OpenVoice V2 - أحدث إصدار من استنساخ الصوت
Chatterbox - تركيب كلام حواري

حالات الاستخدام

🎙️ إنشاء المحتوى

إنتاج البودكاست
الكتب الصوتية
دبلجة الفيديو
إنتاج الإعلانات

🎮 تطوير الألعاب

صوت الشخصية
سرد الألعاب
توطين متعدد اللغات

🤖 تطبيقات الذكاء الاصطناعي

مساعد ذكي
روبوتات الدردشة
أنظمة التفاعل الصوتي

📚 التعليم والتدريب

الدورات التدريبية عبر الإنترنت
تعلم اللغة
قراءة بدون عوائق

الميزات التقنية

🔧 تحسين النموذج

دعم تكميم النموذج
التكيف مع GPU/CPU
إدارة الذاكرة المحسنة
تسريع المعالجة الدفعية

🔒 الأمان

خيار النشر المحلي
حماية خصوصية البيانات
التحكم في أذونات النموذج

🌐 التوافق

دعم عبر الأنظمة الأساسية
تنسيقات صوتية متعددة
واجهة API قياسية
تكامل الطرف الثالث

معلومات الترخيص

ترخيص التعليمات البرمجية

مستودع التعليمات البرمجية الرئيسي: ترخيص MIT
التبعيات: تتبع التراخيص الخاصة بها

ترخيص النموذج

Bark: ترخيص MIT
Tortoise: ترخيص Apache-2.0
MusicGen: CC BY-NC 4.0
AudioGen: CC BY-NC 4.0

تنبيه

قد تعتمد بعض التبعيات على تراخيص غير تجارية، يرجى قراءة شروط الترخيص ذات الصلة بعناية قبل الاستخدام.

تفاصيل المكدس التقني

التبعيات الأساسية

# التبعيات الرئيسية
torch>=2.6.0          # إطار عمل التعلم العميق
gradio==5.5.0          # إطار عمل واجهة الويب
transformers           # نماذج مدربة مسبقًا
accelerate>=0.33.0     # تسريع النموذج
ffmpeg-python          # معالجة الصوت

معالجة الصوت

FFmpeg: ترميز وفك ترميز الصوت
librosa: تحليل الصوت
soundfile: قراءة وكتابة ملفات الصوت
torchaudio: معالجة الصوت PyTorch

إطار عمل النموذج

Hugging Face Transformers: نماذج مدربة مسبقًا
ONNX: تحسين النموذج ونشره
TensorRT: تسريع NVIDIA GPU

تحسين الأداء

🚀 تقنيات التسريع

تسريع GPU: دعم CUDA وROCm
تكميم النموذج: تقليل استخدام الذاكرة
المعالجة الدفعية: زيادة الإنتاجية
آلية التخزين المؤقت: تقليل العمليات الحسابية المتكررة

📊 مقاييس الأداء

الكمون: عادةً <2 ثانية (بيئة GPU)
الإنتاجية: دعم الطلبات المتزامنة
استخدام الذاكرة: قيود الذاكرة القابلة للتكوين
مساحة القرص: التثبيت المعياري يوفر المساحة

ملخص

TTS-WebUI هو حل شامل لتحويل النص إلى كلام، وقد نجح في دمج العديد من نماذج الذكاء الاصطناعي المتقدمة في واجهة ويب سهلة الاستخدام. سواء كنت منشئ محتوى فرديًا أو مطورًا مؤسسيًا أو باحثًا، يمكنك العثور على أداة تركيب الكلام التي تناسب احتياجاتك في هذا المشروع.