WhisperSpeech/WhisperSpeech

نظام تحويل النص إلى كلام مفتوح المصدر تم إنشاؤه من خلال الهندسة العكسية لـ Whisper

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

https://github.com/WhisperSpeech/WhisperSpeech

مشروع WhisperSpeech: تفاصيل شاملة

نظرة عامة

WhisperSpeech هو نظام مفتوح المصدر لتحويل النص إلى كلام (TTS) تم بناؤه عن طريق الهندسة العكسية لـ OpenAI Whisper. تتمثل رؤية المشروع في أن يصبح "Stable Diffusion" في مجال تركيب الكلام - قويًا وسهل التخصيص.

بدأ المشروع في الأصل باسم spear-tts-pytorch، وقد تطور الآن ليصبح حلاً ناضجًا لتركيب الكلام متعدد اللغات. يركز WhisperSpeech على استخدام بيانات تسجيل صوتي مرخصة ومتوافقة، وجميع التعليمات البرمجية مفتوحة المصدر، مما يضمن السلامة للتطبيقات التجارية.

الوظائف والميزات الأساسية

🎯 الميزات الرئيسية

مفتوح المصدر وآمن تجاريًا: يعتمد على ترخيص Apache-2.0/MIT، وجميع التعليمات البرمجية مفتوحة المصدر، ويستخدم فقط بيانات صوتية مرخصة ومتوافقة.
دعم متعدد اللغات: يدعم حاليًا اللغتين الإنجليزية والبولندية، مع خطط للتوسع إلى المزيد من اللغات.
استنساخ الصوت: يدعم ميزة استنساخ الصوت بناءً على ملفات صوتية مرجعية.
خلط متعدد اللغات: القدرة على خلط لغات متعددة في جملة واحدة.
تحسين الأداء العالي: يحقق أداء استدلال أسرع من الوقت الفعلي بأكثر من 12 مرة على بطاقة رسومات 4090 للمستهلك.

🔧 البنية التقنية

تشبه بنية WhisperSpeech بنية AudioLM من Google و SPEAR TTS، بالإضافة إلى MusicGen من Meta، وهي مبنية على نماذج مفتوحة المصدر قوية:

Whisper (OpenAI): يستخدم لإنشاء علامات دلالية وتنفيذ النسخ.
EnCodec (Meta): يستخدم للنمذجة الصوتية.
Vocos (Charactr Inc): يعمل كمرمز صوتي عالي الجودة.

📊 مكونات النموذج

إنشاء العلامات الدلالية: يستخدم كتل ترميز OpenAI Whisper لإنشاء تضمينات، ثم يتم تكميمها للحصول على علامات دلالية.
النمذجة الصوتية: يستخدم EnCodec لنمذجة الموجات الصوتية، مما يوفر جودة معقولة بمعدل 1.5 كيلوبت في الثانية.
مرمز صوتي عالي الجودة: يحول Vocos علامات EnCodec إلى صوت عالي الجودة.

🌍 مجموعات البيانات والتدريب

بيانات اللغة الإنجليزية: تم التدريب على أساس مجموعة بيانات LibreLight.
توسيع متعدد اللغات: تم تدريب نموذج صغير بنجاح على مجموعة بيانات اللغة الإنجليزية + البولندية + الفرنسية.
استنساخ الصوت: يدعم استنساخ الصوت عبر اللغات، حتى لو تم تدريب العلامات الدلالية على بعض اللغات فقط.

آخر التطورات

تحسين الأداء

تكامل torch.compile
إضافة kv-caching
تحسين هيكل طبقة الشبكة
تحقيق سرعة استدلال في الوقت الفعلي تزيد عن 12 مرة على بطاقة رسومات 4090

القدرات متعددة اللغات

تحقيق تركيب كلام مختلط باللغتين الإنجليزية والبولندية بنجاح
يدعم التبديل السلس بين اللغات المتعددة في جملة واحدة
ميزة استنساخ الصوت عبر اللغات

تحديثات النموذج

إصدار نموذج SD S2A أسرع، مما يزيد السرعة مع الحفاظ على الجودة العالية
تحسين وظيفة استنساخ الصوت
تحسين التبعيات، وتقليل وقت التثبيت إلى أقل من 30 ثانية

كيفية الاستخدام

بداية سريعة

Google Colab: يوفر دفاتر Colab جاهزة للاستخدام، ويكتمل التثبيت في غضون 30 ثانية.
التشغيل المحلي: يدعم بيئات دفتر الملاحظات المحلية.
HuggingFace: النماذج المدربة مسبقًا ومجموعات البيانات المحولة متاحة على HuggingFace.

تنزيل النموذج

المبادئ التقنية

اعتمد WhisperSpeech على طريقة "الهندسة العكسية" المبتكرة:

استخدام قدرة التعرف على الكلام في Whisper لبناء نظام تركيب الكلام بشكل عكسي.
ربط النص والكلام من خلال العلامات الدلالية.
الاستفادة من النماذج مفتوحة المصدر القوية الموجودة لتجنب إعادة اختراع العجلة.
التركيز على البيانات المتوافقة والسلامة التجارية.

ملخص

يمثل WhisperSpeech اختراقًا مهمًا في تكنولوجيا تركيب الكلام مفتوحة المصدر. فهو لا يحقق تركيب كلام متعدد اللغات عالي الجودة من الناحية الفنية فحسب، بل الأهم من ذلك أنه ينشئ نظامًا بيئيًا مفتوح المصدر وآمنًا تجاريًا بالكامل. من خلال طريقة الهندسة العكسية المبتكرة لـ Whisper، يوفر هذا المشروع حلاً قويًا ومرنًا لمجال تركيب الكلام.