WhisperSpeech هو نظام مفتوح المصدر لتحويل النص إلى كلام (TTS) تم بناؤه عن طريق الهندسة العكسية لـ OpenAI Whisper. تتمثل رؤية المشروع في أن يصبح "Stable Diffusion" في مجال تركيب الكلام - قويًا وسهل التخصيص.
بدأ المشروع في الأصل باسم spear-tts-pytorch، وقد تطور الآن ليصبح حلاً ناضجًا لتركيب الكلام متعدد اللغات. يركز WhisperSpeech على استخدام بيانات تسجيل صوتي مرخصة ومتوافقة، وجميع التعليمات البرمجية مفتوحة المصدر، مما يضمن السلامة للتطبيقات التجارية.
تشبه بنية WhisperSpeech بنية AudioLM من Google و SPEAR TTS، بالإضافة إلى MusicGen من Meta، وهي مبنية على نماذج مفتوحة المصدر قوية:
اعتمد WhisperSpeech على طريقة "الهندسة العكسية" المبتكرة:
يمثل WhisperSpeech اختراقًا مهمًا في تكنولوجيا تركيب الكلام مفتوحة المصدر. فهو لا يحقق تركيب كلام متعدد اللغات عالي الجودة من الناحية الفنية فحسب، بل الأهم من ذلك أنه ينشئ نظامًا بيئيًا مفتوح المصدر وآمنًا تجاريًا بالكامل. من خلال طريقة الهندسة العكسية المبتكرة لـ Whisper، يوفر هذا المشروع حلاً قويًا ومرنًا لمجال تركيب الكلام.