myshell-ai/OpenVoiceView GitHub Homepage for Latest Official Releases

OpenVoice: تقنية استنساخ الصوت الفوري المطورة بالاشتراك بين MIT و MyShell، تعتمد على نموذج أساسي صوتي لتحقيق استنساخ صوت متعدد اللغات.

MITPythonOpenVoicemyshell-ai 34.4k Last Updated: April 19, 2025

نظرة عامة على مشروع OpenVoice

ملخص المشروع

OpenVoice هو مشروع مفتوح المصدر لتقنية استنساخ الصوت الفوري، تم تطويره بالاشتراك بين معهد ماساتشوستس للتكنولوجيا (MIT) و MyShell. يعتمد المشروع على نموذج أساسي للصوت، مما يتيح استنساخًا وتوليفًا عالي الجودة للصوت متعدد اللغات. منذ مايو 2023، يوفر OpenVoice قدرات استنساخ الصوت الفوري لمنصة MyShell.ai، وبحلول نوفمبر 2023، تم استخدامه عشرات الملايين من المرات من قبل المستخدمين في جميع أنحاء العالم.

الوظائف والميزات الأساسية

1. استنساخ دقيق للنبرة الصوتية

نسخ عالي الدقة للنبرة الصوتية: OpenVoice قادر على استنساخ خصائص النبرة الصوتية للصوت المرجعي بدقة.
توليد متعدد اللغات: يدعم توليد الصوت بلغات ولهجات متعددة.
دقة عالية: الصوت الناتج مشابه جدًا للنبرة الصوتية الأصلية.

2. تحكم مرن في نمط الصوت

التحكم في المشاعر: يمكن التحكم بدقة في التعبير العاطفي للصوت الناتج.
تعديل اللهجة: يدعم تعديل أنماط اللهجات المختلفة.
معلمات الإيقاع: يشمل التحكم الدقيق في الإيقاع والتوقف والنبرة.
معلمات النمط: قدرة شاملة على تعديل معلمات نمط الصوت.

3. استنساخ الصوت عبر اللغات بدون عينات

قدرة عبر اللغات: لا يلزم أن تظهر لغة الصوت الناتج ولغة الصوت المرجعي في مجموعة بيانات التدريب.
لا حاجة إلى تدريب إضافي: يمكنه معالجة مجموعات اللغات غير المرئية مباشرة.
تطبيق واسع: مناسب لمختلف السيناريوهات اللغوية واحتياجات التطبيق.

البنية التقنية

التقنيات الأساسية

تم بناء OpenVoice على المشاريع مفتوحة المصدر الممتازة التالية:

TTS (Text-to-Speech): التقنية الأساسية لتحويل النص إلى كلام.
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech): توليف الكلام من طرف إلى طرف باستخدام الاستدلال المتغير والتعلم التنافسي.
VITS2: نسخة محسنة من VITS.

استراتيجية التدريب

استخدام مجموعة بيانات تدريب واسعة النطاق متعددة اللغات ومتعددة المتحدثين.
استخدام الاستدلال المتغير وتقنيات التعلم التنافسي.
تضمن استراتيجيات التدريب المحسنة إخراج صوت عالي الجودة.

اللغات المدعومة

اللغات المدعومة أصلاً في الإصدار V2

الإنجليزية (English)
الصينية (Chinese)
الإسبانية (Spanish)
الفرنسية (French)
اليابانية (Japanese)
الكورية (Korean)

القدرة عبر اللغات

بالإضافة إلى اللغات المدعومة أصلاً، يمكن لـ OpenVoice معالجة مهام استنساخ الصوت بلغات أخرى من خلال قدرة التعلم بدون عينات.

سيناريوهات التطبيق

إنشاء المحتوى

إنتاج البودكاست والمحتوى الصوتي
إنتاج الكتب الصوتية
توطين المحتوى متعدد اللغات

التعليم والتدريب

المساعدة في تعلم اللغات
دورات التعليم عبر الإنترنت
تجارب تعليمية مخصصة

الإعلام الترفيهي

دبلجة شخصيات الألعاب
إنتاج الرسوم المتحركة
المذيعون الافتراضيون

التطبيقات التجارية

روبوتات خدمة العملاء
المساعدون الصوتيون
محتوى الإعلانات والتسويق

التثبيت والاستخدام

متطلبات البيئة

Python 3.9+
وحدة معالجة الرسومات (GPU) تدعم CUDA (موصى بها)

بداية سريعة

# إنشاء بيئة افتراضية
conda create -n openvoice python=3.9
conda activate openvoice

# استنساخ المشروع
git clone https://github.com/myshell-ai/OpenVoice.git
cd OpenVoice

# تثبيت التبعيات
pip install -e .

أمثلة توضيحية

يوفر المشروع عروض Jupyter Notebook كاملة:

demo_part1.ipynb: يعرض التحكم المرن في نمط الصوت.
demo_part2.ipynb: يوضح وظيفة استنساخ الصوت عبر اللغات.

الإنجازات الأكاديمية

تم نشر نتائج البحث في المشروع في ورقة أكاديمية بعنوان "OpenVoice: Versatile Instant Voice Cloning"، والتي تشرح بالتفصيل المبادئ التقنية والنتائج التجريبية.

الترخيص والاستخدام التجاري

ترخيص مفتوح المصدر

نوع الترخيص: MIT License
الاستخدام التجاري: مجاني تمامًا، استخدام تجاري غير محدود
الاستخدام البحثي: يدعم البحث والتطوير الأكاديمي

مزايا الأداء

مقارنة مع واجهات برمجة التطبيقات التجارية

فعالية التكلفة: أكثر اقتصادا من واجهات برمجة التطبيقات التجارية لاستنساخ الصوت.
أداء: يتجاوز الحلول التجارية في العديد من المؤشرات.
المرونة: قدرة أعلى على التخصيص والتحكم.

المؤشرات التقنية

إخراج صوت عالي الجودة
سرعة استدلال سريعة
استهلاك منخفض للموارد
أداء مستقر

ملخص

يمثل OpenVoice أحدث ما توصلت إليه تقنية استنساخ الصوت، ومن خلال التطوير المشترك بين MIT و MyShell، فإنه يوفر للمطورين والباحثين في جميع أنحاء العالم حلاً قويًا ومرنًا ومجانيًا لاستنساخ الصوت.

المزايا الرئيسية

تقنية متقدمة: تعتمد على أحدث تقنيات التعلم العميق وتوليف الكلام.
وظائف شاملة: تغطي الوظائف الأساسية مثل استنساخ النبرة الصوتية والتحكم في النمط والدعم عبر اللغات.
سهولة الاستخدام: يوفر وثائق كاملة وأمثلة ودعم المجتمع.
صديق للتجارة: يضمن ترخيص MIT استخدامًا تجاريًا مجانيًا.