babysor/MockingBirdView GitHub Homepage for Latest Official Releases

أداة استنساخ الصوت بالذكاء الاصطناعي، تستنسخ الصوت في 5 ثوانٍ وتنتج أي محتوى صوتي في الوقت الفعلي

NOASSERTIONPythonMockingBirdbabysor 36.5k Last Updated: November 15, 2024

MockingBird - عرض تفصيلي لمشروع استنساخ الصوت بالذكاء الاصطناعي

نظرة عامة على المشروع

MockingBird هو مشروع مفتوح المصدر لاستنساخ الصوت بالذكاء الاصطناعي، قادر على استنساخ صوت أي شخص في غضون 5 ثوانٍ فقط، وإنشاء محتوى صوتي عشوائي في الوقت الفعلي. يعتمد هذا المشروع على تقنية التعلم العميق، وهو مُحسَّن خصيصًا للغة الماندرين الصينية، وهو حل قوي لتحويل النص إلى كلام (TTS).

الميزات الأساسية

🚀 استنساخ سريع للصوت

سرعة فائقة: يستغرق 5 ثوانٍ فقط من عينة الصوت لإكمال استنساخ الصوت.
إنشاء في الوقت الفعلي: يدعم تركيب الكلام في الوقت الفعلي، دون الحاجة إلى انتظار معالجة طويلة.
دقة عالية: جودة الصوت المُنشأة قريبة من الصوت الأصلي، طبيعية وسلسة.

🌍 دعم اللغة الصينية

تحسين اللغة الصينية: تم تدريبه وتحسينه خصيصًا للغة الماندرين الصينية.
دعم مجموعات بيانات متعددة: يستخدم مجموعات بيانات صينية متعددة للتدريب، بما في ذلك:
- aidatatang_200zh
- magicdata
- aishell3
- data_aishell
- ومجموعات بيانات صوتية صينية أخرى.

🎯 البنية التقنية

إطار التعلم العميق: مبني على PyTorch.
هيكل النموذج: يعتمد على بنية شبكة عصبية متقدمة لتركيب الكلام.
معالجة في الوقت الفعلي: يدعم محرك الاستدلال المحسن إنشاء الصوت في الوقت الفعلي.

التنفيذ التقني

هيكل النموذج

يعتمد MockingBird على إطار تعلم عميق متعدد المراحل:

مشفر الصوت: يحول الصوت إلى متجه ميزات الصوت.
مركب الكلام: يقوم بإنشاء الكلام بناءً على النص وميزات الصوت.
المرمز الصوتي: يحول الطيف المركب إلى الصوت النهائي.

بيانات التدريب

استخدم المشروع العديد من مجموعات البيانات الصوتية الصينية عالية الجودة للتدريب، مما يضمن قدرة النموذج على فهم وإنشاء الكلام الصيني.

التثبيت والاستخدام

متطلبات البيئة

Python 3.7 أو إصدار أحدث
PyTorch 1.9.0 (الإصدار الموصى به)
ffmpeg
دعم CUDA (اختياري، لتسريع GPU)

خطوات التثبيت

# إنشاء بيئة conda
conda create -n mockingbird python=3.9
conda activate mockingbird

# استنساخ المشروع
git clone https://github.com/babysor/MockingBird.git
cd MockingBird

# تثبيت التبعيات
pip install -r requirements.txt
pip install webrtcvad-wheels
pip install torch torchvision torchaudio

طريقة الاستخدام

تحضير عينة صوتية: سجل عينة صوتية مستهدفة لمدة 5-30 ثانية.
تشغيل صندوق الأدوات: استخدم أداة الواجهة الرسومية المتوفرة.
إنشاء الصوت: أدخل محتوى النص، وقم بإنشاء صوت مستنسخ.

سيناريوهات التطبيق

التطبيقات التجارية

إنتاج الدبلجة: إنتاج دبلجة مخصصة لمقاطع الفيديو والإعلانات وما إلى ذلك.
المساعد الصوتي: إنشاء مساعدين يعملون بالذكاء الاصطناعي بخصائص صوتية محددة.
الكتب الصوتية: إنشاء محتوى صوتي متسق.
الترفيه بالألعاب: دبلجة شخصيات الألعاب.

البحث التعليمي

أبحاث تكنولوجيا الصوت: كإطار أساسي لأبحاث تركيب الكلام.
تعلم اللغة: إنشاء أمثلة نطق قياسية للغة الماندرين.
التكنولوجيا المساعدة: توفير صوت مخصص للمستخدمين ذوي الإعاقات اللغوية.

مزايا المشروع

المزايا التقنية

مفتوح المصدر ومجاني: مفتوح المصدر بالكامل، مما يسهل التطوير الثانوي والبحث.
تحسين اللغة الصينية: مُحسَّن خصيصًا لخصائص الصوت الصيني.
أداء في الوقت الفعلي: يدعم إنشاء الصوت في الوقت الفعلي، وسرعة استجابة سريعة.
سهولة الاستخدام: يوفر أداة واجهة رسومية سهلة الاستخدام.

التفاصيل التقنية

ميزات هيكل النموذج

يعتمد على بنية شبكة عصبية شاملة.
يدعم تركيب الكلام متعدد المتحدثين.
سرعة استدلال محسنة، مناسبة للتطبيقات في الوقت الفعلي.

مؤشرات الأداء

معدل خطأ الأحرف (CER): حوالي 2٪ (نص إنجليزي مدته 5 دقائق).
معدل خطأ الكلمات (WER): حوالي 2٪ (نص إنجليزي مدته 5 دقائق).
جودة الصوت: إخراج عالي الدقة قريب من الصوت الأصلي.

تنبيهات

قيود الاستخدام

يوصى باستخدامه للأغراض القانونية والمتوافقة.
انتبه لحماية الخصوصية الشخصية وحقوق الصوت.
الالتزام بالقوانين واللوائح ذات الصلة.

القيود التقنية

يتطلب بعض موارد الحوسبة.
هناك متطلبات معينة لجودة الصوت المدخل.
قد لا يكون من الممكن تكرار بعض المؤثرات الصوتية الخاصة بشكل مثالي.

ملخص

MockingBird هو مشروع مفتوح المصدر قوي لاستنساخ الصوت بالذكاء الاصطناعي، وهو مناسب بشكل خاص لسيناريوهات تطبيقات الصوت الصينية. فهو يجمع بين تقنية التعلم العميق المتقدمة والتنفيذ الهندسي العملي، مما يوفر حلاً ممتازًا لمجال تركيب الكلام. سواء كان تطبيقًا تجاريًا أو بحثًا أكاديميًا، يمكن لـ MockingBird توفير خدمات استنساخ صوت عالية الجودة.