نموذج مايكروسوفت مفتوح المصدر ومتطور لتوليد الكلام الحواري متعدد الأطراف، يدعم إنشاء صوت حواري معبر يصل إلى 90 دقيقة مع ما يصل إلى 4 متحدثين مختلفين.

MITPythonVibeVoicemicrosoft 19.2k Last Updated: December 17, 2025

VibeVoice - إطار عمل مايكروسوفت المتطور مفتوح المصدر لتوليد الكلام

نظرة عامة على المشروع

VibeVoice هو إطار عمل جديد مفتوح المصدر طورته أبحاث مايكروسوفت، مصمم خصيصًا لتوليد صوت حواري معبر وطويل ومتعدد المتحدثين من النص، مثل البودكاست. يعالج هذا الإطار التحديات الكبيرة التي تواجهها أنظمة تحويل النص إلى كلام (TTS) التقليدية فيما يتعلق بقابلية التوسع، واتساق المتحدث، والانتقالات الطبيعية.

الابتكارات التقنية الأساسية

مُرمِّز الكلام المستمر (Continuous Speech Tokenizer)

يكمن الابتكار الأساسي في VibeVoice في استخدام مُرمِّزات الكلام المستمرة (الصوتية والدلالية)، والتي تعمل بمعدل إطارات منخفض للغاية يبلغ 7.5 هرتز. تعمل هذه المُرمِّزات على تحسين الكفاءة الحسابية لمعالجة التسلسلات الطويلة بشكل كبير، مع الحفاظ بفعالية على دقة الصوت.

إطار عمل الانتشار للرمز التالي (Next-Token Diffusion Framework)

يتبنى VibeVoice إطار عمل الانتشار للرمز التالي، مستفيدًا من نماذج اللغة الكبيرة (LLM) لفهم سياق النص وتدفق الحوار، ويستخدم رأس الانتشار لتوليد تفاصيل صوتية عالية الدقة.

الميزات الرئيسية

🎯 القدرات الأساسية

توليد صوت فائق الطول: يمكنه توليد كلام يصل إلى 90 دقيقة
دعم الحوارات متعددة المتحدثين: يدعم ما يصل إلى 4 متحدثين مختلفين، متجاوزًا قيود العديد من النماذج الحالية التي تدعم 1-2 متحدثين فقط
التوليد عبر اللغات: يدعم اللغتين الإنجليزية والصينية، ويمكنه إجراء سرد عبر اللغات (مثل: موجه بالإنجليزية ← صوت بالصينية)
توليد غناء أساسي: يمتلك قدرات أساسية لتوليد الغناء

🏗️ البنية التقنية

يعتمد VibeVoice على نموذج لغة كبير (LLM) بحجم 1.5 مليار معلمة (Qwen2.5-1.5B)، يدمج مُرمِّزين جديدين - صوتي ودلالي - وكلاهما مصمم للعمل بمعدل إطارات منخفض (7.5 هرتز) لتحقيق الكفاءة الحسابية والاتساق في التسلسلات الطويلة.

المكونات التقنية:

المُرمِّز الصوتي: متغير من σ-VAE، يتميز ببنية مشفر-مفكك تشفير معكوسة (حوالي 340 مليون معلمة لكل منهما)، ويحقق تخفيضًا في العينة بمقدار 3200 مرة من الصوت الأصلي بتردد 24 كيلو هرتز.
المُرمِّز الدلالي: تم تدريبه عبر مهمة وكيل التعرف التلقائي على الكلام (ASR)، وتُحاكي بنية المشفر فقط هذه تصميم المُرمِّز الصوتي.
رأس مفكك تشفير الانتشار: وحدة انتشار شرطية خفيفة الوزن (حوالي 123 مليون معلمة) تتنبأ بالخصائص الصوتية.

إصدارات النموذج

النموذج	طول السياق	طول التوليد	رابط التنزيل
VibeVoice-1.5B	64 ألف	~90 دقيقة	HuggingFace
VibeVoice-7B	64 ألف	~90 دقيقة	Huggingface
VibeVoice-0.5B-Streaming	-	-	قريباً

التثبيت والاستخدام

إعداد البيئة

يوصى باستخدام حاوية NVIDIA Deep Learning لإدارة بيئة CUDA:

# تشغيل حاوية Docker
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# إذا لم تكن flash attention مثبتة في البيئة، يجب تثبيتها يدويًا
pip install flash-attn --no-build-isolation

خطوات التثبيت

# استنساخ المشروع
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# تثبيت التبعيات
pip install -e .
apt update && apt install ffmpeg -y

طريقة الاستخدام

واجهة عرض Gradio

# نموذج 1.5B
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# نموذج 7B
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

الاستدلال من ملف

# صوت متحدث واحد
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# صوت متعدد المتحدثين
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

سيناريوهات التطبيق

إنتاج البودكاست: توليد صوت حواري متعدد المضيفين (حتى 4 أصوات)، بمدة تصل إلى 90 دقيقة
إنتاج الكتب الصوتية: إنشاء سرد غني بالمشاعر لجعل الكتب الصوتية أكثر حيوية وجاذبية
أنظمة الحوار: توليد كلام طبيعي في سيناريوهات الحوار متعددة الأدوار
إنشاء المحتوى: أتمتة توليد المحتوى الصوتي

القيود التقنية

القيود الحالية

قيود اللغة: يدعم الإنجليزية والصينية فقط
الصوت غير الكلامي: يركز النموذج على توليد الكلام ولا يتعامل مع الموسيقى الخلفية أو المؤثرات الصوتية
الكلام المتداخل: لا يدعم النموذج الحالي توليد مقاطع حوارية متداخلة

ملاحظات حول الكلام الصيني

قد تواجه عدم استقرار عرضي عند توليد الكلام الصيني، يُنصح بما يلي:

استخدام علامات الترقيم الإنجليزية حتى للنصوص الصينية، ويفضل استخدام الفواصل والنقاط فقط.
استخدام إصدار النموذج 7B، حيث أن استقراره أفضل بكثير.

مسؤولية الاستخدام والقيود

لأغراض البحث

لا نوصي باستخدام VibeVoice في التطبيقات التجارية أو العملية دون مزيد من الاختبار والتطوير. هذا النموذج مخصص لأغراض البحث والتطوير فقط.

المخاطر المحتملة

إمكانية التزييف العميق والمعلومات المضللة: قد يُساء استخدام الكلام الاصطناعي عالي الجودة لإنشاء محتوى صوتي زائف ومقنع، يُستخدم في انتحال الشخصية أو الاحتيال أو نشر معلومات مضللة. يجب على المستخدمين التأكد من موثوقية النصوص، والتحقق من دقة المحتوى، وتجنب استخدام المحتوى المُولّد بطريقة مضللة.

معلومات الاتصال

لأي اقتراحات أو أسئلة أو في حال اكتشاف سلوك غير طبيعي/مسيء في التقنية، يرجى التواصل عبر: VibeVoice@microsoft.com