Home
Login

CosyVoice: نموذج كبير لتوليد الصوت متعدد اللغات، يوفر قدرات كاملة للتفكير والتدريب والنشر.

Apache-2.0Python 14.5kFunAudioLLM Last Updated: 2025-06-12

نظرة عامة على مشروع CosyVoice

نبذة عن المشروع

CosyVoice هو نموذج كبير لتوليد الكلام متعدد اللغات تم تطويره بواسطة فريق FunAudioLLM في علي بابا، ويوفر حلولًا كاملة للتفكير والتدريب والنشر. يركز هذا المشروع على تقنيات تركيب الكلام عالية الجودة، ويدعم لغات متعددة وسيناريوهات تطبيق متنوعة.

الميزات الأساسية

أحدث ميزات CosyVoice 2.0

اللغات المدعومة

  • الصينية والإنجليزية واليابانية والكورية
  • اللهجات الصينية: الكانتونية والسيتشوانية والشنغهايية والتنجينية والووهانية وغيرها

الاختراقات التقنية

  • الجمع بين اللغات المتعددة واللغات المختلطة: يدعم سيناريوهات تبديل اللغات والرموز لاستنساخ الكلام بدون عينات
  • دعم التدفق ثنائي الاتجاه: يدمج تقنيات النمذجة غير المتصلة بالإنترنت والتدفق
  • تركيب منخفض للغاية: زمن الوصول للتركيب الأولي منخفض يصل إلى 150 مللي ثانية، مع الحفاظ على جودة صوت عالية
  • تحسين دقة النطق: مقارنة بالإصدار 1.0، انخفضت أخطاء النطق بنسبة 30% إلى 50%
  • إنجازات القياس: حقق أدنى معدل خطأ في الأحرف في مجموعة الاختبارات الصعبة لمجموعة تقييم Seed-TTS
  • اتساق النبرة: يضمن اتساقًا موثوقًا به في نبرة الصوت للاستنساخ الصوتي بدون عينات والتركيب الصوتي عبر اللغات
  • تحسين الإيقاع وجودة الصوت: تحسين محاذاة الصوت المركب، وارتفاع درجة تقييم MOS من 5.4 إلى 5.53
  • المرونة في العاطفة واللهجة: يدعم التحكم الدقيق في العاطفة وتعديل اللهجة

إصدارات النموذج

CosyVoice2-0.5B (موصى به)

  • أحدث إصدار، أداء أفضل
  • يدعم جميع أحدث الميزات

سلسلة CosyVoice-300M

  • CosyVoice-300M: النموذج الأساسي
  • CosyVoice-300M-SFT: إصدار الضبط الدقيق الخاضع للإشراف
  • CosyVoice-300M-Instruct: إصدار الضبط الدقيق للتعليمات

أوضاع التشغيل

1. استنساخ الكلام بدون عينات (Zero-shot)

  • يستنسخ الصوت ببضع ثوانٍ فقط من عينة الصوت
  • يدعم استنساخ الكلام عبر اللغات
  • يحافظ على خصائص نبرة صوت المتحدث الأصلي

2. التركيب عبر اللغات (Cross-lingual)

  • يستخدم عينة صوت بلغة واحدة لتركيب كلام بلغة أخرى
  • يدعم مجموعات لغات متعددة مثل الصينية والإنجليزية واليابانية والكورية والكانتونية وغيرها

3. تحويل الصوت (Voice Conversion)

  • يحول صوت أحد المتحدثين إلى نبرة صوت متحدث آخر
  • يحافظ على المحتوى الأصلي مع تغيير نبرة الصوت

4. وضع الضبط الدقيق الخاضع للإشراف (SFT)

  • يستخدم هوية المتحدث المحددة مسبقًا لتركيب الكلام
  • جودة تركيب مستقرة وموثوقة

5. وضع التحكم في التعليمات (Instruct)

  • يتحكم في تركيب الكلام من خلال تعليمات اللغة الطبيعية
  • يدعم علامات العاطفة والمؤثرات الخاصة
  • يمكن التحكم في أسلوب الكلام والتعبير العاطفي وما إلى ذلك

6. التحكم الدقيق

  • يدعم علامات خاصة مثل الضحك [laughter] والتنفس [breath]
  • يدعم التحكم في التشديد <strong></strong>
  • تعديل دقيق للعاطفة والإيقاع

البنية التقنية

التقنيات الأساسية

  • علامات الكلام المنفصلة: تقنية علامات الكلام المنفصلة القائمة على الإشراف
  • فك التشفير الدلالي التدريجي: يستخدم نماذج اللغة (LMs) ومطابقة التدفق (Flow Matching)
  • النمذجة المتدفقة ثنائية الاتجاه: يدعم الاستدلال في الوقت الفعلي ومعالجة الدفعات
  • التكامل متعدد الوسائط: يتكامل بسلاسة مع نماذج اللغة الكبيرة

تحسين الأداء

  • دعم الاستدلال المتدفق: بما في ذلك تخزين KV وتحسين SDPA
  • أخذ العينات الواعية بالتكرار (RAS): يحسن استقرار LLM
  • تسريع TensorRT: يدعم الاستدلال المتسارع بواسطة GPU
  • دقة FP16: يوازن بين الأداء والجودة

التثبيت والاستخدام

متطلبات النظام

  • Python 3.10
  • GPU مدعوم من CUDA (موصى به)
  • إدارة بيئة Conda

بداية سريعة

# استنساخ المستودع
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice

# إنشاء بيئة
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt

تنزيل النموذج

from modelscope import snapshot_download

# تنزيل CosyVoice2.0 (موصى به)
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')

# تنزيل إصدارات أخرى
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')

مثال على الاستخدام الأساسي

from cosyvoice.cli.cosyvoice import CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio

# تهيئة النموذج
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B')

# استنساخ الكلام بدون عينات
prompt_speech = load_wav('./asset/zero_shot_prompt.wav', 16000)
for i, result in enumerate(cosyvoice.inference_zero_shot(
    '收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐。', 
    '希望你以后能够做的比我还好呦。', 
    prompt_speech
)):
    torchaudio.save(f'output_{i}.wav', result['tts_speech'], cosyvoice.sample_rate)

# تركيب التحكم في التعليمات
for i, result in enumerate(cosyvoice.inference_instruct2(
    '今天天气真不错,我们去公园散步吧。', 
    '用四川话说这句话', 
    prompt_speech
)):
    torchaudio.save(f'instruct_{i}.wav', result['tts_speech'], cosyvoice.sample_rate)

خطط النشر

نشر واجهة الويب

python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice2-0.5B

نشر حاوية Docker

cd runtime/python
docker build -t cosyvoice:v1.0 .

# خدمة gRPC
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 \
  /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && \
  python3 server.py --port 50000 --model_dir iic/CosyVoice2-0.5B"

# خدمة FastAPI  
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 \
  /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && \
  python3 server.py --port 50000 --model_dir iic/CosyVoice2-0.5B"

سيناريوهات التطبيق

التطبيقات التجارية

  • خدمة العملاء الذكية: نظام خدمة عملاء متعدد اللغات
  • الكتب الصوتية: تعليق شخصي ودبلجة الشخصيات
  • المساعدون الصوتيون: تجربة تفاعل طبيعية بين الإنسان والآلة
  • التعليم عبر الإنترنت: إنتاج محتوى تعليمي متعدد اللغات

التطبيقات الإبداعية

  • إنتاج البودكاست: إنشاء محتوى بودكاست آلي
  • دبلجة الألعاب: تركيب صوت الشخصيات
  • إنتاج الفيديو القصير: حلول دبلجة سريعة
  • ترجمة الكلام: ترجمة الكلام إلى كلام في الوقت الفعلي

التكامل التقني

  • التكامل مع LLM: بناء نظام حوار كامل
  • الدردشة الصوتية العاطفية: دعم روبوتات المحادثة التي تعبر عن المشاعر
  • البودكاست التفاعلي: إنشاء محتوى ديناميكي
  • الكتب الصوتية التعبيرية: تعبير عاطفي غني

المزايا التقنية

مؤشرات الأداء

  • زمن الوصول: تركيب الحزمة الأولى منخفض يصل إلى 150 مللي ثانية
  • الجودة: MOS