AIBARSالصفحة الرئيسيةأخبارتسجيل الدخول

PaddlePaddle/PaddleSpeech View GitHub Homepage for Latest Official Releases

PaddleSpeech: مجموعة أدوات صوتية سهلة الاستخدام تتضمن نماذج تعلم ذاتي الإشراف، وأحدث/تدفق ASR مع علامات الترقيم، و TTS متدفق مع واجهة أمامية نصية، ونظام التحقق من المتحدث، وترجمة صوتية شاملة، والتعرف على الكلمات الرئيسية. حصل على جائزة أفضل عرض توضيحي في NAACL2022.

Apache-2.0PythonPaddleSpeechPaddlePaddle 12.3k Last Updated: September 28, 2025

PaddleSpeech: نظرة عامة مفصلة على المشروع

نظرة عامة على المشروع

PaddleSpeech هي مجموعة أدوات صوتية مفتوحة المصدر تم تطويرها بناءً على منصة Baidu PaddlePaddle، وتركز على مهام الصوت والصوت الرئيسية المختلفة. حصل هذا المشروع على جائزة أفضل عرض توضيحي في NAACL2022 بفضل أحدث تصميماته النموذجية المؤثرة.

الميزات الأساسية

🚀 سهل الاستخدام

تثبيت سهل: يوفر طرق تثبيت بسيطة
أدوات سطر الأوامر: يدعم CLI والخادم والخادم المتدفق للبدء بسرعة
واجهات متعددة: يدعم طريقتي استخدام: سطر الأوامر و Python API

🏆 تقنيات متطورة

معايير لأحدث التقنيات: يوفر نماذج عالية السرعة وخفيفة الوزن وتقنيات متطورة
نظام تدفق: يوفر أنظمة ASR و TTS متدفقة جاهزة للإنتاج
التعلم الذاتي: يدمج نماذج التعلم الذاتي

💯 الواجهة الأمامية للصوت الصيني

معالجة منظمة: يتضمن توحيد النص وتحويل الكتابة الصوتية إلى صوتيات (G2P)
معالجة الكلمات متعددة الأصوات: يدعم معالجة الكلمات متعددة الأصوات والتجويد
قواعد لغوية: يستخدم قواعد لغوية مخصصة للتكيف مع السياق الصيني

وحدات الوظائف الرئيسية

1. التعرف على الكلام (ASR)

النماذج المدعومة: DeepSpeech2، Transformer، Conformer، U2، إلخ.
دعم متعدد اللغات: الصينية والإنجليزية والصينية والإنجليزية المختلطة
التعرف في الوقت الفعلي: يدعم التعرف على الكلام المتدفق
استعادة علامات الترقيم: إضافة علامات الترقيم تلقائيًا

2. توليف الكلام (TTS)

النماذج الصوتية: Tacotron2، FastSpeech2، SpeedySpeech، VITS، إلخ.
المشفرات الصوتية: WaveFlow، PWGAN، HiFiGAN، Multi Band MelGAN، إلخ.
دعم متعدد اللغات: الصينية والإنجليزية والصينية والإنجليزية المختلطة والكانتونية
استنساخ الصوت: يدعم استنساخ الصوت والضبط الدقيق

3. التحقق من المتحدث (VPR)

التعرف على المتحدث: يعتمد على نموذج ECAPA-TDNN
استخراج البصمة الصوتية: استخراج ميزات البصمة الصوتية على مستوى الصناعة
فصل المتحدث: يدعم مهمة فصل المتحدث

4. ترجمة الكلام (ST)

ترجمة شاملة: ترجمة الكلام من الإنجليزية إلى الصينية
التدريب المسبق متعدد الوسائط: يجمع بين الميزات الصوتية والنصية

5. تصنيف الصوت (CLS)

تصنيف المجال المفتوح: تصنيف الصوت لـ 527 فئة بناءً على مجموعة بيانات AudioSet
نماذج PANN: استخدام شبكات عصبية صوتية مدربة مسبقًا

6. التعرف على الكلمات الرئيسية (KWS)

اكتشاف كلمة التنبيه: يدعم كلمات التنبيه المخصصة
نماذج خفيفة الوزن: مناسبة للنشر على الأجهزة المحمولة

الهيكل التقني

دعم النموذج

التعلم الذاتي: Wav2vec2.0، HuBERT، WavLM، إلخ.
آلية الانتباه: هياكل Transformer، Conformer
التدريب الشامل: نماذج موحدة مثل U2، U2++
التدريب العدائي: نماذج توليدية مثل VITS، StarGAN

دعم مجموعة البيانات

مجموعات بيانات ASR: Aishell، LibriSpeech، CommonVoice، إلخ.
مجموعات بيانات TTS: LJSpeech، CSMSC، VCTK، إلخ.
بيانات متعددة اللغات: يدعم مجموعات البيانات المختلطة الصينية والإنجليزية

التثبيت والاستخدام

متطلبات النظام

نظام التشغيل: Linux (موصى به)، Windows، Mac OSX
إصدار Python: ≥ 3.8
المترجم: gcc ≥ 4.8.5
إطار التبعية: PaddlePaddle

طرق التثبيت

1. تثبيت pip

pip install paddlespeech

2. تثبيت المصدر (موصى به)

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

تجربة سريعة

مثال على التعرف على الكلام

# طريقة سطر الأوامر
paddlespeech asr --lang zh --input zh.wav

# طريقة Python API
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

مثال على توليف الكلام

# طريقة سطر الأوامر
paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

# طريقة Python API
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

نشر الخدمة

خادم الصوت

يوفر PaddleSpeech حلول خادم كاملة:

بدء الخدمة

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

استدعاء العميل

# خدمة ASR
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# خدمة TTS
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。"

خدمة التدفق

يدعم التعرف على الكلام وتوليف الكلام في الوقت الفعلي:

# تدفق ASR
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# تدفق TTS
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好，欢迎使用百度飞桨语音合成服务。"

حالات الاستخدام

التطبيقات الصناعية

خدمة العملاء الذكية: التعرف على الكلام + توليف الكلام
المساعد الصوتي: اكتشاف كلمة التنبيه + نظام الحوار
إنشاء المحتوى: استنساخ الصوت + توليف متعدد اللغات
خدمات الوصول: تحويل الكلام إلى نص + تحويل النص إلى كلام

البحث الأكاديمي

التدريب المسبق متعدد الوسائط: نماذج مثل ERNIE-SAT
ترجمة الكلام: ترجمة شاملة من الإنجليزية إلى الصينية
التعرف على المتحدث: التعرف على البصمة الصوتية والتحقق منها
تحليل الصوت: تصنيف الصوت والتعرف على المشهد

المزايا التقنية

1. أداء النموذج

تأثير SOTA: تحقق العديد من المهام مستويات رائدة في الصناعة
نشر خفيف الوزن: يدعم الأجهزة المحمولة والحافة
معالجة في الوقت الفعلي: يلبي احتياجات التفاعل في الوقت الفعلي

2. سهولة الاستخدام

نشر بنقرة واحدة: عمليات تثبيت وتكوين مبسطة
وثائق غنية: تعليمات وأمثلة استخدام كاملة
دعم المجتمع: مجتمع مطور نشط

3. قابلية التوسع

تصميم معياري: يدعم النماذج والمهام المخصصة
دعم متعدد اللغات: توسيع مستمر لتغطية اللغة
النشر عبر الأنظمة الأساسية: يدعم بيئات نشر متعددة

المجتمع والنظام البيئي

مجتمع مفتوح المصدر

GitHub Stars: أكثر من 10 آلاف نجمة
المساهمون: مطورون من جميع أنحاء العالم
مشاريع المجتمع: مشاريع مشتقة تعتمد على PaddleSpeech

المشاريع ذات الصلة

PaddleBoBo: توليد صوت المذيع الافتراضي
VTuberTalk: أداة استنساخ صوت الفيديو
FastASR: تنفيذ الاستدلال C++
VoiceTyping: أداة إدخال صوتي في الوقت الفعلي

ملخص

PaddleSpeech هي مجموعة أدوات صوتية شاملة وسهلة الاستخدام تغطي مهامًا أساسية متعددة مثل التعرف على الكلام وتوليف الكلام والتحقق من المتحدث وترجمة الكلام. من خلال التصميم المعياري والنماذج المدربة مسبقًا الغنية، فإنه يوفر حلول ذكاء اصطناعي صوتية قوية للمطورين والباحثين. سواء كان البحث الأكاديمي أو التطبيقات الصناعية، يمكن لـ PaddleSpeech توفير دعم فني عالي الجودة وحلول كاملة.