Home
Login

نظام تحويل النص إلى كلام (TTS) مفتوح المصدر SOTA

Apache-2.0Python 21.9kfishaudio Last Updated: 2025-06-12

Fish Speech - نظام تحويل النص إلى كلام مفتوح المصدر

نظرة عامة على المشروع

Fish Speech هو نظام مفتوح المصدر لتحويل النص إلى كلام (TTS) يعتمد على أحدث التقنيات، تم تطويره بواسطة فريق FishAudio. يمثل هذا المشروع أعلى مستوى من تكنولوجيا تركيب الكلام الحالية (SOTA - State of the Art)، ويوفر إمكانات قوية لتوليد الكلام واستنساخه.

الميزات الأساسية

🎯 تحويل النص إلى كلام بصفر عينة وعينة قليلة

🌍 دعم متعدد اللغات وعبر اللغات

  • يدعم لغات متعددة: الإنجليزية واليابانية والصينية وغيرها
  • ما عليك سوى نسخ ولصق نص متعدد اللغات في مربع الإدخال، دون الحاجة إلى القلق بشأن التعرف على اللغة
  • قدرات قوية عبر اللغات

🔤 لا يوجد اعتماد على الصوتيات

  • يتمتع النموذج بقدرة تعميم قوية
  • لا يعتمد على الصوتيات لمعالجة TTS
  • يمكنه معالجة نص بأي لغة

📊 دقة عالية

  • بالنسبة للنص الإنجليزي الذي مدته 5 دقائق، يبلغ معدل الخطأ في الأحرف (CER) ومعدل الخطأ في الكلمات (WER) حوالي 2٪
  • أداء دقة رائد في الصناعة

⚡ استدلال عالي السرعة

  • على جهاز كمبيوتر محمول Nvidia RTX 4060، يبلغ المعدل في الوقت الفعلي حوالي 1:5
  • على Nvidia RTX 4090، يبلغ المعدل في الوقت الفعلي حوالي 1:15
  • يعتمد على تقنية تسريع fish-tech

🖥️ واجهة سهلة الاستخدام

  • استدلال WebUI: واجهة ويب سهلة الاستخدام تعتمد على Gradio، ومتوافقة مع متصفحات Chrome و Firefox و Edge وغيرها
  • استدلال GUI: يوفر واجهة رسومية PyQt6، تتكامل بسلاسة مع خادم API، وتدعم Linux و Windows و macOS

🚀 سهولة النشر

  • سهولة إعداد خادم الاستدلال
  • دعم أصلي لأنظمة Linux و Windows و macOS
  • تقليل فقدان السرعة

🔄 نهاية كاملة إلى نهاية

  • دمج تلقائي لأجزاء ASR و TTS
  • لا حاجة لإدراج نماذج أخرى
  • حل حقيقي من النهاية إلى النهاية، وليس بنية ثلاثية المراحل (ASR+LLM+TTS)

🎨 ميزات متقدمة

  • التحكم في النبرة: يمكن استخدام الصوت المرجعي للتحكم في نبرة الصوت
  • التعبير العاطفي: يمكن للنموذج إنشاء كلام ذي مشاعر قوية

البنية التقنية

يعتمد Fish Speech على تقنية نماذج اللغة الكبيرة (LLM)، ويستخدم خوارزميات التعلم العميق المتقدمة لتحقيق تركيب نص إلى كلام متعدد اللغات عالي الجودة. يعتمد النظام على تصميم بنية كاملة من النهاية إلى النهاية، مما يتجنب تعقيد طرق المراحل الثلاث التقليدية.

معلومات الترخيص

  • مستودع التعليمات البرمجية: تم إصداره بموجب ترخيص Apache License
  • أوزان النموذج: تم إصداره بموجب ترخيص CC-BY-NC-SA-4.0 License
  • يجب ذكر أن المحتوى يعتمد على ترخيص CC BY-NC-SA 4.0 عند الاستخدام

آخر التطورات

تمت ترقية هذا المشروع إلى علامة OpenAudio التجارية، وتم إطلاق جيل جديد من نماذج تحويل النص إلى كلام المتقدمة استنادًا إلى أساس Fish-Speech، مع تحسينات كبيرة وميزات جديدة.

اقتباس أكاديمي

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

ملخص

Fish Speech هو حل TTS مفتوح المصدر قوي وسهل الاستخدام، ومناسب بشكل خاص للمطورين والباحثين الذين يحتاجون إلى تركيب كلام عالي الجودة وإمكانيات استنساخ الصوت. إن بنيته التقنية المتقدمة ودعمه متعدد اللغات وواجهته سهلة الاستخدام تجعله أحد أفضل أنظمة TTS مفتوحة المصدر المتاحة حاليًا.