fishaudio/fish-speechView GitHub Homepage for Latest Official Releases

نظام تحويل النص إلى كلام (TTS) مفتوح المصدر SOTA

Apache-2.0Pythonfish-speechfishaudio 22.6k Last Updated: July 23, 2025

Fish Speech - نظام تحويل النص إلى كلام مفتوح المصدر

نظرة عامة على المشروع

Fish Speech هو نظام مفتوح المصدر لتحويل النص إلى كلام (TTS) يعتمد على أحدث التقنيات، تم تطويره بواسطة فريق FishAudio. يمثل هذا المشروع أعلى مستوى من تكنولوجيا تركيب الكلام الحالية (SOTA - State of the Art)، ويوفر إمكانات قوية لتوليد الكلام واستنساخه.

الميزات الأساسية

🎯 تحويل النص إلى كلام بصفر عينة وعينة قليلة

ما عليك سوى إدخال عينة صوتية مدتها 10-30 ثانية لإنتاج مخرجات TTS عالية الجودة
يدعم استنساخ الصوت السريع دون الحاجة إلى تدريب طويل
يوفر دليل أفضل الممارسات التفصيلي لاستنساخ الصوت

🌍 دعم متعدد اللغات وعبر اللغات

يدعم لغات متعددة: الإنجليزية واليابانية والصينية وغيرها
ما عليك سوى نسخ ولصق نص متعدد اللغات في مربع الإدخال، دون الحاجة إلى القلق بشأن التعرف على اللغة
قدرات قوية عبر اللغات

🔤 لا يوجد اعتماد على الصوتيات

يتمتع النموذج بقدرة تعميم قوية
لا يعتمد على الصوتيات لمعالجة TTS
يمكنه معالجة نص بأي لغة

📊 دقة عالية

بالنسبة للنص الإنجليزي الذي مدته 5 دقائق، يبلغ معدل الخطأ في الأحرف (CER) ومعدل الخطأ في الكلمات (WER) حوالي 2٪
أداء دقة رائد في الصناعة

⚡ استدلال عالي السرعة

على جهاز كمبيوتر محمول Nvidia RTX 4060، يبلغ المعدل في الوقت الفعلي حوالي 1:5
على Nvidia RTX 4090، يبلغ المعدل في الوقت الفعلي حوالي 1:15
يعتمد على تقنية تسريع fish-tech

🖥️ واجهة سهلة الاستخدام

استدلال WebUI: واجهة ويب سهلة الاستخدام تعتمد على Gradio، ومتوافقة مع متصفحات Chrome و Firefox و Edge وغيرها
استدلال GUI: يوفر واجهة رسومية PyQt6، تتكامل بسلاسة مع خادم API، وتدعم Linux و Windows و macOS

🚀 سهولة النشر

سهولة إعداد خادم الاستدلال
دعم أصلي لأنظمة Linux و Windows و macOS
تقليل فقدان السرعة

🔄 نهاية كاملة إلى نهاية

دمج تلقائي لأجزاء ASR و TTS
لا حاجة لإدراج نماذج أخرى
حل حقيقي من النهاية إلى النهاية، وليس بنية ثلاثية المراحل (ASR+LLM+TTS)

🎨 ميزات متقدمة

التحكم في النبرة: يمكن استخدام الصوت المرجعي للتحكم في نبرة الصوت
التعبير العاطفي: يمكن للنموذج إنشاء كلام ذي مشاعر قوية

البنية التقنية

يعتمد Fish Speech على تقنية نماذج اللغة الكبيرة (LLM)، ويستخدم خوارزميات التعلم العميق المتقدمة لتحقيق تركيب نص إلى كلام متعدد اللغات عالي الجودة. يعتمد النظام على تصميم بنية كاملة من النهاية إلى النهاية، مما يتجنب تعقيد طرق المراحل الثلاث التقليدية.

معلومات الترخيص

مستودع التعليمات البرمجية: تم إصداره بموجب ترخيص Apache License
أوزان النموذج: تم إصداره بموجب ترخيص CC-BY-NC-SA-4.0 License
يجب ذكر أن المحتوى يعتمد على ترخيص CC BY-NC-SA 4.0 عند الاستخدام

آخر التطورات

تمت ترقية هذا المشروع إلى علامة OpenAudio التجارية، وتم إطلاق جيل جديد من نماذج تحويل النص إلى كلام المتقدمة استنادًا إلى أساس Fish-Speech، مع تحسينات كبيرة وميزات جديدة.

اقتباس أكاديمي

@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}

ملخص

Fish Speech هو حل TTS مفتوح المصدر قوي وسهل الاستخدام، ومناسب بشكل خاص للمطورين والباحثين الذين يحتاجون إلى تركيب كلام عالي الجودة وإمكانيات استنساخ الصوت. إن بنيته التقنية المتقدمة ودعمه متعدد اللغات وواجهته سهلة الاستخدام تجعله أحد أفضل أنظمة TTS مفتوحة المصدر المتاحة حاليًا.