Login

IndexTTS هو نظام تحويل نص إلى كلام صناعي عالي الكفاءة وقابل للتحكم بدون عينات، مبني على XTTS و Tortoise، ويدعم تصحيح الأخطاء الإملائية الصينية والتحكم الدقيق في الصوت.

Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17

تفاصيل مشروع IndexTTS

نظرة عامة على المشروع

IndexTTS هو نظام تحويل النص إلى كلام (TTS) صناعي، قابل للتحكم، وفعال، ويعمل بتقنية صفرية اللقطة (Zero-shot)، مبني بشكل أساسي على XTTS و Tortoise. يعتمد هذا النظام بنية معمارية على غرار GPT، ويمتلك قدرات قوية في تركيب الكلام، وقد تم تحسينه بشكل خاص لتركيب الكلام باللغة الصينية.

الميزات الأساسية

1. استنساخ الصوت بدون أمثلة سابقة (Zero-shot Voice Cloning)

  • قادر على استنساخ الصوت بجودة عالية باستخدام عدد قليل فقط من المقاطع الصوتية المرجعية.
  • يدعم تركيب الكلام متعدد اللغات، وخاصة الصينية والإنجليزية.

2. تصحيح البينيين الصيني (Pinyin Correction)

  • قادر على تصحيح نطق الأحرف الصينية باستخدام البينيين.
  • يعتمد طريقة نمذجة هجينة بين الحرف والبينيين لتصحيح الأحرف ذات النطق الخاطئ بسرعة.
  • يعالج بفعالية مشاكل نطق الكلمات متعددة النطق والأحرف ذات الذيل الطويل.

3. التحكم الدقيق في الصوت

  • التحكم في التوقفات في أي موضع عبر علامات الترقيم.
  • يدعم التحكم الدقيق في إيقاع الصوت ونبرته.
  • يوفر خيارات غنية لضبط التعبير الصوتي.

البنية التقنية

مكونات النموذج

  • نموذج تحويل النص إلى كلام على غرار GPT: يعتمد بنية المحولات (Transformer).
  • مُشفّر Conformer الشرطي: يعزز استقرار التدريب وتشابه الصوت.
  • مُفكّك تشفير الصوت BigVGAN2: يحسن جودة الصوت ودقة النبرة.
  • نمذجة هجينة بين الحرف والبينيين: محسّنة خصيصًا لتركيب الكلام باللغة الصينية.

بيانات التدريب

  • تم التدريب على عشرات الآلاف من الساعات من البيانات.
  • تغطي مجموعة متنوعة من اللغات وأنماط الصوت.
  • تتضمن مجموعة غنية من بيانات الصوت الصينية.

الأداء

مؤشرات التقييم الموضوعية

مقارنة معدل خطأ الكلمات (WER)

نتائج الاختبار بناءً على مجموعة بيانات seed-test:

النموذج test_zh test_en test_hard
الإنسان 1.26 2.14 -
SeedTTS 1.002 1.945 6.243
CosyVoice 2 1.45 2.57 6.83
F5TTS 1.56 1.83 8.67
IndexTTS 0.937 1.936 6.831
IndexTTS-1.5 0.821 1.606 6.565

مقارنة تشابه المتحدث (SS)

النموذج aishell1_test commonvoice_20_test_zh commonvoice_20_test_en librispeech_test_clean المتوسط
الإنسان 0.846 0.809 0.820 0.858 0.836
CosyVoice 2 0.796 0.743 0.742 0.837 0.788
IndexTTS 0.744 0.742 0.758 0.823 0.776
IndexTTS-1.5 0.741 0.722 0.753 0.819 0.771

درجات التقييم الذاتي (MOS)

النموذج النبرة والإيقاع نبرة الصوت الجودة المتوسط
CosyVoice 2 3.67 4.05 3.73 3.81
F5TTS 3.56 3.88 3.56 3.66
XTTS 3.23 2.99 3.10 3.11
IndexTTS 3.79 4.20 4.05 4.01

التثبيت والاستخدام

إعداد البيئة

# استنساخ المستودع
git clone https://github.com/index-tts/index-tts.git

# إنشاء بيئة conda
conda create -n index-tts python=3.10
conda activate index-tts

# تثبيت التبعيات
pip install -r requirements.txt
apt-get install ffmpeg

تنزيل النموذج

# التنزيل باستخدام huggingface-cli
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# يمكن للمستخدمين في الصين استخدام المرآة
export HF_ENDPOINT="https://hf-mirror.com"

الاستخدام عبر سطر الأوامر

# تثبيت أداة سطر الأوامر
pip install -e .

# مثال على الاستخدام
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

واجهة الويب

# تثبيت تبعيات واجهة الويب
pip install -e ".[webui]"

# تشغيل واجهة الويب
python webui.py

ثم قم بزيارة http://127.0.0.1:7860 في المتصفح.

استخدام واجهة برمجة تطبيقات بايثون (Python API)

from indextts.infer import IndexTTS

# تهيئة النموذج
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# تعيين الصوت المرجعي والنص
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"

# توليد الصوت
tts.infer(voice, text, output_path)

التجربة عبر الإنترنت

مزايا المشروع

  1. أداء على مستوى صناعي: يتفوق على أنظمة TTS السائدة في العديد من التقييمات.
  2. دعم متعدد اللغات: تم تحسينه بشكل خاص لتركيب الكلام باللغة الصينية، ويدعم الإنجليزية أيضًا.
  3. تحكم مرن: يوفر قدرات تحكم دقيقة في الصوت.
  4. سهولة النشر: يوفر طرق استخدام متعددة ووثائق نشر كاملة.
  5. تحديثات مستمرة: يقوم الفريق بتحسين أداء النظام وتطويره باستمرار.

يمثل IndexTTS المستوى المتقدم الحالي في تقنية تحويل النص إلى كلام، ويوفر حلولًا عالية الجودة والكفاءة لتطبيقات تركيب الكلام.

Star History Chart