Home
Login
RVC-Boss/GPT-SoVITS

GPT-SoVITS: أداة استنساخ صوتي قليلة العينات لتدريب نموذج تحويل النص إلى كلام (TTS) عالي الجودة باستخدام دقيقة واحدة فقط من بيانات الصوت.

MITPython 47.6kRVC-Boss Last Updated: 2025-06-13
https://github.com/RVC-Boss/GPT-SoVITS

GPT-SoVITS: وصف تفصيلي للمشروع

نظرة عامة على المشروع

GPT-SoVITS هو مشروع ثوري لتحويل النص إلى كلام (TTS) واستنساخ الصوت، تم تطويره وصيانته بواسطة فريق RVC-Boss. السمة الأساسية للمشروع هي القدرة على تدريب نماذج TTS عالية الجودة باستخدام بيانات صوتية قليلة جدًا (أقصرها دقيقة واحدة فقط)، مما يحقق المعنى الحقيقي لتقنية استنساخ الصوت قليلة العينات.

يعتمد المشروع على بنية GPT و SoVITS، ويجمع بين القدرة التعبيرية القوية للنماذج اللغوية الكبيرة وتقنية تركيب الكلام عالية الجودة، لتزويد المستخدمين بحل كامل لاستنساخ الصوت.

الوظائف والميزات الأساسية

1. TTS بصفر عينة وعينة قليلة

  • TTS بصفر عينة: ما عليك سوى عينة صوتية مدتها 5 ثوانٍ لتحقيق تحويل فوري من النص إلى كلام.
  • TTS بعينة قليلة: استخدم دقيقة واحدة من بيانات التدريب لضبط النموذج بدقة، مما يحسن بشكل كبير تشابه الصوت والواقعية.
  • تدريب سريع: مقارنة بنماذج TTS التقليدية، يتم تقليل وقت التدريب ومتطلبات البيانات بشكل كبير.

2. دعم متعدد اللغات

  • يدعم الاستدلال متعدد اللغات باللغات الصينية والإنجليزية واليابانية والكورية والكانتونية.
  • القدرة على الاستدلال بين اللغات المختلفة، حتى لو كانت بيانات التدريب مختلفة عن اللغة الهدف.
  • معالجة الواجهة الأمامية للنص المحسّنة، مما يحسن جودة التركيب لكل لغة.

3. أداة WebUI متكاملة

  • فصل صوت الإنسان عن المصاحبة الموسيقية: استخدم تقنية UVR5 لفصل صوت الإنسان عن الموسيقى الخلفية في الصوت.
  • تقسيم مجموعة التدريب التلقائي: تقسيم الصوت الطويل بذكاء إلى مقاطع قصيرة مناسبة للتدريب.
  • ASR الصيني: وظيفة التعرف التلقائي على الكلام الصيني المتكاملة.
  • تسمية النص: مساعدة المستخدمين على إنشاء مجموعات بيانات تدريب عالية الجودة.
  • عملية بنقرة واحدة: تبسيط عملية تدريب النموذج المعقدة، ومناسبة للمبتدئين.

4. دعم إصدارات متعددة

يوفر المشروع إصدارات متعددة لتلبية الاحتياجات المختلفة:

الإصدار V1
  • وظائف أساسية كاملة
  • مناسب للمبتدئين للدخول
الإصدار V2
  • يدعم اللغتين الكورية والكانتونية
  • معالجة الواجهة الأمامية للنص المحسّنة
  • تم توسيع النموذج المدرب مسبقًا من 2000 ساعة إلى 5000 ساعة
  • تحسين جودة تركيب الصوت المرجعي منخفض الجودة
الإصدار V3
  • تشابه أعلى في النبرة
  • نموذج GPT أكثر استقرارًا، مما يقلل من التكرار والإغفال
  • يدعم تعبيرات عاطفية أكثر ثراءً
  • إخراج أصلي لصوت 24 كيلو هرتز
الإصدار V4
  • إصلاح مشكلة القطع الأثرية الصوتية المعدنية في الإصدار V3
  • إخراج أصلي لصوت 48 كيلو هرتز، لمنع تشويش الصوت
  • يعتبر بديلاً مباشرًا للإصدار V3
الإصدار V2Pro
  • تكلفة الأجهزة والسرعة مماثلة للإصدار V2
  • أداء يتجاوز الإصدار V4
  • مناسب لتطبيقات الأداء العالي

5. دعم متعدد المنصات

  • Windows: يوفر حزمة تثبيت متكاملة، انقر نقرًا مزدوجًا لبدء التشغيل.
  • Linux: يدعم تثبيت بيئة conda.
  • macOS: يدعم شريحة Apple Silicon.
  • Docker: يوفر دعمًا كاملاً لصورة Docker.
  • النشر السحابي: يدعم تجربة AutoDL Cloud Docker.

6. نظام بيئي غني للنماذج

  • تغطي النماذج المدربة مسبقًا مجموعة متنوعة من اللغات والمشاهد.
  • يدعم خلط النماذج والتدريب المخصص.
  • يوفر نموذجًا فائق الدقة للصوت.
  • مكتبة نماذج يتم تحديثها باستمرار.

البنية التقنية

المكونات الأساسية

  1. وحدة GPT: مسؤولة عن فهم النص وتوليد ميزات الصوت.
  2. وحدة SoVITS: مسؤولة عن تركيب الكلام عالي الجودة.
  3. واجهة WebUI: توفر واجهة تشغيل سهلة الاستخدام.
  4. أدوات معالجة البيانات: تتضمن وظائف معالجة الصوت، و ASR، والتقسيم، وما إلى ذلك.

تنسيقات الصوت المدعومة

  • الإدخال: يدعم مجموعة متنوعة من تنسيقات الصوت الشائعة.
  • الإخراج: صوت عالي الجودة 24 كيلو هرتز / 48 كيلو هرتز.
  • المعالجة: يدعم المعالجة في الوقت الفعلي والمعالجة المجمعة.

سيناريوهات التطبيق

1. إنشاء المحتوى

  • إنتاج الكتب الصوتية
  • دبلجة الفيديو
  • برامج البودكاست
  • المحتوى التعليمي

2. التطبيقات التجارية

  • أنظمة صوت خدمة العملاء
  • دبلجة الإعلانات
  • تخصيص صوت العلامة التجارية
  • التوطين متعدد اللغات

3. تطبيقات الترفيه

  • دبلجة شخصيات الألعاب
  • المذيعون الافتراضيون
  • المساعدون الصوتيون
  • إنتاج الصوت الإبداعي

4. البحث والتطوير

  • أبحاث تركيب الكلام
  • معالجة متعددة اللغات
  • تحسين النموذج الصوتي
  • التحقق من صحة تقنية الصوت بالذكاء الاصطناعي

مزايا المشروع

1. المزايا التقنية

  • كفاءة عالية في البيانات: الحد الأدنى المطلوب هو دقيقة واحدة فقط من بيانات التدريب.
  • جودة ممتازة: تأثيرات تركيبية قريبة من صوت الإنسان الحقيقي.
  • سرعة عالية: تدريب واستدلال سريع.
  • استقرار قوي: تقليل التكرار والإغفال.

2. مزايا سهولة الاستخدام

  • واجهة سهلة الاستخدام: عملية WebUI متكاملة بسيطة.
  • وثائق كاملة: توفير دليل مستخدم مفصل.
  • دعم المجتمع: مجتمع مفتوح المصدر نشط.
  • تحديث مستمر: إصدار ميزات وتحسينات جديدة بانتظام.

3. مزايا المصدر المفتوح

  • ترخيص MIT: مفتوح المصدر ومجاني للاستخدام.
  • رمز شفاف: يمكن تعديله وتخصيصه بحرية.
  • مساهمات المجتمع: قبول مساهمات المجتمع وردود الفعل.
  • تبادل التكنولوجيا: تعزيز التبادل والتطوير التكنولوجي.

متطلبات النظام

متطلبات الأجهزة

  • GPU: بطاقة رسومات NVIDIA تدعم CUDA 12.4 / 12.8 (موصى بها).
  • CPU: يدعم تشغيل وحدة المعالجة المركزية (أداء أقل).
  • الذاكرة: يوصى بذاكرة وصول عشوائي (RAM) بسعة 16 جيجابايت أو أكثر.
  • التخزين: مساحة خالية لا تقل عن 10 جيجابايت.

بيئة البرمجيات

  • Python: الإصدارات 3.9-3.11.
  • PyTorch: الإصدار 2.5.1 أو أعلى.
  • CUDA: الإصدار 12.4 أو 12.8.
  • FFmpeg: يعتمد على معالجة الصوت.

التثبيت والاستخدام

التثبيت السريع (Windows)

  1. قم بتنزيل حزمة التثبيت المتكاملة
  2. بعد فك الضغط، انقر نقرًا مزدوجًا فوق go-webui.bat
  3. انتظر حتى يكتمل بدء التشغيل قبل الاستخدام

تثبيت بيئة التطوير

# إنشاء بيئة conda
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits

# تثبيت التبعيات
bash install.sh --device <CU126|CU128|ROCM|CPU> --source <HF|HF-Mirror|ModelScope>

نشر Docker

# استخدم Docker Compose
docker compose run --service-ports GPT-SoVITS-CU128

ملخص

يمثل مشروع GPT-SoVITS اختراقًا مهمًا في تكنولوجيا استنساخ الصوت، فهو يضفي طابعًا ديمقراطيًا على تكنولوجيا تركيب الكلام عالية الجودة، مما يسمح للمستخدمين العاديين بإنشاء نماذج صوتية مخصصة بسهولة. تعزز طبيعة المشروع مفتوحة المصدر التطور السريع والتطبيق الواسع للتكنولوجيا، مما يجلب إمكانيات جديدة لمجال الذكاء الاصطناعي الصوتي.