Home
Login

برنامج خدمة استنتاج مفتوح المصدر يوفر حلول استنتاج مُحسَّنة في السحابة والحافة

BSD-3-ClausePython 9.4ktriton-inference-serverserver Last Updated: 2025-06-20

نظرة عامة على مشروع خادم استنتاج ترايتون

Triton Inference Server هو برنامج خدمة استنتاج مفتوح المصدر يهدف إلى تبسيط عملية الاستنتاج بالذكاء الاصطناعي. فهو يمكّن الفرق من نشر أي نموذج ذكاء اصطناعي من العديد من أطر التعلم العميق والآلة، بما في ذلك TensorRT و TensorFlow و PyTorch و ONNX و OpenVINO و Python و RAPIDS FIL وما إلى ذلك.

عنوان المشروع: https://github.com/triton-inference-server/server

الميزات الأساسية

1. دعم متعدد الأطر

  • أطر التعلم العميق: TensorRT، TensorFlow، PyTorch، ONNX، OpenVINO، Python، RAPIDS FIL، إلخ.
  • أطر تعلم الآلة: دعم العديد من أطر تعلم الآلة التقليدية
  • نظام خلفي مرن: يسمح بإضافة أنظمة خلفية مخصصة وعمليات معالجة مسبقة/لاحقة

2. نشر عبر الأنظمة الأساسية

يدعم Triton Inference Server الاستنتاج في السحابة ومراكز البيانات والحافة والأجهزة المدمجة، ويدعم NVIDIA GPU و x86 و ARM CPU أو AWS Inferentia.

3. تحسين الأداء العالي

  • تنفيذ النموذج المتزامن: يدعم تشغيل نماذج متعددة في وقت واحد
  • معالجة الدفعات الديناميكية: تحسين حجم الدفعة تلقائيًا لتحسين الإنتاجية
  • معالجة الدفعات التسلسلية: يوفر إدارة حالة ضمنية للنماذج ذات الحالة
  • الاستنتاج في الوقت الفعلي: يوفر أداءً محسنًا لأنواع الاستعلامات المتعددة، بما في ذلك البث المباشر والدفعي والمتكامل والصوتي/المرئي

4. دعم بروتوكولات متعددة

  • بروتوكول HTTP/REST: استنادًا إلى بروتوكول KServe الذي تم تطويره بواسطة المجتمع
  • بروتوكول gRPC: استدعاء إجراءات عن بعد عالية الأداء
  • واجهة برمجة تطبيقات C وواجهة برمجة تطبيقات Java: تسمح بربط Triton مباشرة بالتطبيقات

وحدات الوظائف الرئيسية

1. إدارة النموذج

  • مستودع النموذج: إدارة وتخزين النماذج بشكل موحد
  • التحميل/إلغاء التحميل الديناميكي: إدارة توفر النموذج في وقت التشغيل
  • تكوين النموذج: تكوين مرن لمعلمات النموذج

2. خط أنابيب النموذج

  • تكامل النموذج: دمج نماذج متعددة في خطوط أنابيب استنتاج معقدة
  • برنامج نصي لمنطق الأعمال (BLS): استخدم Python لكتابة منطق أعمال مخصص
  • نظام خلفي مخصص: دعم تطوير أنظمة خلفية مخصصة بلغة Python و C++

3. مراقبة الأداء

  • جمع المقاييس: استخدام GPU، وإنتاجية الخادم، والكمون، إلخ.
  • أدوات تحليل الأداء: Model Analyzer و Performance Analyzer
  • اقتراحات التحسين: اقتراحات آلية لضبط الأداء

تصميم معماري

المكونات الأساسية

  1. خادم الاستنتاج: محرك الاستنتاج الأساسي
  2. مدير الواجهة الخلفية: إدارة الواجهات الخلفية لأطر مختلفة
  3. مدير النموذج: معالجة دورة حياة النموذج
  4. المجدول: تحسين جدولة الطلبات ومعالجة الدفعات
  5. معالج البروتوكول: معالجة اتصالات HTTP/gRPC

الواجهات الخلفية المدعومة

  • واجهة TensorRT الخلفية: استنتاج مُحسَّن لوحدة معالجة الرسومات NVIDIA
  • واجهة TensorFlow الخلفية: دعم نموذج TensorFlow
  • واجهة PyTorch الخلفية: دعم نموذج PyTorch
  • واجهة ONNX الخلفية: دعم النموذج عبر الأنظمة الأساسية
  • واجهة OpenVINO الخلفية: تحسين أجهزة Intel
  • واجهة Python الخلفية: منطق Python مخصص
  • واجهة RAPIDS FIL الخلفية: دعم نموذج ML التقليدي

بداية سريعة

1. إنشاء مستودع نموذج

git clone -b r25.02 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh

2. ابدأ تشغيل خادم Triton

docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models \
  nvcr.io/nvidia/tritonserver:25.02-py3 \
  tritonserver --model-repository=/models --model-control-mode explicit \
  --load-model densenet_onnx

3. إرسال طلب استنتاج

docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:25.02-py3-sdk \
  /workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION \
  /workspace/images/mug.jpg

خيارات النشر

1. نشر حاوية Docker (موصى به)

  • صورة حاوية NGC الرسمية
  • بيئة تشغيل مُكوَّنة مسبقًا
  • عملية نشر مبسطة

2. نشر Kubernetes

  • دعم نشر GCP و AWS
  • دعم Helm Charts
  • توسيع نطاق تلقائي

3. نشر جهاز الحافة

  • دعم Jetson و JetPack
  • تحسين بنية ARM
  • تكامل التطبيقات المضمنة

4. تكامل النظام الأساسي السحابي

  • دعم AWS Inferentia
  • تكامل NVIDIA FleetCommand
  • استراتيجية نشر متعددة السحابات

دعم العميل

اللغات المدعومة

  • Python: مكتبة عميل كاملة وأمثلة
  • C++: تنفيذ عميل عالي الأداء
  • Java: تكامل تطبيقات على مستوى المؤسسة
  • HTTP/REST: أي لغة تدعم HTTP

وظائف العميل

  • استنتاج غير متزامن ومتزامن
  • طلبات معالجة الدفعات
  • الاستنتاج المتدفق
  • نقل مباشر للبيانات الثنائية

ميزات على مستوى المؤسسة

1. الأمان

  • اعتبارات النشر الآمن
  • دعم المصادقة
  • نقل بيانات مشفر

2. قابلية التوسع

  • دعم التوسع الأفقي
  • موازنة التحميل
  • نشر عالي التوفر

3. المراقبة والتسجيل

  • مقاييس أداء مفصلة
  • إخراج سجل منظم
  • تكامل مراقبة الطرف الثالث

سيناريوهات التطبيق

1. الاستنتاج في الوقت الفعلي

  • الخدمات عبر الإنترنت
  • أنظمة اتخاذ القرارات في الوقت الفعلي
  • تطبيقات تفاعلية

2. المعالجة المجمعة

  • معالجة البيانات على نطاق واسع
  • تحليل غير متصل بالشبكة
  • خط أنابيب ETL

3. الحوسبة الطرفية

  • أجهزة إنترنت الأشياء
  • القيادة الذاتية
  • تحليل الفيديو في الوقت الفعلي

4. الذكاء الاصطناعي متعدد الوسائط

  • معالجة الصوت
  • تحليل الفيديو
  • معالجة اللغة الطبيعية

تكامل النظام البيئي

أدوات التطوير

  • Model Analyzer: تحليل أداء النموذج
  • Performance Analyzer: قياس الأداء
  • Python Triton: واجهة Python مبسطة

موارد المجتمع

  • دروس رسمية: موارد تعليمية مفصلة
  • منطقة مناقشة GitHub: دعم المجتمع
  • NVIDIA LaunchPad: بيئة تجريبية مجانية
  • Deep Learning Examples: أمثلة شاملة

الترخيص والدعم

ترخيص مفتوح المصدر

  • ترخيص BSD 3-Clause
  • مشروع مفتوح المصدر بالكامل
  • تطوير مدفوع بالمجتمع

دعم المؤسسات

  • NVIDIA AI Enterprise: دعم على مستوى المؤسسة
  • دعم فني عالمي
  • ضمان اتفاقية مستوى الخدمة

ملخص

Triton Inference Server هو حل خدمة استنتاج الذكاء الاصطناعي على مستوى المؤسسات تم إطلاقه بواسطة NVIDIA، وله المزايا الأساسية التالية:

  1. منصة موحدة: تدعم أطر التعلم العميق المتعددة وبيئات النشر
  2. أداء عالي: مُحسَّن لأجهزة NVIDIA، مما يوفر أفضل أداء استنتاج
  3. سهولة الاستخدام: أدوات ووثائق غنية، تبسيط عملية النشر
  4. جاهزية المؤسسة: مراقبة كاملة وأمان ووظائف توسيع
  5. نظام بيئي مفتوح المصدر: مجتمع نشط وتكامل غني من جهات خارجية

سواء كانت شركة ناشئة أو مؤسسة كبيرة، يمكن لـ Triton Inference Server توفير حلول نشر نموذج الذكاء الاصطناعي موثوقة وفعالة، مما يساعد المؤسسات على تحقيق النشر الصناعي لتطبيقات الذكاء الاصطناعي بسرعة.

Star History Chart