triton-inference-server/serverView GitHub Homepage for Latest Official Releases

برنامج خدمة استنتاج مفتوح المصدر يوفر حلول استنتاج مُحسَّنة في السحابة والحافة

BSD-3-ClausePythonservertriton-inference-server 9.8k Last Updated: September 25, 2025

نظرة عامة على مشروع خادم استنتاج ترايتون

Triton Inference Server هو برنامج خدمة استنتاج مفتوح المصدر يهدف إلى تبسيط عملية الاستنتاج بالذكاء الاصطناعي. فهو يمكّن الفرق من نشر أي نموذج ذكاء اصطناعي من العديد من أطر التعلم العميق والآلة، بما في ذلك TensorRT و TensorFlow و PyTorch و ONNX و OpenVINO و Python و RAPIDS FIL وما إلى ذلك.

عنوان المشروع: https://github.com/triton-inference-server/server

الميزات الأساسية

1. دعم متعدد الأطر

أطر التعلم العميق: TensorRT، TensorFlow، PyTorch، ONNX، OpenVINO، Python، RAPIDS FIL، إلخ.
أطر تعلم الآلة: دعم العديد من أطر تعلم الآلة التقليدية
نظام خلفي مرن: يسمح بإضافة أنظمة خلفية مخصصة وعمليات معالجة مسبقة/لاحقة

2. نشر عبر الأنظمة الأساسية

يدعم Triton Inference Server الاستنتاج في السحابة ومراكز البيانات والحافة والأجهزة المدمجة، ويدعم NVIDIA GPU و x86 و ARM CPU أو AWS Inferentia.

3. تحسين الأداء العالي

تنفيذ النموذج المتزامن: يدعم تشغيل نماذج متعددة في وقت واحد
معالجة الدفعات الديناميكية: تحسين حجم الدفعة تلقائيًا لتحسين الإنتاجية
معالجة الدفعات التسلسلية: يوفر إدارة حالة ضمنية للنماذج ذات الحالة
الاستنتاج في الوقت الفعلي: يوفر أداءً محسنًا لأنواع الاستعلامات المتعددة، بما في ذلك البث المباشر والدفعي والمتكامل والصوتي/المرئي

4. دعم بروتوكولات متعددة

بروتوكول HTTP/REST: استنادًا إلى بروتوكول KServe الذي تم تطويره بواسطة المجتمع
بروتوكول gRPC: استدعاء إجراءات عن بعد عالية الأداء
واجهة برمجة تطبيقات C وواجهة برمجة تطبيقات Java: تسمح بربط Triton مباشرة بالتطبيقات

وحدات الوظائف الرئيسية

1. إدارة النموذج

مستودع النموذج: إدارة وتخزين النماذج بشكل موحد
التحميل/إلغاء التحميل الديناميكي: إدارة توفر النموذج في وقت التشغيل
تكوين النموذج: تكوين مرن لمعلمات النموذج

2. خط أنابيب النموذج

تكامل النموذج: دمج نماذج متعددة في خطوط أنابيب استنتاج معقدة
برنامج نصي لمنطق الأعمال (BLS): استخدم Python لكتابة منطق أعمال مخصص
نظام خلفي مخصص: دعم تطوير أنظمة خلفية مخصصة بلغة Python و C++

3. مراقبة الأداء

جمع المقاييس: استخدام GPU، وإنتاجية الخادم، والكمون، إلخ.
أدوات تحليل الأداء: Model Analyzer و Performance Analyzer
اقتراحات التحسين: اقتراحات آلية لضبط الأداء

تصميم معماري

المكونات الأساسية

خادم الاستنتاج: محرك الاستنتاج الأساسي
مدير الواجهة الخلفية: إدارة الواجهات الخلفية لأطر مختلفة
مدير النموذج: معالجة دورة حياة النموذج
المجدول: تحسين جدولة الطلبات ومعالجة الدفعات
معالج البروتوكول: معالجة اتصالات HTTP/gRPC

الواجهات الخلفية المدعومة

واجهة TensorRT الخلفية: استنتاج مُحسَّن لوحدة معالجة الرسومات NVIDIA
واجهة TensorFlow الخلفية: دعم نموذج TensorFlow
واجهة PyTorch الخلفية: دعم نموذج PyTorch
واجهة ONNX الخلفية: دعم النموذج عبر الأنظمة الأساسية
واجهة OpenVINO الخلفية: تحسين أجهزة Intel
واجهة Python الخلفية: منطق Python مخصص
واجهة RAPIDS FIL الخلفية: دعم نموذج ML التقليدي

بداية سريعة

1. إنشاء مستودع نموذج

git clone -b r25.02 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh

2. ابدأ تشغيل خادم Triton

docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models \
  nvcr.io/nvidia/tritonserver:25.02-py3 \
  tritonserver --model-repository=/models --model-control-mode explicit \
  --load-model densenet_onnx

3. إرسال طلب استنتاج

docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:25.02-py3-sdk \
  /workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION \
  /workspace/images/mug.jpg

خيارات النشر

1. نشر حاوية Docker (موصى به)

صورة حاوية NGC الرسمية
بيئة تشغيل مُكوَّنة مسبقًا
عملية نشر مبسطة

2. نشر Kubernetes

دعم نشر GCP و AWS
دعم Helm Charts
توسيع نطاق تلقائي

3. نشر جهاز الحافة

دعم Jetson و JetPack
تحسين بنية ARM
تكامل التطبيقات المضمنة

4. تكامل النظام الأساسي السحابي

دعم AWS Inferentia
تكامل NVIDIA FleetCommand
استراتيجية نشر متعددة السحابات

دعم العميل

اللغات المدعومة

Python: مكتبة عميل كاملة وأمثلة
C++: تنفيذ عميل عالي الأداء
Java: تكامل تطبيقات على مستوى المؤسسة
HTTP/REST: أي لغة تدعم HTTP

وظائف العميل

استنتاج غير متزامن ومتزامن
طلبات معالجة الدفعات
الاستنتاج المتدفق
نقل مباشر للبيانات الثنائية

ميزات على مستوى المؤسسة

1. الأمان

اعتبارات النشر الآمن
دعم المصادقة
نقل بيانات مشفر

2. قابلية التوسع

دعم التوسع الأفقي
موازنة التحميل
نشر عالي التوفر

3. المراقبة والتسجيل

مقاييس أداء مفصلة
إخراج سجل منظم
تكامل مراقبة الطرف الثالث

سيناريوهات التطبيق

1. الاستنتاج في الوقت الفعلي

الخدمات عبر الإنترنت
أنظمة اتخاذ القرارات في الوقت الفعلي
تطبيقات تفاعلية

2. المعالجة المجمعة

معالجة البيانات على نطاق واسع
تحليل غير متصل بالشبكة
خط أنابيب ETL

3. الحوسبة الطرفية

أجهزة إنترنت الأشياء
القيادة الذاتية
تحليل الفيديو في الوقت الفعلي

4. الذكاء الاصطناعي متعدد الوسائط

معالجة الصوت
تحليل الفيديو
معالجة اللغة الطبيعية

تكامل النظام البيئي

أدوات التطوير

Model Analyzer: تحليل أداء النموذج
Performance Analyzer: قياس الأداء
Python Triton: واجهة Python مبسطة

موارد المجتمع

دروس رسمية: موارد تعليمية مفصلة
منطقة مناقشة GitHub: دعم المجتمع
NVIDIA LaunchPad: بيئة تجريبية مجانية
Deep Learning Examples: أمثلة شاملة

الترخيص والدعم

ترخيص مفتوح المصدر

ترخيص BSD 3-Clause
مشروع مفتوح المصدر بالكامل
تطوير مدفوع بالمجتمع

دعم المؤسسات

NVIDIA AI Enterprise: دعم على مستوى المؤسسة
دعم فني عالمي
ضمان اتفاقية مستوى الخدمة

ملخص

Triton Inference Server هو حل خدمة استنتاج الذكاء الاصطناعي على مستوى المؤسسات تم إطلاقه بواسطة NVIDIA، وله المزايا الأساسية التالية:

منصة موحدة: تدعم أطر التعلم العميق المتعددة وبيئات النشر
أداء عالي: مُحسَّن لأجهزة NVIDIA، مما يوفر أفضل أداء استنتاج
سهولة الاستخدام: أدوات ووثائق غنية، تبسيط عملية النشر
جاهزية المؤسسة: مراقبة كاملة وأمان ووظائف توسيع
نظام بيئي مفتوح المصدر: مجتمع نشط وتكامل غني من جهات خارجية

سواء كانت شركة ناشئة أو مؤسسة كبيرة، يمكن لـ Triton Inference Server توفير حلول نشر نموذج الذكاء الاصطناعي موثوقة وفعالة، مما يساعد المؤسسات على تحقيق النشر الصناعي لتطبيقات الذكاء الاصطناعي بسرعة.