NVIDIA/TensorRTPlease refer to the latest official releases for information GitHub Homepage

NVIDIA® TensorRT™ هو SDK للاستدلال عالي الأداء للتعلم العميق على وحدات معالجة الرسومات NVIDIA. يحتوي هذا المستودع على مكونات مفتوحة المصدر لـ TensorRT.

Apache-2.0C++ 11.7kNVIDIA Last Updated: 2025-06-18

نظرة عامة على مشروع NVIDIA TensorRT

NVIDIA® TensorRT™ عبارة عن حزمة تطوير برامج (SDK) طورتها NVIDIA خصيصًا للاستدلال عالي الأداء للتعلم العميق. إنه مُحسِّن للاستدلال ومكتبة وقت التشغيل مصممة خصيصًا لوحدات معالجة الرسومات NVIDIA، مما يحسن بشكل كبير أداء الاستدلال لنماذج التعلم العميق في بيئات الإنتاج.

الميزات والوظائف الأساسية

1. تحسين الاستدلال عالي الأداء

تحسين النموذج: تحسين بنية النموذج من خلال تقنيات مثل دمج الطبقات وتكميم الأوزان والضبط التلقائي للنواة.
تحسين الذاكرة: إدارة ذكية للذاكرة، مما يقلل من استخدام الذاكرة وتكاليف نقل البيانات.
تحسين الدقة: يدعم أوضاع دقة متعددة مثل FP32 و FP16 و INT8، مما يحسن الأداء مع الحفاظ على الدقة.

2. دعم واسع النطاق للنماذج

محلل ONNX: دعم أصلي لتنسيق نموذج ONNX.
توافق الإطار: يدعم أطر التعلم العميق الرئيسية مثل TensorFlow و PyTorch و Caffe.
أنواع النماذج: يدعم مختلف هياكل النماذج مثل الشبكات العصبية الالتفافية (CNN) والشبكات العصبية المتكررة (RNN) والمحولات.

3. نظام بيئي غني بالمكونات الإضافية

المكونات الإضافية المضمنة: يوفر عددًا كبيرًا من المكونات الإضافية عالية الأداء المبنية مسبقًا.
المكونات الإضافية المخصصة: يدعم المطورين لكتابة مكونات إضافية مخصصة لتوسيع الوظائف.
واجهة برمجة تطبيقات المكونات الإضافية: واجهات ووثائق تطوير مكونات إضافية كاملة.

البنية التقنية

عملية البناء

استيراد النموذج: يدعم استيراد النماذج المدربة من أطر مختلفة.
تعريف الشبكة: استخدم TensorRT API لتعريف بنية الشبكة.
البناء الأمثل: يقوم Builder بالتحسين وفقًا للأجهزة المستهدفة.
التسلسل: تسلسل وحفظ المحرك المحسن.
تنفيذ الاستدلال: استخدم Runtime لتنفيذ الاستدلال.

المكونات الأساسية

Builder: مسؤول عن تحسين الشبكة وبناء المحرك.
Engine: محرك الاستدلال المحسن.
Runtime: وقت تشغيل تنفيذ الاستدلال.
Parser: محلل تنسيق النموذج (ONNX، UFF، إلخ).

متطلبات النظام

متطلبات الأجهزة

GPU: NVIDIA GPU (قدرة حسابية >= 5.0)
الذاكرة: يوصى بذاكرة نظام 8 جيجابايت أو أكثر.
التخزين: مساحة كافية على القرص لتخزين النماذج والملفات المؤقتة.

متطلبات البرامج

نظام التشغيل: Linux (Ubuntu, CentOS, RHEL) / Windows 10/11
CUDA: CUDA 11.8+ أو CUDA 12.9+
Python: Python 3.8-3.10
أخرى: cuDNN, CMake, GNU Make, إلخ.

التثبيت والاستخدام

التثبيت السريع

# استخدم pip لتثبيت حزمة Python
pip install tensorrt

# أو قم بالبناء من المصدر
git clone -b main https://github.com/nvidia/TensorRT TensorRT
cd TensorRT
git submodule update --init --recursive

بناء حاوية Docker

# بناء صورة Docker
./docker/build.sh --file docker/ubuntu-20.04.Dockerfile --tag tensorrt-ubuntu20.04-cuda12.9

# تشغيل حاوية البناء
./docker/launch.sh --tag tensorrt-ubuntu20.04-cuda12.9 --gpus all

المزايا الرئيسية

1. ميزة الأداء

تسريع الاستدلال: يمكن أن يكون تسريع الاستدلال عدة مرات مقارنة بالأطر الأصلية.
زمن انتقال منخفض: مسار تنفيذ المحرك الأمثل، مما يحقق زمن انتقال منخفض للغاية للاستدلال.
إنتاجية عالية: يدعم المعالجة الدفعية والمتوازية، مما يحسن الإنتاجية الإجمالية.

2. سهولة الاستخدام

Python API: يوفر واجهة Python بسيطة وسهلة الاستخدام.
أمثلة غنية: يحتوي على عدد كبير من نماذج التعليمات البرمجية والبرامج التعليمية.
وثائق كاملة: وثائق مطور مفصلة وإرشادات أفضل الممارسات.

3. جاهز للإنتاج

الاستقرار: تم التحقق منه في بيئات إنتاج واسعة النطاق.
التوافق: يتكامل تمامًا مع نظام NVIDIA البيئي.
دعم المؤسسات: يوفر خدمات دعم فني على مستوى المؤسسات.

سيناريوهات التطبيق

1. الحوسبة الطرفية

القيادة الذاتية: نظام استدلال AI للسيارات.
الروبوتات: أنظمة رؤية واتخاذ قرار في الوقت الفعلي.
أجهزة إنترنت الأشياء: تطبيقات AI مضمنة.

2. مركز البيانات

خدمة الاستدلال: نشر خدمة الاستدلال AI واسعة النطاق.
الحوسبة السحابية: تحسين تطبيقات AI السحابية.
الحوسبة عالية الأداء: تطبيقات الحوسبة والبحث العلمي.

3. التطبيقات الصناعية

التصوير الطبي: تحليل وتشخيص الصور الطبية.
المالية: تقييم المخاطر والكشف عن الاحتيال.
التصنيع: فحص الجودة والصيانة التنبؤية.

مكونات مفتوحة المصدر

يحتوي هذا المستودع على مكونات مفتوحة المصدر لـ TensorRT، بما في ذلك بشكل أساسي:

1. مكونات TensorRT الإضافية

يوفر تطبيقات مختلفة للنواة الحسابية عالية الأداء.
يدعم العمليات المخصصة وأنواع الطبقات.
يتضمن تطبيقات محسنة للعمليات الشائعة.

2. محلل ONNX

وظيفة تحليل نموذج ONNX كاملة.
يدعم أحدث معايير ONNX.
يوفر أدوات تحويل النموذج والتحقق منه.

3. تطبيقات نموذجية

عرض أمثلة التعليمات البرمجية لوظائف TensorRT المختلفة.
يحتوي على حالات استخدام تطبيق شاملة.
يوفر أدوات اختبار الأداء والاختبار المعياري.

ملخص

NVIDIA TensorRT عبارة عن نظام أساسي ناضج وعالي الأداء لتحسين الاستدلال للتعلم العميق، ويوفر للمطورين حلاً كاملاً من تحسين النموذج إلى النشر. إن قدرات التحسين القوية والميزات الوظيفية الغنية ودعم النظام البيئي الكامل تجعله أحد الأدوات المفضلة لنشر تطبيقات AI. سواء كان النشر في الحوسبة الطرفية أو مركز البيانات، يمكن لـ TensorRT أن يساعد المطورين على تحقيق أفضل أداء وكفاءة للاستدلال.