Home
Login

نظام توليد معزز بالاسترجاع يعتمد على الرسم البياني المعرفي، يستخرج تلقائيًا الرسوم البيانية المعرفية المنظمة من النص من خلال نموذج لغوي كبير (LLM) ويعزز أداء RAG.

MITPython 25.9kmicrosoft Last Updated: 2025-06-18

مشروع Microsoft GraphRAG: شرح تفصيلي

نظرة عامة على المشروع

GraphRAG (الرسوم البيانية + التوليد المعزز بالاسترجاع) هو مشروع مفتوح المصدر تم تطويره بواسطة Microsoft Research، وهو نظام معياري قائم على الرسم البياني لتوليد معزز بالاسترجاع. يجمع المشروع بين استخراج النصوص وتحليل الشبكات وتوجيه النماذج اللغوية الكبيرة (LLM) وتوليد الملخصات لتشكيل نظام شامل مصمم خصيصًا لفهم مجموعات البيانات النصية بعمق.

الميزات التقنية الأساسية

1. البناء التلقائي للرسم البياني المعرفي

يستخدم GraphRAG نماذج لغوية كبيرة (LLM) لاستخراج رسوم بيانية معرفية غنية تلقائيًا من أي مجموعة من المستندات النصية. إحدى أكثر الميزات إثارة لقاعدة بيانات الرسوم البيانية هذه هي قدرتها على الإبلاغ عن البنية الدلالية للبيانات قبل أي استعلام من المستخدم.

2. الكشف عن المجتمع والتسلسل الهرمي

لا يقوم النظام باستخراج الكيانات والعلاقات فحسب، بل يقوم أيضًا ببناء تسلسل هرمي للمجتمع، وإنشاء ملخصات لهذه المجتمعات، ثم يستخدم هذه الهياكل عند تنفيذ المهام المستندة إلى RAG.

3. قدرات استرجاع محسنة

من خلال إنشاء رسم بياني معرفي يعتمد على مجموعة النصوص المدخلة، يحسن GraphRAG بشكل كبير جزء "الاسترجاع" في RAG، ويملأ نافذة السياق بمحتوى ذي صلة أعلى، مما يؤدي إلى إجابات أفضل والتقاط مصادر الأدلة.

وحدات الوظائف الرئيسية

خط أنابيب البيانات ومجموعة التحويل

مشروع GraphRAG هو خط أنابيب بيانات ومجموعة تحويل مصممة خصيصًا للاستفادة من قوة النماذج اللغوية الكبيرة لاستخراج بيانات منظمة ذات مغزى من نص غير منظم.

نظام الاستعلام

  • البحث العالمي: القدرة على الإجابة على الأسئلة المعقدة التي تتطلب معرفة مجموعة البيانات بأكملها
  • البحث المحلي: استعلامات دقيقة تستهدف كيانات أو مفاهيم محددة
  • مقارنة Vector RAG: يتضمن تطبيقًا بسيطًا لـ Vector RAG الأساسي لتسهيل مقارنة نتائج البحث لأنواع مختلفة من الأسئلة

CLI والمسرعات

يوفر المشروع واجهة سطر أوامر (CLI) وحلول مسرع GraphRAG، مما يبسط تجربة المستخدم للمطورين والمستخدمين.

الهيكل التقني

العملية الأساسية

  1. استخراج النص: استخراج الكيانات والعلاقات من النص الأصلي
  2. بناء الرسم البياني: تحويل الكيانات والعلاقات المحددة إلى تنسيق الرسم البياني
  3. تحليل المجتمع: تحديد الهياكل المجتمعية في الرسم البياني
  4. توليد الملخص: إنشاء ملخصات للمجتمعات المحددة
  5. الاستعلام المعزز: استخدام هذه الهياكل لتعزيز المطالبات عند الاستعلام

مخرجات الإنتاج

يقوم GraphRAG بإنشاء العديد من مخرجات الإنتاج لتخزين نماذج المعرفة المفهرسة، وسيتم تحديث هذه المخرجات وتكرارها في الإصدارات المستقبلية.

سيناريوهات التطبيق

اكتشاف البيانات المعقدة

يعتبر GraphRAG مناسبًا بشكل خاص للسيناريوهات التي تتطلب اكتشاف أنماط وعلاقات معقدة من كميات كبيرة من البيانات النصية، وهو قادر على الإجابة على الأسئلة العالمية التي يصعب على أنظمة RAG التقليدية التعامل معها.

بيانات سردية خاصة

بالنسبة لمجموعات البيانات الخاصة التي تحتوي على محتوى سردي غني، يمكن لـ GraphRAG إطلاق العنان لقدرات LLM في اكتشاف هذه البيانات.

البحث والتحليل

يمكن للنظام إنشاء أسئلة بحثية وتحسين قواعد المعرفة وتحسين مطالبات المستخدم وإنشاء أدوات تعمل على تحسين ذكاء وكلاء الذكاء الاصطناعي.

التثبيت والاستخدام

بداية سريعة

يوفر المشروع خيارًا بسيطًا للتثبيت من PyPI، بما في ذلك مثال كامل وشامل يوضح كيفية استخدام النظام لفهرسة النص واستخدام البيانات المفهرسة للإجابة على الأسئلة المتعلقة بالمستندات.

متطلبات التكوين

  • يتطلب تهيئة مساحة العمل تشغيل الأمر graphrag init
  • إنشاء ملفات التكوين .env و settings.yaml
  • مطلوب تكوين مفتاح واجهة برمجة تطبيقات LLM والمعلمات ذات الصلة

إعداد البيانات

يدعم النظام إدخال تنسيقات نصية متعددة، وهو قادر على معالجة مجموعات كبيرة من المستندات وإنشاء الرسوم البيانية المعرفية المقابلة.

المزايا التقنية

تحسينات مقارنة بـ RAG التقليدي

  • فهم أفضل للسياق: يوفر معلومات سياقية أكثر ثراءً من خلال الرسوم البيانية المعرفية
  • قدرة الاستدلال العالمية: القدرة على الإجابة على الأسئلة المعقدة التي تتطلب دمج معلومات مستندات متعددة
  • تمثيل المعرفة المنظمة: تحويل النص غير المنظم إلى تمثيل معرفة منظم
  • قابلية التفسير: توفير إمكانية التتبع لمصادر الأدلة ومسارات الاستدلال

النظام البيئي مفتوح المصدر

كمشروع مفتوح المصدر، يعزز GraphRAG التعاون والتطوير في الأوساط الأكاديمية والصناعية في مجال تقنيات RAG المعززة بالرسوم البيانية.

ملخص

يمثل Microsoft GraphRAG تقدمًا كبيرًا في تقنية التوليد المعزز بالاسترجاع، ومن خلال الجمع بين الرسوم البيانية المعرفية والنماذج اللغوية الكبيرة، فإنه يحسن بشكل كبير من قدرات فهم النصوص وأنظمة الإجابة على الأسئلة. إنه ليس مجرد أداة تقنية، بل هو معلم هام يدفع الذكاء الاصطناعي إلى الأمام في مجال تحليل النصوص المعقدة.