إطار عمل لفهم المستندات والاسترجاع الدلالي يعتمد على نماذج اللغة الكبيرة، مصمم خصيصًا لقواعد المعرفة المؤسسية وتطبيقات RAG.

NOASSERTIONGoWeKnoraTencent 6.6k Last Updated: October 23, 2025

WeKnora - إطار عمل تينسنت مفتوح المصدر للوثائق على مستوى المؤسسات

نظرة عامة على المشروع

WeKnora هو إطار عمل مفتوح المصدر من تينسنت لفهم الوثائق والاسترجاع الدلالي، يعتمد على نماذج اللغة الكبيرة (LLM)، ومصمم خصيصًا لسيناريوهات الوثائق ذات الهياكل المعقدة والمحتوى غير المتجانس. يعتمد هذا الإطار على بنية معيارية، ويدمج المعالجة المسبقة متعددة الوسائط، وفهرسة المتجهات الدلالية، والاستدعاء الذكي، والاستدلال التوليدي لنموذج اللغة الكبير، لبناء عملية فعالة وقابلة للتحكم للإجابة على أسئلة الوثائق.

الموقع الرسمي: https://weknora.weixin.qq.com
عنوان GitHub: https://github.com/Tencent/WeKnora
ترخيص مفتوح المصدر: MIT License

الميزات الأساسية

🔍 فهم دقيق

  • يدعم استخراج المحتوى المهيكل من تنسيقات وثائق متعددة مثل PDF و Word والصور.
  • بناء عرض دلالي موحد، يدعم النصوص والصور المختلطة والتعرف الضوئي على الحروف (OCR).
  • تحليل ذكي للوثائق، يعالج الهياكل المعقدة والمحتوى غير المتجانس.

🧠 استدلال ذكي

  • يعتمد على تقنية RAG (Retrieval-Augmented Generation).
  • يستفيد من نماذج اللغة الكبيرة لفهم سياق الوثيقة ونية المستخدم.
  • يدعم الإجابة الدقيقة على الأسئلة والمحادثات متعددة الأدوار.

🔧 قابلية توسع مرنة

  • فصل كامل للعملية من التحليل والتضمين والاستدعاء إلى التوليد.
  • تصميم معياري، كل مكون قابل للتكوين والتوسع بمرونة.
  • سهل الدمج والتطوير المخصص.

⚡ استرجاع فعال

  • يمزج بين استراتيجيات استرجاع متعددة: الكلمات المفتاحية، المتجهات، الرسوم البيانية المعرفية.
  • يدعم آليات الاسترجاع مثل BM25، Dense Retrieve، GraphRAG.
  • يمكن دمج عمليات الاستدعاء-إعادة الترتيب-التوليد بحرية.

🎯 سهل الاستخدام

  • واجهة ويب بديهية وواجهة برمجة تطبيقات RESTful قياسية.
  • بدء سريع بدون عوائق تقنية.
  • سحب وإفلات لتحميل الوثائق، ونشر الخدمة بنقرة واحدة.

🔒 آمن وقابل للتحكم

  • يدعم النشر المحلي والسحابة الخاصة.
  • تحكم كامل ومستقل في البيانات.
  • يلبي متطلبات الأمان على مستوى المؤسسات.

سيناريوهات التطبيق

سيناريو التطبيق تطبيق محدد القيمة الأساسية
إدارة المعرفة المؤسسية استرجاع الوثائق الداخلية، الإجابة على أسئلة اللوائح، الاستعلام عن أدلة التشغيل تحسين كفاءة البحث عن المعرفة، تقليل تكاليف التدريب
تحليل الأدبيات البحثية استرجاع الأوراق البحثية، تحليل التقارير البحثية، تنظيم المواد الأكاديمية تسريع البحث في الأدبيات، المساعدة في اتخاذ القرارات البحثية
دعم المنتج التقني الإجابة على أسئلة أدلة المنتج، استرجاع الوثائق التقنية، استكشاف الأخطاء وإصلاحها تحسين جودة خدمة العملاء، تقليل عبء الدعم الفني
مراجعة الامتثال القانوني استرجاع بنود العقود، الاستعلام عن السياسات واللوائح، تحليل الحالات زيادة كفاءة الامتثال، تقليل المخاطر القانونية
مساعدة المعرفة الطبية استرجاع الأدبيات الطبية، الاستعلام عن إرشادات التشخيص والعلاج، تحليل الحالات السريرية المساعدة في اتخاذ القرارات السريرية، تحسين جودة التشخيص والعلاج

شرح مفصل للوحدات الوظيفية

قدرات معالجة الوثائق

  • التنسيقات المدعومة: PDF، Word، Txt، Markdown، الصور (بما في ذلك OCR والتعليقات التوضيحية).
  • التحليل الذكي: التعرف التلقائي على بنية الوثيقة، استخراج المحتوى الأساسي.
  • المعالجة متعددة الوسائط: فهم موحد للمحتوى المختلط من النصوص والصور.

التحويل إلى متجهات والاسترجاع

  • نماذج التضمين: تدعم النماذج المحلية، BGE، GTE API، وغيرها.
  • قواعد بيانات المتجهات: PostgreSQL (pgvector)، Elasticsearch.
  • استراتيجيات الاسترجاع: استرجاع BM25 المتناثر، استرجاع Dense Retrieve الكثيف، استرجاع GraphRAG للرسوم البيانية المعرفية.

دمج النماذج الكبيرة

  • دعم النماذج: Qwen (Tongyi Qianwen)، DeepSeek، وغيرها من النماذج الكبيرة الرائدة.
  • طرق النشر: النشر المحلي (Ollama) أو استدعاء واجهة برمجة تطبيقات خارجية.
  • وضع الاستدلال: يدعم التبديل بين وضع التفكير/غير التفكير.

وظيفة الرسم البياني المعرفي

يدعم WeKnora تحويل الوثائق إلى رسوم بيانية معرفية، لعرض العلاقات بين الفقرات المختلفة في الوثيقة. عند تفعيل وظيفة الرسم البياني المعرفي، يقوم النظام بتحليل وبناء شبكة علاقات دلالية داخل الوثيقة، مما لا يساعد المستخدمين على فهم محتوى الوثيقة فحسب، بل يوفر أيضًا دعمًا هيكليًا للفهرسة والاسترجاع.

البنية التقنية

هيكل المشروع

WeKnora/
├── cmd/           # نقطة دخول التطبيق
├── internal/      # منطق العمل الأساسي
├── config/        # ملفات التكوين
├── migrations/    # نصوص ترحيل قاعدة البيانات
├── scripts/       # نصوص التشغيل والأدوات
├── services/      # تنفيذ الخدمات الفرعية المختلفة
├── frontend/      # مشروع الواجهة الأمامية
└── docs/          # وثائق المشروع

الوحدات الأساسية

  1. وحدة تحليل الوثائق: استخراج المحتوى المهيكل من وثائق متعددة التنسيقات.
  2. وحدة معالجة المتجهات: تحويل محتوى الوثيقة إلى متجهات دلالية.
  3. وحدة محرك الاسترجاع: استرجاع واستدعاء متعدد الاستراتيجيات.
  4. وحدة استدلال النموذج الكبير: توليد إجابات ذكية بناءً على السياق.

البدء السريع

متطلبات البيئة

  • Docker
  • Docker Compose
  • Git

خطوات التثبيت

  1. استنساخ مستودع الكود
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora
  1. تكوين متغيرات البيئة
cp .env.example .env
# قم بتحرير ملف .env، واملأ التكوينات ذات الصلة وفقًا للتعليقات
  1. تشغيل الخدمات
# تشغيل جميع الخدمات بنقرة واحدة
./scripts/start_all.sh
# أو استخدم أمر make
make start-all
  1. الوصول إلى الخدمات بعد التشغيل الناجح، يمكن الوصول إلى العناوين التالية:

إيقاف الخدمات

./scripts/start_all.sh --stop
# أو
make stop-all

تكامل نظام WeChat البيئي

يعمل WeKnora كإطار عمل تقني أساسي لمنصة WeChat Open Dialogue، ويوفر القدرات التالية:

  • نشر بدون كود: ما عليك سوى تحميل المعرفة لنشر خدمة الإجابة الذكية بسرعة في نظام WeChat البيئي.
  • إدارة فعالة للمشكلات: يدعم الإدارة المستقلة وتصنيف المشكلات المتكررة.
  • تغطية نظام WeChat البيئي: يمكن دمجه بسلاسة في سيناريوهات WeChat مثل الحسابات الرسمية والبرامج المصغرة.

واجهة برمجة التطبيقات (API)

يوفر WeKnora واجهة برمجة تطبيقات RESTful كاملة، تدعم:

  • تحميل وإدارة الوثائق
  • عمليات قاعدة المعرفة
  • استعلامات الأسئلة والأجوبة
  • تكوين النظام

للحصول على وثائق API مفصلة، يرجى الرجوع إلى: API Documentation

التطوير والمساهمة

أنواع المساهمات

  • 🐛 إصلاح الأخطاء: اكتشاف وإصلاح عيوب النظام.
  • ✨ ميزات جديدة: اقتراح وتنفيذ ميزات جديدة.
  • 📚 تحسين الوثائق: تحسين وثائق المشروع.
  • 🧪 حالات الاختبار: كتابة اختبارات الوحدات واختبارات التكامل.
  • 🎨 تحسين واجهة المستخدم/تجربة المستخدم: تحسين واجهة المستخدم وتجربتها.

معايير التطوير

  • اتبع Go Code Review Comments.
  • استخدم gofmt لتنسيق الكود.
  • أضف اختبارات الوحدات الضرورية.
  • قم بتحديث الوثائق ذات الصلة.
  • استخدم معايير Conventional Commits.

عملية التقديم

  1. انسخ المشروع (Fork) إلى حسابك الشخصي على GitHub.
  2. أنشئ فرعًا للميزة: git checkout -b feature/amazing-feature.
  3. نفذ التغييرات: git commit -m 'Add amazing feature'.
  4. ادفع الفرع: git push origin feature/amazing-feature.
  5. أنشئ طلب سحب (Pull Request) ووصف التغييرات بالتفصيل.

مميزات المزايا

  1. استقرار على مستوى المؤسسات: تم تطويره بواسطة فريق تينسنت، وتم التحقق منه في بيئات إنتاج واسعة النطاق.
  2. جاهز للاستخدام: نشر Docker بنقرة واحدة، تشغيل بديهي عبر واجهة الويب.
  3. تقنية متقدمة: يعتمد على أحدث تقنيات RAG وقدرات النماذج الكبيرة.
  4. قابل للتخصيص بدرجة عالية: تصميم معياري، يدعم التوسع والتكامل المرن.
  5. أمان البيانات: يدعم النشر الخاص، تحكم كامل ومستقل في البيانات.
  6. تكامل النظام البيئي: دمج عميق مع نظام WeChat البيئي، يدعم تطبيقات متعددة السيناريوهات.

الخلاصة

WeKnora هو إطار عمل قوي ومتقدم للإجابة على أسئلة الوثائق على مستوى المؤسسات. لا يوفر فقط مجموعة تقنيات RAG كاملة، بل يتميز أيضًا بسهولة الاستخدام وقابلية التوسع الممتازة. سواء كان ذلك لإدارة المعرفة الداخلية للمؤسسات، أو تحليل الأدبيات البحثية، أو دعم خدمة العملاء، يمكن لـ WeKnora توفير حلول فعالة ودقيقة.

من خلال كونه مفتوح المصدر، يوفر WeKnora نقطة انطلاق عالية الجودة للمطورين والمؤسسات، مما يجعل بناء أنظمة الإجابة الذكية على الوثائق أمرًا بسيطًا وفعالًا.

Star History Chart