إطار عمل محرك بحث شبكي متعدد الوكلاء يعتمد على نموذج لغوي كبير، يحاكي عملية التفكير البشري لتحقيق بحث ذكاء اصطناعي متعمق.
MindSearch - إطار عمل محرك بحث ذكي متعدد الوكلاء مفتوح المصدر
نظرة عامة على المشروع
MindSearch هو إطار عمل محرك بحث ويب متعدد الوكلاء مفتوح المصدر يعتمد على نماذج اللغة الكبيرة (LLM)، ويهدف إلى محاكاة العمليات المعرفية البشرية في البحث عن معلومات الويب ودمجها. تم تطوير هذا المشروع بشكل مشترك من قبل مختبر شنغهاي للذكاء الاصطناعي وجامعة العلوم والتكنولوجيا في الصين، ويوفر تجربة بحث تضاهي Perplexity.ai Pro و SearchGPT.
الميزات الأساسية
🤔 الإجابة على أي سؤال
يحل MindSearch مختلف المشكلات التي تواجهها في حياتك من خلال البحث، وهو قادر على التعامل مع متطلبات الاستعلامات المعقدة.
📚 استكشاف المعرفة المتعمق
يوفر MindSearch إجابات أوسع وأكثر عمقًا من خلال تصفح مئات صفحات الويب. يمكن للنظام معالجة معلومات أكثر من 300 صفحة ويب بالتوازي في غضون 3 دقائق، وهو ما يعادل 3 ساعات من عمل خبير بشري.
🔍 مسار حل شفاف
يوفر MindSearch محتوى كاملاً مثل مسار التفكير وكلمات البحث الرئيسية، مما يعزز مصداقية الردود وقابليتها للاستخدام.
💻 واجهات مستخدم متعددة
يوفر للمستخدمين واجهات متنوعة، بما في ذلك React و Gradio و Streamlit والتصحيح المحلي.
🧠 عملية بناء الرسم البياني الديناميكي
يقوم MindSearch بتحليل استعلامات المستخدم إلى عقد مشكلات فرعية في الرسم البياني، ويوسع الرسم البياني تدريجياً بناءً على نتائج بحث WebSearcher.
البنية التقنية
المكونات الأساسية
يعتمد MindSearch بنية متعددة الوكلاء، تتكون من مكونين رئيسيين: WebPlanner و WebSearcher.
WebPlanner (مخطط الويب)
- يعمل كمخطط متقدم، ينسق خطوات الاستدلال والعديد من WebSearchers.
- يقوم بتحليل استعلامات المستخدم المعقدة إلى مشكلات فرعية على مستوى الذرة كعقد في الرسم البياني.
- يوسع الرسم البياني تدريجياً بناءً على نتائج بحث WebSearcher.
- يركز على تحليل الاستعلامات وتفكيكها، دون تشتيت بسبب نتائج البحث الطويلة.
WebSearcher (باحث الويب)
- ينفذ بحثًا دقيقًا على الويب ويلخص المعلومات القيمة ويعيدها إلى المخطط.
- ينفذ استرجاع المعلومات الهرمي، ويعالج كل مشكلة فرعية.
- يتضمن 4 خطوات رئيسية: إعادة كتابة الاستعلام، تجميع محتوى البحث، اختيار الصفحات التفصيلية، والتلخيص النهائي.
سير العمل
- تحليل الاستعلام: يقوم WebPlanner بتحليل الاستعلامات المعقدة إلى استعلامات فرعية متعددة.
- البحث المتوازي: يقوم العديد من WebSearchers بمعالجة الاستعلامات الفرعية المختلفة بالتوازي.
- تكامل المعلومات: يقوم WebPlanner بجمع ودمج النتائج من كل WebSearcher.
- التوسع الديناميكي: يقوم بتعديل وتوسيع رسم البحث البياني ديناميكيًا بناءً على نتائج البحث.
التنفيذ التقني
النماذج المدعومة
- النماذج مفتوحة المصدر: InternLM2.5-7b-chat (محسّن خصيصًا)
- النماذج مغلقة المصدر: GPT-4، Claude، وغيرها
- طرق النشر: يدعم طرق نشر متعددة مثل الخادم المحلي، العميل، و HuggingFace.
محركات البحث المدعومة
- DuckDuckGo Search (لا يتطلب مفتاح API)
- Bing Search
- Brave Search
- Google Serper
- Tencent Search
واجهة المستخدم الأمامية
- React: واجهة ويب حديثة
- Gradio: واجهة بايثون سهلة الاستخدام
- Streamlit: واجهة مناسبة لعلوم البيانات
- Terminal: واجهة سطر الأوامر
التثبيت والاستخدام
التثبيت الأساسي
git clone https://github.com/InternLM/MindSearch
cd MindSearch
pip install -r requirements.txt
تهيئة البيئة
mv .env.example .env
# قم بتحرير ملف .env لإضافة مفتاح API وتكوين النموذج
تشغيل الخدمة
python -m mindsearch.app --lang cn --model_format internlm_server --search_engine DuckDuckGoSearch --asy
شرح المعلمات
--lang
: لغة النموذج،cn
للصينية،en
للإنجليزية--model_format
: تنسيق النموذج، مثلinternlm_server
،gpt4
، إلخ.--search_engine
: نوع محرك البحث--asy
: نشر الوكلاء غير المتزامنين
تشغيل واجهة React الأمامية
# تهيئة عنوان URL للواجهة الخلفية
HOST="127.0.0.1"
PORT=8002
sed -i -r "s/target:\s*\"\"/target: \"${HOST}:${PORT}\"/" frontend/React/vite.config.ts
# تثبيت التبعيات
cd frontend/React
npm install
npm start
نشر Docker
يوفر المشروع أداة MSDL (MindSearch Docker Launcher) لتبسيط عملية نشر Docker:
cd MindSearch/docker
# تشغيل أداة التهيئة التفاعلية
يدعم طريقتي نشر: النماذج المحلية والنماذج السحابية، ويوفر دعم تسريع GPU.
الأداء
نتائج الاختبارات المعيارية
تمت مقارنة أداء ChatGPT-Web و Perplexity.ai (Pro) و MindSearch من حيث العمق والاتساع ودقة الاستجابات المولدة. تستند نتائج التقييم إلى 100 سؤال واقعي مصمم بعناية من قبل خبراء بشريين، وتم تقييمها من قبل 5 خبراء.
الميزات المميزة
- تحسين الكفاءة: معالجة أكثر من 300 صفحة ويب في 3 دقائق، وهو ما يعادل 3 ساعات من عمل خبير بشري.
- تحسين الجودة: تحسين كبير في جودة الاستجابات من حيث العمق والاتساع.
- القدرة التنافسية: جودة استجابات MindSearch المبنية على InternLM2.5-7B تتفوق على ChatGPT-Web و Perplexity.ai.
مميزات المشروع
مزايا المصدر المفتوح
- مفتوح المصدر بالكامل: جميع الأكواد مفتوحة المصدر بموجب ترخيص Apache 2.0.
- مدفوع بالمجتمع: مجتمع GitHub نشط وتحديثات مستمرة.
- قابلية التخصيص: يدعم التكوين المرن للعديد من النماذج ومحركات البحث.
الابتكار التقني
- تعاون متعدد الوكلاء: بنية WebPlanner + WebSearcher المبتكرة.
- بناء الرسم البياني الديناميكي: طريقة بناء الرسم البياني التي تحاكي العمليات المعرفية البشرية.
- المعالجة المتوازية: استرجاع المعلومات ودمجها بكفاءة عالية بالتوازي.
- إدارة السياق: آلية ذكية لإدارة السياق الطويل.
مشاريع ذات صلة
يعد MindSearch جزءًا مهمًا من نظام InternLM البيئي، ويعمل بالتعاون مع المشاريع التالية:
- Lagent: إطار عمل وكيل LLM خفيف الوزن.
- AgentLego: مكتبة API لأدوات متعددة الوظائف.
- InternLM2.5: نموذج لغة كبير محسن.
- LMDeploy: مجموعة أدوات نشر النماذج.
الخلاصة
يمثل MindSearch اختراقًا مهمًا في مجال محركات البحث المدعومة بالذكاء الاصطناعي، حيث يحقق بحثًا ودمجًا فعالًا ودقيقًا لمعلومات الويب من خلال محاكاة العمليات المعرفية البشرية. إن طبيعته مفتوحة المصدر وأداءه الممتاز يجعلان منه خيارًا مثاليًا لبناء محركات بحث مخصصة بالذكاء الاصطناعي.