Home
Login

أداة لتحويل أي عنوان URL إلى تنسيق إدخال سهل الاستخدام لنموذج اللغة الكبير (LLM)، تدعم استخراج محتوى الويب والبحث الذكي.

Apache-2.0TypeScript 8.9kjina-ai Last Updated: 2025-05-08

مشروع Jina AI Reader: شرح تفصيلي

نظرة عامة على المشروع

Jina AI Reader هو أداة مفتوحة المصدر تهدف إلى تحويل أي عنوان URL إلى تنسيق إدخال صديق لنماذج اللغة الكبيرة (LLM). تم تطوير هذا المشروع وصيانته بواسطة Jina AI، ويستخدم ترخيص Apache-2.0 مفتوح المصدر، مما يوفر خدمة استخراج محتوى ويب عالي الجودة لأنظمة الوكلاء الذكية (AI Agent) وأنظمة الاسترجاع المعزز بالتوليد (RAG).

الوظائف الأساسية

1. تحويل محتوى الويب (وظيفة القراءة)

  • الوظيفة الرئيسية: تحويل أي عنوان URL إلى تنسيق إدخال صديق لـ LLM.
  • طريقة الاستخدام: إضافة البادئة https://r.jina.ai/ قبل أي عنوان URL.
  • مثال:
    عنوان URL الأصلي: https://en.wikipedia.org/wiki/Artificial_intelligence
    عنوان URL المحول: https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
    

2. البحث الذكي في الويب (وظيفة البحث)

  • الوظيفة الرئيسية: البحث في الويب بناءً على استعلام وإرجاع النتائج بتنسيق صديق لـ LLM.
  • طريقة الاستخدام: إضافة البادئة https://s.jina.ai/ قبل الاستعلام.
  • آلية العمل: البحث التلقائي في الويب، والحصول على أول 5 نتائج، وزيارة كل عنوان URL وتطبيق تحويل المحتوى.
  • مثال:
    الاستعلام: Who will win 2024 US presidential election?
    عنوان URL للبحث: https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
    

3. ميزات متقدمة

التعرف على الصور ووصفها
  • الوظيفة: إنشاء وصف تلقائي للصور التي تفتقر إلى علامات alt.
  • التنسيق: Image [idx]: [caption]
  • طريقة التفعيل: استخدام رأس الطلب x-with-generated-alt: true
دعم مستندات PDF
  • الوظيفة: قراءة وتحليل مستندات PDF مباشرة.
  • تاريخ التحديث: وظيفة جديدة تمت إضافتها في 30 مايو 2024.
البحث داخل الموقع
  • الوظيفة: حصر نتائج البحث في نطاق أو موقع ويب معين.
  • طريقة الاستخدام: تعيين site=example.com في معلمات الاستعلام.
  • مثال:
    curl 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
    

البنية التقنية

أنواع صفحات الويب المدعومة

  • صفحات الويب الثابتة: صفحات HTML التقليدية.
  • تطبيقات الصفحة الواحدة (SPA): تطبيقات ويب حديثة تعتمد على أطر عمل JavaScript.
  • المحتوى الديناميكي: صفحات الويب التي تعتمد على العرض من جانب العميل.

التقنيات الأساسية

  • محرك العرض: يعتمد على Puppeteer ومتصفح Chrome بدون رأس.
  • لغة التطوير: TypeScript
  • الترخيص: Apache-2.0

خيارات تهيئة واجهة برمجة التطبيقات (API)

التحكم في رؤوس الطلبات

التهيئة الأساسية
# تفعيل وصف الصور
x-with-generated-alt: true

# إعادة توجيه إعدادات ملفات تعريف الارتباط (Cookie)
x-set-cookie: [cookie_string]

# تجاوز التخزين المؤقت
x-no-cache: true

# تحمل مخصص للتخزين المؤقت (بالثواني)
x-cache-tolerance: [seconds]
الوكيل والمحددات
# تحديد خادم الوكيل
x-proxy-url: [proxy_url]

# محدد العنصر الهدف
x-target-selector: [css_selector]

# انتظار ظهور عنصر معين
x-wait-for-selector: [css_selector]

# تعيين المهلة الزمنية
x-timeout: [seconds]
التحكم في تنسيق الاستجابة
# إرجاع تنسيق Markdown (تجاوز تصفية القراءة)
x-respond-with: markdown

# إرجاع HTML الأصلي
x-respond-with: html

# إرجاع نص عادي
x-respond-with: text

# إرجاع عنوان URL لقطة شاشة لصفحة الويب
x-respond-with: screenshot

تنسيق الإخراج

الإخراج المتدفق

# تفعيل الوضع المتدفق
curl -H "Accept: text/event-stream" https://r.jina.ai/[URL]

تنسيق JSON

# الحصول على استجابة بتنسيق JSON
curl -H "Accept: application/json" https://r.jina.ai/[URL]

هيكل استجابة JSON:

{
  "url": "عنوان URL الأصلي",
  "title": "عنوان الصفحة",
  "content": "المحتوى المستخرج"
}

معالجة الحالات الخاصة

دعم تطبيقات الصفحة الواحدة (SPA)

نظرًا لخصوصية تطبيقات SPA، يتم توفير الحلول التالية:

معالجة مسارات Hash

بالنسبة لعناوين URL التي تحتوي على #، استخدم طريقة POST:

curl -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
معالجة المحتوى المحمل مسبقًا

بالنسبة لصفحات الويب التي تعرض محتوى محمل مسبقًا:

  1. تحديد مهلة انتظار:
curl 'https://example.com/' -H 'x-timeout: 30'
  1. انتظار عنصر معين:
curl 'https://example.com/' -H 'x-wait-for-selector: #content'
  1. استخدام الوضع المتدفق:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com/

النشر والاستخدام

الاستخدام في بيئة الإنتاج

  • حالة الخدمة: خدمة مجانية ومستقرة وقابلة للتطوير على مستوى الإنتاج.
  • حالة الصيانة: يتم صيانتها بنشاط كأحد المنتجات الأساسية لـ Jina AI.
  • عنوان الخدمة: https://r.jina.ai/ و https://s.jina.ai/

حالات الاستخدام

أنظمة الوكلاء الذكية (AI Agent)

  • توفير محتوى ويب منظم للوكلاء الذكية.
  • دعم الوكلاء في جمع وتحليل معلومات الويب.
  • توفير إمكانات بحث في الويب في الوقت الفعلي.

أنظمة الاسترجاع المعزز بالتوليد (RAG)

  • تحويل محتوى الويب إلى تنسيق صديق لقواعد البيانات المتجهة.
  • دعم الحصول على المعرفة من خلال الاسترجاع المعزز بالتوليد.
  • توفير مصدر معرفة خارجي عالي الجودة.

تحليل المحتوى

  • استخراج وتنظيف محتوى الويب.
  • فهم محتوى الوسائط المتعددة (وصف الصور).
  • توحيد تنسيقات المستندات.

الأداء والقيود

أداء الاستجابة

  • وقت المعالجة: عادةً ما يتم معالجة عنوان URL وإرجاع المحتوى في غضون ثانيتين.
  • الصفحات المعقدة: قد تستغرق الصفحات المعقدة أو الديناميكية وقتًا أطول.

قيود الاستخدام

  • توجد قيود على المعدل (يرجى مراجعة الوثائق الرسمية للحصول على التفاصيل).
  • يحتفظ المحتوى المرتجع باللغة الأصلية، ولا يتم توفير خدمة الترجمة.

Jina AI Reader هو أداة مفتوحة المصدر قوية مصممة خصيصًا لأنظمة الذكاء الاصطناعي الحديثة، وتحل مشاكل التنسيق والجودة التي تواجهها نماذج اللغة الكبيرة (LLM) عند معالجة محتوى الويب. من خلال إضافة بادئة URL بسيطة، يمكن الحصول على محتوى ويب عالي الجودة ومنظم، مما يجعله أداة مثالية لبناء أنظمة الوكلاء الذكية (AI Agent) وأنظمة الاسترجاع المعزز بالتوليد (RAG).