h2oai/h2ogptPlease refer to the latest official releases for information GitHub Homepage

أداة دردشة GPT محلية خاصة، تدعم أسئلة وأجوبة المستندات ومعالجة الصور والفيديو وغيرها من الوظائف المتعددة، نشر خاص بنسبة 100٪

Apache-2.0Python 11.9kh2oaih2ogpt Last Updated: 2025-05-25

تفاصيل مشروع h2oGPT

نظرة عامة على المشروع

h2oGPT هو مشروع مفتوح المصدر تم تطويره بواسطة H2O.ai، ويهدف إلى توفير تجربة دردشة GPT محلية خاصة بالكامل، تدعم الإجابة على أسئلة المستندات، ومعالجة الصور والفيديو، والعديد من الوظائف الأخرى. يعتمد المشروع على ترخيص Apache V2، مما يضمن نشرًا واستخدامًا خاصًا بنسبة 100%.

عنوان المشروع: https://github.com/h2oai/h2ogpt

عنوان العرض التوضيحي: https://gpt.h2o.ai/

الميزات الأساسية

1. قدرات معالجة المستندات

يدعم h2oGPT قواعد بيانات خاصة وغير متصلة بالإنترنت لأنواع مستندات متعددة، بما في ذلك PDF، Excel، Word، الصور، إطارات الفيديو، YouTube، الصوت، الكود، النص، MarkDown، وغيرها. تشمل الميزات الرئيسية:

قاعدة بيانات دائمة: استخدام Chroma، Weaviate، أو FAISS في الذاكرة لتخزين المستندات.
تضمين دقيق: يدعم نماذج التضمين مثل instructor-large و all-MiniLM-L6-v2.
استخدام فعال للسياق: استخدام نماذج LLM المعدلة بالتعليمات، دون الحاجة إلى طرق few-shot من LangChain.
معالجة متوازية: تلخيص واستخراج متوازٍ، حيث يمكن لنموذج LLaMa2 بحجم 13 مليار معلمة الوصول إلى سرعة إخراج 80 رمزًا في الثانية.
تقنية HYDE: تقنية تضمين المستندات الافتراضية بناءً على استجابات LLM، لتعزيز قدرات الاسترجاع.
تجزئة دلالية: تقسيم أفضل للمستندات (يتطلب دعم GPU).

2. دعم النماذج

يدعم h2oGPT نماذج متعددة، بما في ذلك LLaMa2، Mistral، Falcon، Vicuna، WizardLM، وغيرها، ويدعم تقنيات مثل AutoGPTQ، التكميم 4-بت/8-بت، و LORA:

دعم GPU: من HuggingFace ونماذج LLaMa.cpp GGML.
دعم CPU: باستخدام نماذج HF، LLaMa.cpp، و GPT4ALL.
آلية الانتباه: تدعم التوليد بأي طول (LLaMa-2، Mistral، MPT، Pythia، Falcon، إلخ).

3. واجهة المستخدم

واجهة مستخدم Gradio: توفر واجهة ويب بديهية، تدعم الإخراج المتدفق.
واجهة سطر الأوامر (CLI): تدعم المعالجة المتدفقة لجميع النماذج.
تحميل وعرض المستندات: تحميل وعرض المستندات عبر واجهة المستخدم (تدعم مجموعات متعددة تعاونية أو فردية).

4. قدرات متعددة الوسائط

النماذج البصرية

تدعم نماذج بصرية مثل LLaVa، Claude-3، Gemini-Pro-Vision، GPT-4-Vision.

توليد الصور

تدعم نماذج توليد الصور مثل Stable Diffusion (sdxl-turbo، sdxl، SD3)، PlaygroundAI (playv2)، و Flux.

معالجة الصوت

STT (تحويل الكلام إلى نص): استخدام Whisper للتحويل الصوتي المتدفق.
TTS (تحويل النص إلى كلام):
- Microsoft Speech T5 بترخيص MIT، يدعم أصواتًا متعددة وتحويلًا صوتيًا متدفقًا.
- TTS بترخيص MPL2، يشمل استنساخ الصوت وتحويلًا صوتيًا متدفقًا.
التحكم الصوتي بمساعد الذكاء الاصطناعي: يدعم وضع دردشة h2oGPT بدون استخدام اليدين.

5. ميزات على مستوى المؤسسات

المصادقة وإدارة الحالة

مصادقة واجهة المستخدم: المصادقة عبر اسم المستخدم/كلمة المرور أو Google OAuth.
الحفاظ على الحالة: الحفاظ على الحالة في واجهة المستخدم عبر اسم المستخدم/كلمة المرور.
تكامل Open Web UI: استخدام h2oGPT كواجهة خلفية عبر وكيل OpenAI.

واجهة برمجة التطبيقات (API) والتكامل

واجهة برمجة تطبيقات متوافقة مع OpenAI: يمكن استخدام h2oGPT كبديل لخادم OpenAI.
دعم خادم الاستدلال: يدعم oLLaMa، خادم HF TGI، vLLM، Gradio، ExLLaMa، Replicate، Together.ai، OpenAI، Azure OpenAI، Anthropic، MistralAI، Google، و Groq.

وظائف واجهة برمجة تطبيقات وكيل الخادم

الدردشة وإكمال النص (متدفق وغير متدفق).
نسخ الصوت (STT).
توليد الصوت (TTS).
توليد الصور.
التضمينات.
استدعاء أدوات الوظائف واختيار الأداة التلقائي.
وكيل تنفيذ كود AutoGen.

6. الميزات المتقدمة

وضع JSON والإخراج المنظم

تحكم صارم في النمط: استخدام outlines مع vLLM للتحكم الصارم في النمط.
دعم متعدد المنصات: يدعم التحكم الصارم في النمط لنماذج OpenAI، Anthropic، Google Gemini، MistralAI.
وضع JSON: يوفر وضع JSON لبعض نماذج OpenAI أو Gemini الأقدم.

البحث عبر الويب والوكلاء

تكامل البحث عبر الويب: البحث عبر الويب مدمج مع الدردشة والإجابة على أسئلة المستندات.
الوكلاء الأذكياء: يدعم وكلاء للبحث، الإجابة على أسئلة المستندات، كود Python، إطار عمل CSV، إلخ.
وكلاء عالي الجودة: يوفر وكلاء عالي الجودة عبر خادم وكيل OpenAI على منفذ مستقل.
وكلاء الكود أولاً: توليد الرسوم البيانية، البحث، تقييم الصور عبر النماذج البصرية، إلخ.

تقييم الأداء

نماذج المكافأة: استخدام نماذج المكافأة لتقييم الأداء.
ضمان الجودة: الحفاظ على الجودة من خلال أكثر من 1000 اختبار وحدة واختبار تكامل (أكثر من 24 ساعة GPU).

التثبيت والنشر

طرق النشر الموصى بها

يوصى باستخدام Docker للنشر الكامل الوظائف على Linux و Windows و MAC. دعم المنصات:

Docker: وظائف كاملة على Linux، Windows، MAC.
نصوص Linux البرمجية: وظائف كاملة.
نصوص Windows و MAC البرمجية: وظائف محدودة نسبيًا.

طرق التثبيت المدعومة

بناء وتشغيل Docker: مناسب لـ Linux، Windows، MAC.
تثبيت وتشغيل Linux: دعم Linux الأصلي.
نص تثبيت Windows 10/11: دعم منصة Windows.
تثبيت وتشغيل MAC: دعم منصة macOS.
بدء سريع: مناسب لأي منصة.

المواصفات الفنية

متطلبات الأجهزة

دعم GPU: CUDA، AutoGPTQ، exllama.
دعم CPU: يدعم التشغيل على CPU فقط.
تحسين الذاكرة: يوفر وضع الذاكرة المنخفضة.

التثبيت دون اتصال

يدعم التثبيت دون اتصال بالكامل.
قدرة معالجة المستندات دون اتصال.
نشر النماذج المحلية.

التطوير والتوسيع

بيئة التطوير

اتبع تعليمات التثبيت لإنشاء بيئة تطوير للتدريب والتوليد.
يدعم الضبط الدقيق لأي نموذج LLM على بيانات مخصصة.
يوفر مجموعة اختبار كاملة.

الاختبار

pip install requirements-parser pytest-instafail pytest-random-order playsound==1.3.0
conda install -c conda-forge gst-python -y
sudo apt-get install gstreamer-1.0
pip install pygame
GPT_H2O_AI=0 CONCURRENCY_COUNT=1 pytest --instafail -s -v tests

# لاختبارات خادم openai على خادم محلي قيد التشغيل
pytest -s -v -n 4 openai_server/test_openai_server.py::test_openai_client

واجهة برمجة تطبيقات العميل (Client API)

واجهة برمجة تطبيقات عميل Gradio.
واجهة برمجة تطبيقات عميل متوافقة مع OpenAI.
مكتبة عميل Python.

البنية التقنية

حزمة التقنيات الأساسية

النماذج الأساسية: LLaMa2، Mistral، Falcon، إلخ.
تقنيات التضمين: instructor-large، all-MiniLM-L6-v2.
قواعد البيانات المتجهية: Chroma، Weaviate، FAISS.
إطار عمل واجهة المستخدم: Gradio.
تقنيات الواجهة الخلفية: Python، PyTorch، Transformers.

سير عمل معالجة البيانات

استيعاب المستندات: استخدام تقنية التعرف الضوئي على الحروف المتقدمة (DocTR).
تجزئة المستندات: تقنية التجزئة الدلالية.
التحويل إلى متجهات: استخدام نماذج تضمين دقيقة.
تعزيز الاسترجاع: تقنية HYDE لتعزيز الاسترجاع.
توليد الإجابات: إجابات ذكية تعتمد على السياق.

التطبيقات التجارية

حلول على مستوى المؤسسات

يوفر h2oGPT حلول ذكاء اصطناعي توليدي على مستوى المؤسسات، وتشمل الميزات الرئيسية:

خاص بالكامل: نشر خاص بنسبة 100%، لا تخرج البيانات من المؤسسة.
قابلية التوسع: يدعم النشر على نطاق واسع.
الأمان: ضمان أمان على مستوى المؤسسات.
التخصيص: يدعم الضبط الدقيق للنماذج والتخصيص.

سيناريوهات التطبيق

نظام الإجابة على أسئلة المستندات: الإجابة على أسئلة قاعدة المعرفة الداخلية للمؤسسة.
مساعدة في الكود: توليد الكود ومراجعته.
تحليل البيانات: معالجة وتحليل بيانات CSV.
معالجة الوسائط المتعددة: معالجة الصور، الفيديو، الصوت.
خدمة العملاء: نظام خدمة عملاء ذكي.

نظام H2O.ai البيئي

h2oGPT هو جزء من منصة الذكاء الاصطناعي المتكاملة لـ H2O.ai، والتي توفر أيضًا:

H2O-3: منصة تعلم آلة مفتوحة المصدر.
H2O Driverless AI: منصة AutoML الرائدة عالميًا.
H2O Hydrogen Torch: منصة تعلم عميق بدون كود.
Document AI: منصة تعلم عميق لمعالجة المستندات.
H2O MLOps: منصة نشر ومراقبة النماذج.
H2O Feature Store: منصة تخزين الميزات.

ملخص

h2oGPT هو حل GPT خاص ومفتوح المصدر قوي الميزات، ومناسب بشكل خاص للمؤسسات والمستخدمين الأفراد الذين يحتاجون إلى تحكم كامل في خصوصية البيانات. لا يوفر هذا الحل وظائف مشابهة لخدمات GPT التجارية فحسب، بل يضيف أيضًا ميزات مثل معالجة المستندات، ودعم الوسائط المتعددة، والأمان على مستوى المؤسسات، مما يجعله خيارًا مثاليًا لبناء تطبيقات الذكاء الاصطناعي الخاصة.