ConardLi/easy-datasetPlease refer to the latest official releases for information GitHub Homepage
أداة قوية مصممة خصيصًا لإنشاء مجموعات بيانات الضبط الدقيق للنماذج اللغوية الكبيرة، تدعم معالجة المستندات الذكية وتوليد الأسئلة والتصدير بتنسيقات متعددة.
NOASSERTIONJavaScript 9.1kConardLieasy-dataset Last Updated: 2025-07-02
مجموعة البيانات السهلة - أداة إنشاء مجموعات بيانات الضبط الدقيق للنماذج اللغوية الكبيرة
نظرة عامة على المشروع
Easy Dataset هي أداة احترافية مصممة خصيصًا لإنشاء مجموعات بيانات الضبط الدقيق للنماذج اللغوية الكبيرة (LLM). توفر واجهة سهلة الاستخدام لتحميل ملفات خاصة بمجال معين، وتقسيم المحتوى بذكاء، وإنشاء أسئلة، وإنتاج بيانات تدريب عالية الجودة، مما يجعل عملية الضبط الدقيق للنموذج بسيطة وفعالة.
باستخدام Easy Dataset، يمكنك تحويل معرفتك بالمجال إلى مجموعة بيانات منظمة، متوافقة مع جميع تنسيقات LLM API الخاصة بـ OpenAI، مما يجعل عملية الضبط الدقيق أكثر ملاءمة وكفاءة.
الميزات الأساسية
🧠 معالجة المستندات الذكية
- يدعم تحميل ملفات Markdown وتقسيمها تلقائيًا إلى أجزاء ذات معنى
- التعرف الذكي على هيكل المستند ومستويات المحتوى
❓ إنشاء الأسئلة الذكي
- استخراج الأسئلة ذات الصلة تلقائيًا من كل جزء نصي
- يدعم إنشاء الأسئلة على دفعات، مما يحسن كفاءة المعالجة
💬 إنشاء الإجابات
- استخدام LLM API لإنشاء إجابات شاملة لكل سؤال
- يدعم مطالبات النظام المخصصة لتوجيه استجابة النموذج
✏️ تحرير مرن
- يمكن تحرير الأسئلة والإجابات ومجموعات البيانات في أي مرحلة من مراحل المعالجة
- يوفر واجهة مستخدم سهلة الاستخدام لإدارة المحتوى
📤 تصدير بتنسيقات متعددة
- يدعم تنسيقات مجموعات البيانات المتعددة (Alpaca، ShareGPT)
- يدعم أنواع ملفات متعددة (JSON، JSONL)
🔧 دعم واسع للنماذج
- متوافق مع جميع LLM API التي تتبع تنسيق OpenAI
- يدعم نشر نماذج Ollama المحلية
👥 واجهة سهلة الاستخدام
- واجهة مستخدم سهلة الاستخدام مصممة للمستخدمين التقنيين وغير التقنيين
- دعم كامل للتدويل باللغتين الصينية والإنجليزية
الهيكل التقني
المكدس التقني
- إطار عمل الواجهة الأمامية: Next.js 14.1.0
- مكتبة واجهة المستخدم: React 18.2.0
- مكتبة المكونات: Material UI 5.15.7
- قاعدة البيانات: قاعدة بيانات الملفات المحلية
- الترخيص: Apache License 2.0
هيكل المشروع
easy-dataset/
├── app/ # دليل تطبيق Next.js
│ ├── api/ # مسارات API
│ │ ├── llm/ # تكامل LLM API
│ │ │ ├── ollama/ # تكامل Ollama API
│ │ │ └── openai/ # تكامل OpenAI API
│ │ └── projects/ # API إدارة المشاريع
│ │ └── [projectId]/
│ │ ├── chunks/ # عمليات على أجزاء النص
│ │ ├── datasets/ # إنشاء وإدارة مجموعات البيانات
│ │ ├── questions/ # إدارة الأسئلة
│ │ └── split/ # عمليات تقسيم النص
│ └── projects/ # صفحات مشروع الواجهة الأمامية
│ └── [projectId]/
│ ├── datasets/ # واجهة إدارة مجموعات البيانات
│ ├── questions/ # واجهة إدارة الأسئلة
│ ├── settings/ # واجهة إعدادات المشروع
│ └── text-split/ # واجهة معالجة النص
├── components/ # مكونات React
│ ├── datasets/ # مكونات ذات صلة بمجموعات البيانات
│ ├── home/ # مكون الصفحة الرئيسية
│ ├── projects/ # مكونات إدارة المشاريع
│ ├── questions/ # مكونات إدارة الأسئلة
│ └── text-split/ # مكونات معالجة النص
├── lib/ # المكتبة الأساسية والأدوات
│ ├── db/ # عمليات قاعدة البيانات
│ ├── i18n/ # التدويل
│ ├── llm/ # تكامل LLM
│ │ ├── common/ # أدوات LLM العامة
│ │ ├── core/ # عميل LLM الأساسي
│ │ └── prompts/ # قوالب المطالبات
│ └── text-splitter/ # أداة تقسيم النص
├── locales/ # موارد التدويل
│ ├── en/ # ترجمة إنجليزية
│ └── zh-CN/ # ترجمة صينية
└── local-db/ # قاعدة بيانات الملفات المحلية
└── projects/ # تخزين بيانات المشروع
التثبيت والنشر
متطلبات النظام
- Node.js 18.x أو إصدار أحدث
- pnpm (موصى به) أو npm
التطوير المحلي
- استنساخ المستودع:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- تثبيت التبعيات:
npm install
- تشغيل خادم التطوير:
npm run build
npm run start
نشر Docker
- استنساخ المستودع:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- بناء صورة Docker:
docker build -t easy-dataset .
- تشغيل الحاوية:
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
ملاحظة: استبدل
{YOUR_LOCAL_DB_PATH}
بالمسار الفعلي الذي تريد تخزين قاعدة البيانات المحلية فيه.
- الوصول إلى التطبيق:
افتح المتصفح وانتقل إلى
http://localhost:1717
تنزيل تطبيق سطح المكتب
Windows | MacOS | Linux |
---|---|---|
Setup.exe | Intel / M | AppImage |
سير العمل
1. إنشاء مشروع
- انقر فوق الزر "إنشاء مشروع" في الصفحة الرئيسية
- أدخل اسم المشروع ووصفه
- قم بتكوين إعدادات LLM API المفضلة لديك
2. تحميل وتقسيم النص
- قم بتحميل ملف Markdown الخاص بك في قسم "تقسيم النص"
- عرض أجزاء النص المقسمة تلقائيًا
- اضبط نتائج التقسيم حسب الحاجة
3. إنشاء الأسئلة
- انتقل إلى قسم "الأسئلة"
- حدد أجزاء النص التي تريد إنشاء أسئلة لها
- عرض وتحرير الأسئلة التي تم إنشاؤها
- استخدم شجرة العلامات لتنظيم الأسئلة
4. إنشاء مجموعة البيانات
- انتقل إلى قسم "مجموعة البيانات"
- حدد الأسئلة التي تريد تضمينها في مجموعة البيانات
- استخدم LLM الذي تم تكوينه لإنشاء إجابات
- عرض وتحرير الإجابات التي تم إنشاؤها
5. تصدير مجموعة البيانات
- انقر فوق الزر "تصدير" في قسم مجموعة البيانات
- حدد التنسيق المفضل لديك (Alpaca أو ShareGPT)
- حدد تنسيق الملف (JSON أو JSONL)
- أضف مطالبات نظام مخصصة إذا لزم الأمر
- قم بتصدير مجموعة البيانات الخاصة بك
ميزات خاصة
نظام المطالبات الذكي
يحتوي المشروع على قوالب مطالبات احترافية مدمجة للغات مختلفة:
- مطالبة إنشاء الأسئلة باللغة الصينية
- مطالبة إنشاء الأسئلة باللغة الإنجليزية
- مطالبة إنشاء الإجابات باللغة الصينية
- مطالبة إنشاء الإجابات باللغة الإنجليزية
دعم LLM متعدد
- يدعم OpenAI API
- يدعم نشر Ollama المحلي
- متوافق مع جميع واجهات برمجة التطبيقات بتنسيق OpenAI
تنسيقات بيانات مرنة
- تنسيق Alpaca: مناسب للضبط الدقيق للتعليمات
- تنسيق ShareGPT: مناسب لتدريب المحادثة
- اختيار تنسيق الإخراج JSON/JSONL