Home
Login

專為大語言模型微調數據集創建而設計的強大工具,支援智慧文檔處理、問題生成和多格式導出

NOASSERTIONJavaScript 9.1kConardLieasy-dataset Last Updated: 2025-07-02

Easy Dataset - 大語言模型微調數據集創建工具

項目概述

Easy Dataset 是一款專為大語言模型(LLM)微調數據集創建而設計的專業工具。它提供了直觀的介面,用於上傳特定領域的文件、智能分割內容、生成問題,並產生高品質的訓練數據,使模型微調過程變得簡單高效。

通過 Easy Dataset,你可以將你的領域知識轉換為結構化數據集,兼容所有 OpenAI 格式的 LLM API,讓微調過程變得更加便捷和高效。

核心特性

🧠 智能文檔處理

  • 支持上傳 Markdown 文件並自動分割成有意義的片段
  • 智能識別文檔結構和內容層次

❓ 智能問題生成

  • 從每個文本片段中自動提取相關問題
  • 支持批量問題生成,提高處理效率

💬 答案生成

  • 使用 LLM API 為每個問題生成全面的答案
  • 支持自定義系統提示詞來指導模型響應

✏️ 靈活編輯

  • 在處理過程的任何階段都可以編輯問題、答案和數據集
  • 提供直觀的用戶介面進行內容管理

📤 多格式導出

  • 支持多種數據集格式(Alpaca、ShareGPT)
  • 支持多種文件類型(JSON、JSONL)

🔧 廣泛模型支持

  • 兼容所有遵循 OpenAI 格式的 LLM API
  • 支持 Ollama 本地模型部署

👥 用戶友好介面

  • 為技術和非技術用戶設計的直觀 UI
  • 完整的中英文國際化支持

技術架構

技術棧

  • 前端框架: Next.js 14.1.0
  • UI 庫: React 18.2.0
  • 組件庫: Material UI 5.15.7
  • 數據庫: 本地文件數據庫
  • 許可證: Apache License 2.0

項目結構

easy-dataset/
├── app/                    # Next.js 應用目錄
│   ├── api/               # API 路由
│   │   ├── llm/          # LLM API 集成
│   │   │   ├── ollama/   # Ollama API 集成
│   │   │   └── openai/   # OpenAI API 集成
│   │   └── projects/     # 項目管理 API
│   │       └── [projectId]/
│   │           ├── chunks/     # 文本塊操作
│   │           ├── datasets/   # 數據集生成和管理
│   │           ├── questions/  # 問題管理
│   │           └── split/      # 文本分割操作
│   └── projects/          # 前端項目頁面
│       └── [projectId]/
│           ├── datasets/   # 數據集管理介面
│           ├── questions/  # 問題管理介面
│           ├── settings/   # 項目設置介面
│           └── text-split/ # 文本處理介面
├── components/            # React 組件
│   ├── datasets/         # 數據集相關組件
│   ├── home/            # 首頁組件
│   ├── projects/        # 項目管理組件
│   ├── questions/       # 問題管理組件
│   └── text-split/      # 文本處理組件
├── lib/                  # 核心庫和工具
│   ├── db/              # 數據庫操作
│   ├── i18n/            # 國際化
│   ├── llm/             # LLM 集成
│   │   ├── common/      # LLM 通用工具
│   │   ├── core/        # 核心 LLM 客戶端
│   │   └── prompts/     # 提示詞模板
│   └── text-splitter/   # 文本分割工具
├── locales/             # 國際化資源
│   ├── en/             # 英文翻譯
│   └── zh-CN/          # 中文翻譯
└── local-db/           # 本地文件數據庫
    └── projects/       # 項目數據存儲

安裝與部署

系統要求

  • Node.js 18.x 或更高版本
  • pnpm(推薦)或 npm

本地開發

  1. 克隆倉庫:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 安裝依賴:
npm install
  1. 啟動開發伺服器:
npm run build
npm run start

Docker 部署

  1. 克隆倉庫:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. 構建 Docker 鏡像:
docker build -t easy-dataset .
  1. 運行容器:
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

注意:將 {YOUR_LOCAL_DB_PATH} 替換為你想要存儲本地數據庫的實際路徑。

  1. 訪問應用: 打開瀏覽器並導航到 http://localhost:1717

桌面應用下載

Windows MacOS Linux
Setup.exe Intel / M AppImage

使用流程

1. 創建項目

  • 在首頁點擊"創建項目"按鈕
  • 輸入項目名稱和描述
  • 配置你偏好的 LLM API 設置

2. 上傳和分割文本

  • 在"文本分割"部分上傳你的 Markdown 文件
  • 查看自動分割的文本片段
  • 根據需要調整分割結果

3. 生成問題

  • 導航到"問題"部分
  • 選擇要生成問題的文本片段
  • 查看和編輯生成的問題
  • 使用標籤樹組織問題

4. 生成數據集

  • 轉到"數據集"部分
  • 選擇要包含在數據集中的問題
  • 使用配置的 LLM 生成答案
  • 查看和編輯生成的答案

5. 導出數據集

  • 在數據集部分點擊"導出"按鈕
  • 選擇你偏好的格式(Alpaca 或 ShareGPT)
  • 選擇文件格式(JSON 或 JSONL)
  • 如需要可添加自定義系統提示詞
  • 導出你的數據集

特色功能

智能提示詞系統

項目內置了針對不同語言的專業提示詞模板:

  • 中文問題生成提示詞
  • 英文問題生成提示詞
  • 中文答案生成提示詞
  • 英文答案生成提示詞

多 LLM 支持

  • 支持 OpenAI API
  • 支持 Ollama 本地部署
  • 兼容所有 OpenAI 格式的 API

靈活的數據格式

  • Alpaca 格式:適用於指令微調
  • ShareGPT 格式:適用於對話訓練
  • JSON/JSONL 輸出格式選擇

Star History Chart