ConardLi/easy-datasetPlease refer to the latest official releases for information GitHub Homepage

Uma ferramenta poderosa projetada especificamente para a criação de conjuntos de dados de ajuste fino para grandes modelos de linguagem, com suporte para processamento inteligente de documentos, geração de perguntas e exportação em vários formatos.

NOASSERTIONJavaScript 9.1kConardLieasy-dataset Last Updated: 2025-07-02

Easy Dataset - Ferramenta de Criação de Conjuntos de Dados para Ajuste Fino de Modelos de Linguagem Grandes

Visão Geral do Projeto

Easy Dataset é uma ferramenta profissional projetada especificamente para a criação de conjuntos de dados para ajuste fino de modelos de linguagem grandes (LLM). Ela oferece uma interface intuitiva para carregar arquivos de domínio específico, segmentar o conteúdo de forma inteligente, gerar perguntas e produzir dados de treinamento de alta qualidade, tornando o processo de ajuste fino do modelo simples e eficiente.

Com o Easy Dataset, você pode transformar seu conhecimento de domínio em conjuntos de dados estruturados, compatíveis com todos os formatos de API LLM da OpenAI, tornando o processo de ajuste fino mais conveniente e eficiente.

Principais Características

🧠 Processamento Inteligente de Documentos

Suporte para carregar arquivos Markdown e dividi-los automaticamente em segmentos significativos
Reconhecimento inteligente da estrutura do documento e níveis de conteúdo

❓ Geração Inteligente de Perguntas

Extração automática de perguntas relevantes de cada segmento de texto
Suporte para geração de perguntas em lote, aumentando a eficiência do processamento

💬 Geração de Respostas

Uso da API LLM para gerar respostas abrangentes para cada pergunta
Suporte para prompts de sistema personalizados para orientar a resposta do modelo

✏️ Edição Flexível

Edite perguntas, respostas e conjuntos de dados em qualquer fase do processo
Fornece uma interface de usuário intuitiva para gerenciamento de conteúdo

📤 Exportação em Vários Formatos

Suporte para vários formatos de conjunto de dados (Alpaca, ShareGPT)
Suporte para vários tipos de arquivo (JSON, JSONL)

🔧 Amplo Suporte a Modelos

Compatível com todas as APIs LLM que seguem o formato OpenAI
Suporte para implantação de modelos locais Ollama

👥 Interface Amigável

UI intuitiva projetada para usuários técnicos e não técnicos
Suporte completo para internacionalização em inglês e chinês

Arquitetura Técnica

Stack de Tecnologia

Framework Front-end: Next.js 14.1.0
Biblioteca de UI: React 18.2.0
Biblioteca de Componentes: Material UI 5.15.7
Banco de Dados: Banco de dados de arquivos local
Licença: Apache License 2.0

Estrutura do Projeto

easy-dataset/
├── app/                    # Diretório de aplicação Next.js
│   ├── api/               # Rotas de API
│   │   ├── llm/          # Integração da API LLM
│   │   │   ├── ollama/   # Integração da API Ollama
│   │   │   └── openai/   # Integração da API OpenAI
│   │   └── projects/     # API de gerenciamento de projetos
│   │       └── [projectId]/
│   │           ├── chunks/     # Operações de bloco de texto
│   │           ├── datasets/   # Geração e gerenciamento de conjuntos de dados
│   │           ├── questions/  # Gerenciamento de perguntas
│   │           └── split/      # Operações de divisão de texto
│   └── projects/          # Páginas de projeto front-end
│       └── [projectId]/
│           ├── datasets/   # Interface de gerenciamento de conjuntos de dados
│           ├── questions/  # Interface de gerenciamento de perguntas
│           ├── settings/   # Interface de configurações do projeto
│           └── text-split/ # Interface de processamento de texto
├── components/            # Componentes React
│   ├── datasets/         # Componentes relacionados ao conjunto de dados
│   ├── home/            # Componente da página inicial
│   ├── projects/        # Componentes de gerenciamento de projetos
│   ├── questions/       # Componentes de gerenciamento de perguntas
│   └── text-split/      # Componentes de processamento de texto
├── lib/                  # Biblioteca principal e ferramentas
│   ├── db/              # Operações de banco de dados
│   ├── i18n/            # Internacionalização
│   ├── llm/             # Integração LLM
│   │   ├── common/      # Ferramentas comuns LLM
│   │   ├── core/        # Cliente LLM principal
│   │   └── prompts/     # Modelos de prompt
│   └── text-splitter/   # Ferramenta de divisão de texto
├── locales/             # Recursos de internacionalização
│   ├── en/             # Tradução para inglês
│   └── zh-CN/          # Tradução para chinês
└── local-db/           # Banco de dados de arquivos local
    └── projects/       # Armazenamento de dados do projeto

Instalação e Implantação

Requisitos do Sistema

Node.js 18.x ou superior
pnpm (recomendado) ou npm

Desenvolvimento Local

Clone o Repositório:

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

Instale as Dependências:

npm install

Inicie o Servidor de Desenvolvimento:

npm run build
npm run start

Implantação com Docker

Clone o Repositório:

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

Construa a Imagem Docker:

docker build -t easy-dataset .

Execute o Contêiner:

docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

Nota: Substitua {YOUR_LOCAL_DB_PATH} pelo caminho real onde você deseja armazenar o banco de dados local.

Acesse a Aplicação: Abra o navegador e navegue para http://localhost:1717

Download da Aplicação Desktop

Windows	MacOS	Linux
Setup.exe	Intel / M	AppImage

Fluxo de Uso

1. Crie um Projeto

Clique no botão "Criar Projeto" na página inicial
Insira o nome e a descrição do projeto
Configure suas configurações de API LLM preferidas

2. Carregue e Divida o Texto

Na seção "Divisão de Texto", carregue seu arquivo Markdown
Visualize os segmentos de texto divididos automaticamente
Ajuste os resultados da divisão conforme necessário

3. Gere Perguntas

Navegue até a seção "Perguntas"
Selecione os segmentos de texto para os quais deseja gerar perguntas
Visualize e edite as perguntas geradas
Use a árvore de tags para organizar as perguntas

4. Gere o Conjunto de Dados

Vá para a seção "Conjunto de Dados"
Selecione as perguntas que deseja incluir no conjunto de dados
Use o LLM configurado para gerar respostas
Visualize e edite as respostas geradas

5. Exporte o Conjunto de Dados

Na seção do conjunto de dados, clique no botão "Exportar"
Selecione seu formato preferido (Alpaca ou ShareGPT)
Selecione o formato do arquivo (JSON ou JSONL)
Adicione prompts de sistema personalizados, se necessário
Exporte seu conjunto de dados

Funcionalidades Especiais

Sistema Inteligente de Prompts

O projeto possui modelos de prompt profissionais integrados para diferentes idiomas:

Prompt para geração de perguntas em chinês
Prompt para geração de perguntas em inglês
Prompt para geração de respostas em chinês
Prompt para geração de respostas em inglês

Suporte a Múltiplos LLMs

Suporte para API OpenAI
Suporte para implantação local Ollama
Compatível com todas as APIs no formato OpenAI

Formatos de Dados Flexíveis

Formato Alpaca: Adequado para ajuste fino de instruções
Formato ShareGPT: Adequado para treinamento de conversação
Opção de formato de saída JSON/JSONL