Home
Login

Uma ferramenta poderosa projetada especificamente para a criação de conjuntos de dados de ajuste fino para grandes modelos de linguagem, com suporte para processamento inteligente de documentos, geração de perguntas e exportação em vários formatos.

NOASSERTIONJavaScript 9.1kConardLieasy-dataset Last Updated: 2025-07-02

Easy Dataset - Ferramenta de Criação de Conjuntos de Dados para Ajuste Fino de Modelos de Linguagem Grandes

Visão Geral do Projeto

Easy Dataset é uma ferramenta profissional projetada especificamente para a criação de conjuntos de dados para ajuste fino de modelos de linguagem grandes (LLM). Ela oferece uma interface intuitiva para carregar arquivos de domínio específico, segmentar o conteúdo de forma inteligente, gerar perguntas e produzir dados de treinamento de alta qualidade, tornando o processo de ajuste fino do modelo simples e eficiente.

Com o Easy Dataset, você pode transformar seu conhecimento de domínio em conjuntos de dados estruturados, compatíveis com todos os formatos de API LLM da OpenAI, tornando o processo de ajuste fino mais conveniente e eficiente.

Principais Características

🧠 Processamento Inteligente de Documentos

  • Suporte para carregar arquivos Markdown e dividi-los automaticamente em segmentos significativos
  • Reconhecimento inteligente da estrutura do documento e níveis de conteúdo

❓ Geração Inteligente de Perguntas

  • Extração automática de perguntas relevantes de cada segmento de texto
  • Suporte para geração de perguntas em lote, aumentando a eficiência do processamento

💬 Geração de Respostas

  • Uso da API LLM para gerar respostas abrangentes para cada pergunta
  • Suporte para prompts de sistema personalizados para orientar a resposta do modelo

✏️ Edição Flexível

  • Edite perguntas, respostas e conjuntos de dados em qualquer fase do processo
  • Fornece uma interface de usuário intuitiva para gerenciamento de conteúdo

📤 Exportação em Vários Formatos

  • Suporte para vários formatos de conjunto de dados (Alpaca, ShareGPT)
  • Suporte para vários tipos de arquivo (JSON, JSONL)

🔧 Amplo Suporte a Modelos

  • Compatível com todas as APIs LLM que seguem o formato OpenAI
  • Suporte para implantação de modelos locais Ollama

👥 Interface Amigável

  • UI intuitiva projetada para usuários técnicos e não técnicos
  • Suporte completo para internacionalização em inglês e chinês

Arquitetura Técnica

Stack de Tecnologia

  • Framework Front-end: Next.js 14.1.0
  • Biblioteca de UI: React 18.2.0
  • Biblioteca de Componentes: Material UI 5.15.7
  • Banco de Dados: Banco de dados de arquivos local
  • Licença: Apache License 2.0

Estrutura do Projeto

easy-dataset/
├── app/                    # Diretório de aplicação Next.js
│   ├── api/               # Rotas de API
│   │   ├── llm/          # Integração da API LLM
│   │   │   ├── ollama/   # Integração da API Ollama
│   │   │   └── openai/   # Integração da API OpenAI
│   │   └── projects/     # API de gerenciamento de projetos
│   │       └── [projectId]/
│   │           ├── chunks/     # Operações de bloco de texto
│   │           ├── datasets/   # Geração e gerenciamento de conjuntos de dados
│   │           ├── questions/  # Gerenciamento de perguntas
│   │           └── split/      # Operações de divisão de texto
│   └── projects/          # Páginas de projeto front-end
│       └── [projectId]/
│           ├── datasets/   # Interface de gerenciamento de conjuntos de dados
│           ├── questions/  # Interface de gerenciamento de perguntas
│           ├── settings/   # Interface de configurações do projeto
│           └── text-split/ # Interface de processamento de texto
├── components/            # Componentes React
│   ├── datasets/         # Componentes relacionados ao conjunto de dados
│   ├── home/            # Componente da página inicial
│   ├── projects/        # Componentes de gerenciamento de projetos
│   ├── questions/       # Componentes de gerenciamento de perguntas
│   └── text-split/      # Componentes de processamento de texto
├── lib/                  # Biblioteca principal e ferramentas
│   ├── db/              # Operações de banco de dados
│   ├── i18n/            # Internacionalização
│   ├── llm/             # Integração LLM
│   │   ├── common/      # Ferramentas comuns LLM
│   │   ├── core/        # Cliente LLM principal
│   │   └── prompts/     # Modelos de prompt
│   └── text-splitter/   # Ferramenta de divisão de texto
├── locales/             # Recursos de internacionalização
│   ├── en/             # Tradução para inglês
│   └── zh-CN/          # Tradução para chinês
└── local-db/           # Banco de dados de arquivos local
    └── projects/       # Armazenamento de dados do projeto

Instalação e Implantação

Requisitos do Sistema

  • Node.js 18.x ou superior
  • pnpm (recomendado) ou npm

Desenvolvimento Local

  1. Clone o Repositório:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. Instale as Dependências:
npm install
  1. Inicie o Servidor de Desenvolvimento:
npm run build
npm run start

Implantação com Docker

  1. Clone o Repositório:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. Construa a Imagem Docker:
docker build -t easy-dataset .
  1. Execute o Contêiner:
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

Nota: Substitua {YOUR_LOCAL_DB_PATH} pelo caminho real onde você deseja armazenar o banco de dados local.

  1. Acesse a Aplicação: Abra o navegador e navegue para http://localhost:1717

Download da Aplicação Desktop

Windows MacOS Linux
Setup.exe Intel / M AppImage

Fluxo de Uso

1. Crie um Projeto

  • Clique no botão "Criar Projeto" na página inicial
  • Insira o nome e a descrição do projeto
  • Configure suas configurações de API LLM preferidas

2. Carregue e Divida o Texto

  • Na seção "Divisão de Texto", carregue seu arquivo Markdown
  • Visualize os segmentos de texto divididos automaticamente
  • Ajuste os resultados da divisão conforme necessário

3. Gere Perguntas

  • Navegue até a seção "Perguntas"
  • Selecione os segmentos de texto para os quais deseja gerar perguntas
  • Visualize e edite as perguntas geradas
  • Use a árvore de tags para organizar as perguntas

4. Gere o Conjunto de Dados

  • Vá para a seção "Conjunto de Dados"
  • Selecione as perguntas que deseja incluir no conjunto de dados
  • Use o LLM configurado para gerar respostas
  • Visualize e edite as respostas geradas

5. Exporte o Conjunto de Dados

  • Na seção do conjunto de dados, clique no botão "Exportar"
  • Selecione seu formato preferido (Alpaca ou ShareGPT)
  • Selecione o formato do arquivo (JSON ou JSONL)
  • Adicione prompts de sistema personalizados, se necessário
  • Exporte seu conjunto de dados

Funcionalidades Especiais

Sistema Inteligente de Prompts

O projeto possui modelos de prompt profissionais integrados para diferentes idiomas:

  • Prompt para geração de perguntas em chinês
  • Prompt para geração de perguntas em inglês
  • Prompt para geração de respostas em chinês
  • Prompt para geração de respostas em inglês

Suporte a Múltiplos LLMs

  • Suporte para API OpenAI
  • Suporte para implantação local Ollama
  • Compatível com todas as APIs no formato OpenAI

Formatos de Dados Flexíveis

  • Formato Alpaca: Adequado para ajuste fino de instruções
  • Formato ShareGPT: Adequado para treinamento de conversação
  • Opção de formato de saída JSON/JSONL

Star History Chart