Uma ferramenta poderosa projetada especificamente para a criação de conjuntos de dados de ajuste fino para grandes modelos de linguagem, com suporte para processamento inteligente de documentos, geração de perguntas e exportação em vários formatos.
Easy Dataset - Ferramenta de Criação de Conjuntos de Dados para Ajuste Fino de Modelos de Linguagem Grandes
Visão Geral do Projeto
Easy Dataset é uma ferramenta profissional projetada especificamente para a criação de conjuntos de dados para ajuste fino de modelos de linguagem grandes (LLM). Ela oferece uma interface intuitiva para carregar arquivos de domínio específico, segmentar o conteúdo de forma inteligente, gerar perguntas e produzir dados de treinamento de alta qualidade, tornando o processo de ajuste fino do modelo simples e eficiente.
Com o Easy Dataset, você pode transformar seu conhecimento de domínio em conjuntos de dados estruturados, compatíveis com todos os formatos de API LLM da OpenAI, tornando o processo de ajuste fino mais conveniente e eficiente.
Principais Características
🧠 Processamento Inteligente de Documentos
- Suporte para carregar arquivos Markdown e dividi-los automaticamente em segmentos significativos
- Reconhecimento inteligente da estrutura do documento e níveis de conteúdo
❓ Geração Inteligente de Perguntas
- Extração automática de perguntas relevantes de cada segmento de texto
- Suporte para geração de perguntas em lote, aumentando a eficiência do processamento
💬 Geração de Respostas
- Uso da API LLM para gerar respostas abrangentes para cada pergunta
- Suporte para prompts de sistema personalizados para orientar a resposta do modelo
✏️ Edição Flexível
- Edite perguntas, respostas e conjuntos de dados em qualquer fase do processo
- Fornece uma interface de usuário intuitiva para gerenciamento de conteúdo
📤 Exportação em Vários Formatos
- Suporte para vários formatos de conjunto de dados (Alpaca, ShareGPT)
- Suporte para vários tipos de arquivo (JSON, JSONL)
🔧 Amplo Suporte a Modelos
- Compatível com todas as APIs LLM que seguem o formato OpenAI
- Suporte para implantação de modelos locais Ollama
👥 Interface Amigável
- UI intuitiva projetada para usuários técnicos e não técnicos
- Suporte completo para internacionalização em inglês e chinês
Arquitetura Técnica
Stack de Tecnologia
- Framework Front-end: Next.js 14.1.0
- Biblioteca de UI: React 18.2.0
- Biblioteca de Componentes: Material UI 5.15.7
- Banco de Dados: Banco de dados de arquivos local
- Licença: Apache License 2.0
Estrutura do Projeto
easy-dataset/
├── app/ # Diretório de aplicação Next.js
│ ├── api/ # Rotas de API
│ │ ├── llm/ # Integração da API LLM
│ │ │ ├── ollama/ # Integração da API Ollama
│ │ │ └── openai/ # Integração da API OpenAI
│ │ └── projects/ # API de gerenciamento de projetos
│ │ └── [projectId]/
│ │ ├── chunks/ # Operações de bloco de texto
│ │ ├── datasets/ # Geração e gerenciamento de conjuntos de dados
│ │ ├── questions/ # Gerenciamento de perguntas
│ │ └── split/ # Operações de divisão de texto
│ └── projects/ # Páginas de projeto front-end
│ └── [projectId]/
│ ├── datasets/ # Interface de gerenciamento de conjuntos de dados
│ ├── questions/ # Interface de gerenciamento de perguntas
│ ├── settings/ # Interface de configurações do projeto
│ └── text-split/ # Interface de processamento de texto
├── components/ # Componentes React
│ ├── datasets/ # Componentes relacionados ao conjunto de dados
│ ├── home/ # Componente da página inicial
│ ├── projects/ # Componentes de gerenciamento de projetos
│ ├── questions/ # Componentes de gerenciamento de perguntas
│ └── text-split/ # Componentes de processamento de texto
├── lib/ # Biblioteca principal e ferramentas
│ ├── db/ # Operações de banco de dados
│ ├── i18n/ # Internacionalização
│ ├── llm/ # Integração LLM
│ │ ├── common/ # Ferramentas comuns LLM
│ │ ├── core/ # Cliente LLM principal
│ │ └── prompts/ # Modelos de prompt
│ └── text-splitter/ # Ferramenta de divisão de texto
├── locales/ # Recursos de internacionalização
│ ├── en/ # Tradução para inglês
│ └── zh-CN/ # Tradução para chinês
└── local-db/ # Banco de dados de arquivos local
└── projects/ # Armazenamento de dados do projeto
Instalação e Implantação
Requisitos do Sistema
- Node.js 18.x ou superior
- pnpm (recomendado) ou npm
Desenvolvimento Local
- Clone o Repositório:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- Instale as Dependências:
npm install
- Inicie o Servidor de Desenvolvimento:
npm run build
npm run start
Implantação com Docker
- Clone o Repositório:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- Construa a Imagem Docker:
docker build -t easy-dataset .
- Execute o Contêiner:
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
Nota: Substitua
{YOUR_LOCAL_DB_PATH}
pelo caminho real onde você deseja armazenar o banco de dados local.
- Acesse a Aplicação:
Abra o navegador e navegue para
http://localhost:1717
Download da Aplicação Desktop
Windows | MacOS | Linux |
---|---|---|
Setup.exe | Intel / M | AppImage |
Fluxo de Uso
1. Crie um Projeto
- Clique no botão "Criar Projeto" na página inicial
- Insira o nome e a descrição do projeto
- Configure suas configurações de API LLM preferidas
2. Carregue e Divida o Texto
- Na seção "Divisão de Texto", carregue seu arquivo Markdown
- Visualize os segmentos de texto divididos automaticamente
- Ajuste os resultados da divisão conforme necessário
3. Gere Perguntas
- Navegue até a seção "Perguntas"
- Selecione os segmentos de texto para os quais deseja gerar perguntas
- Visualize e edite as perguntas geradas
- Use a árvore de tags para organizar as perguntas
4. Gere o Conjunto de Dados
- Vá para a seção "Conjunto de Dados"
- Selecione as perguntas que deseja incluir no conjunto de dados
- Use o LLM configurado para gerar respostas
- Visualize e edite as respostas geradas
5. Exporte o Conjunto de Dados
- Na seção do conjunto de dados, clique no botão "Exportar"
- Selecione seu formato preferido (Alpaca ou ShareGPT)
- Selecione o formato do arquivo (JSON ou JSONL)
- Adicione prompts de sistema personalizados, se necessário
- Exporte seu conjunto de dados
Funcionalidades Especiais
Sistema Inteligente de Prompts
O projeto possui modelos de prompt profissionais integrados para diferentes idiomas:
- Prompt para geração de perguntas em chinês
- Prompt para geração de perguntas em inglês
- Prompt para geração de respostas em chinês
- Prompt para geração de respostas em inglês
Suporte a Múltiplos LLMs
- Suporte para API OpenAI
- Suporte para implantação local Ollama
- Compatível com todas as APIs no formato OpenAI
Formatos de Dados Flexíveis
- Formato Alpaca: Adequado para ajuste fino de instruções
- Formato ShareGPT: Adequado para treinamento de conversação
- Opção de formato de saída JSON/JSONL