Uma ferramenta de processamento de dados com IA sem código que permite construir, enriquecer e transformar conjuntos de dados usando modelos de IA.
AI Sheets - Ferramenta de Processamento de Dados de IA Sem Código
Visão Geral do Projeto
AI Sheets é uma ferramenta sem código de código aberto da Hugging Face, projetada especificamente para construir, enriquecer e transformar conjuntos de dados usando modelos de IA. A ferramenta pode ser implantada localmente ou executada no Hub, suportando o acesso a milhares de modelos de código aberto no Hugging Face Hub.
Endereço do Projeto: https://github.com/huggingface/aisheets
Experimente Online: https://huggingface.co/spaces/aisheets/sheets
Principais Recursos
1. Interface Amigável ao Usuário
- Interface de usuário fácil de aprender, semelhante a uma planilha eletrônica
- Suporta experimentação rápida, começando com pequenos conjuntos de dados e depois executando pipelines de geração de dados em larga escala
- Crie novas colunas escrevendo prompts, com iterações e edições de células ilimitadas
2. Poderosa Integração de IA
- Suporta o uso de milhares de modelos de código aberto no Hugging Face Hub
- Suporta inferência via Inference Providers API ou modelos locais
- Suporta modelos gpt-oss da OpenAI
- Suporta endpoints LLM personalizados (devem estar em conformidade com a especificação da API da OpenAI)
3. Diversas Operações de Dados
- Teste de Comparação de Modelos: Teste o desempenho de diferentes modelos nos mesmos dados
- Otimização de Prompts: Melhore os prompts para dados e modelos específicos
- Transformação de Dados: Limpe e transforme colunas de conjuntos de dados
- Classificação de Dados: Classifique automaticamente o conteúdo
- Análise de Dados: Extraia informações-chave do texto
- Enriquecimento de Dados: Complemente informações ausentes (como códigos postais para endereços)
- Geração de Dados Sintéticos: Crie conjuntos de dados realistas, mas fictícios
Arquitetura Técnica
Pilha de Tecnologia Frontend
- Framework: Qwik + QwikCity
- Ferramenta de Build: Vite
- Gerenciamento de Pacotes: pnpm
Estrutura de Diretórios
├── public/ # Recursos estáticos
└── src/
├── components/ # Componentes sem estado
├── features/ # Componentes de lógica de negócios
└── routes/ # Arquivos de rota
Serviço de Backend
- Servidor: Express.js
- Autenticação: Hugging Face OAuth
- API: Compatível com a especificação da API da OpenAI
Instalação e Implantação
Implantação com Docker (Recomendado)
# Obtenha o token do Hugging Face
export HF_TOKEN=your_token_here
# Execute o contêiner Docker
docker run -p 3000:3000 \
-e HF_TOKEN=HF_TOKEN \
AI Sheets/sheets
# Acesse http://localhost:3000
Desenvolvimento Local
# Instale o pnpm
# Clone o projeto
git clone https://github.com/huggingface/aisheets.git
cd aisheets
# Configure as variáveis de ambiente
export HF_TOKEN=your_token_here
# Instale as dependências
pnpm install
# Inicie o servidor de desenvolvimento
pnpm dev
# Acesse http://localhost:5173
Build de Produção
# Construa a versão de produção
pnpm build
# Inicie o servidor de produção
export HF_TOKEN=your_token_here
pnpm serve
Configuração de Variáveis de Ambiente
Configuração Essencial
HF_TOKEN
: Token de autenticação do Hugging FaceOAUTH_CLIENT_ID
: ID do cliente OAuth do Hugging FaceOAUTH_SCOPES
: Escopos de autenticação OAuth (padrão:openid profile inference-api manage-repos
)
Configuração de Modelo
DEFAULT_MODEL
: Modelo de geração de texto padrão (padrão:meta-llama/Llama-3.3-70B-Instruct
)DEFAULT_MODEL_PROVIDER
: Provedor de modelo padrão (padrão:nebius
)MODEL_ENDPOINT_URL
: URL do endpoint de inferência personalizadoMODEL_ENDPOINT_NAME
: Nome do modelo correspondente ao endpoint personalizado
Configuração do Sistema
DATA_DIR
: Diretório de armazenamento de dados (padrão:./data
)NUM_CONCURRENT_REQUESTS
: Número de requisições concorrentes (padrão: 5, máximo: 10)SERPER_API_KEY
: Chave da API de pesquisa na web SerperTELEMETRY_ENABLED
: Chave de ativação da função de telemetria (padrão: 1)
Métodos de Uso
1. Métodos de Importação de Dados
Criar Conjunto de Dados do Zero
- Adequado para: familiarização com a ferramenta, brainstorming, experimentação rápida
- Descreva o conjunto de dados desejado, e a IA gerará automaticamente a estrutura e o conteúdo
- Exemplo:
"Cidades ao redor do mundo, incluindo o país de origem e imagens de marcos de cada cidade, geradas no estilo Ghibli"
Importar Conjunto de Dados Existente (Recomendado)
- Formatos suportados: XLS, TSV, CSV, Parquet
- Máximo de 1000 linhas, número ilimitado de colunas
- Adequado para a maioria dos cenários de processamento de dados do mundo real
2. Operações de Processamento de Dados
Adicionar Coluna de IA
Clique no botão "+" para adicionar uma nova coluna, com opções para:
- Extrair informações específicas
- Resumir textos longos
- Traduzir conteúdo
- Prompt personalizado:
"Execute alguma operação em {{column}}"
Otimizar e Expandir
- Adicionar mais células: Arraste para baixo para gerar automaticamente
- Edição manual: Edite diretamente o conteúdo da célula como exemplo
- Mecanismo de feedback: Use "curtir" para marcar boas saídas
- Ajuste de configuração: Modifique o prompt, alterne o modelo ou o provedor
3. Exportar e Estender
- Exporte para o Hugging Face Hub
- Gere arquivos de configuração reutilizáveis
- Suporta geração de dados em lote com HF Jobs
Integração com Ollama
# Inicie o servidor Ollama
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3
# Configure as variáveis de ambiente
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3
# Inicie o AI Sheets
pnpm serve
Exemplos de Casos de Uso
Teste de Comparação de Modelos
- Importe um conjunto de dados contendo perguntas
- Crie colunas diferentes para modelos diferentes
- Use um LLM como avaliador para comparar a qualidade dos modelos
Classificação de Conjunto de Dados
- Importe um conjunto de dados existente do Hub
- Adicione colunas de classificação para categorizar o conteúdo
- Valide e edite manualmente os resultados da classificação inicial
Comparação de Geração de Imagens
- Crie um conjunto de dados de nomes e descrições de objetos
- Use diferentes modelos de geração de imagens
- Compare os efeitos de diferentes estilos e prompts
Vantagens do Projeto
- Operação Sem Código: Processe dados complexos sem conhecimento de programação
- Código Aberto e Gratuito: Totalmente de código aberto, suporta implantação local
- Modelos Abundantes: Acesso ao ecossistema Hugging Face
- Interface Amigável: Experiência de operação familiar, semelhante ao Excel
- Extensão Flexível: Suporta modelos e endpoints de API personalizados
- Feedback em Tempo Real: Melhore a saída da IA através de edições e "curtidas"
- Processamento em Lote: Suporta pipelines de geração de dados em larga escala
Comunidade e Suporte
- Repositório GitHub: https://github.com/huggingface/aisheets
- Comunidade Online: https://huggingface.co/spaces/aisheets/sheets/discussions
- Feedback de Problemas: Envie via GitHub Issues
- Documentação Técnica: Guias detalhados de configuração de ambiente e integração de API
AI Sheets oferece uma ferramenta poderosa e fácil de usar para cientistas de dados, pesquisadores e desenvolvedores, tornando o processamento de dados de IA simples e eficiente. Seja para teste de modelos, limpeza de dados ou geração de dados sintéticos, tudo pode ser rapidamente concluído através de uma interface intuitiva.