一个无代码的AI数据处理工具,可使用AI模型构建、丰富和转换数据集

TypeScriptaisheetshuggingface 114 Last Updated: August 08, 2025

AI Sheets - 无代码AI数据处理工具

项目概述

AI Sheets是Hugging Face开源的一款无代码工具,专门用于使用AI模型构建、丰富和转换数据集。该工具可以本地部署或在Hub上运行,支持访问Hugging Face Hub上的数千个开源模型。

项目地址: https://github.com/huggingface/aisheets
在线体验: https://huggingface.co/spaces/aisheets/sheets

核心特性

1. 用户友好的界面

  • 类似电子表格的易学用户界面
  • 支持快速实验,从小数据集开始,再运行大规模数据生成管道
  • 通过编写提示创建新列,可以无限次迭代和编辑单元格

2. 强大的AI集成

  • 支持使用Hugging Face Hub上数千个开源模型
  • 支持通过Inference Providers API或本地模型进行推理
  • 支持OpenAI的gpt-oss模型
  • 支持自定义LLM端点(需符合OpenAI API规范)

3. 多样化的数据操作

  • 模型比较测试: 在同一数据上测试不同模型的表现
  • 提示优化: 为特定数据和模型改进提示词
  • 数据转换: 清理和转换数据集列
  • 数据分类: 对内容进行自动分类
  • 数据分析: 提取文本中的关键信息
  • 数据丰富: 补充缺失信息(如地址的邮政编码)
  • 合成数据生成: 创建现实但虚构的数据集

技术架构

前端技术栈

  • 框架: Qwik + QwikCity
  • 构建工具: Vite
  • 包管理: pnpm

目录结构

├── public/              # 静态资源
└── src/
    ├── components/      # 无状态组件
    ├── features/        # 业务逻辑组件
    └── routes/          # 路由文件

后端服务

  • 服务器: Express.js
  • 认证: Hugging Face OAuth
  • API: 兼容OpenAI API规范

安装与部署

Docker部署(推荐)

# 获取Hugging Face token
export HF_TOKEN=your_token_here

# 运行Docker容器
docker run -p 3000:3000 \
  -e HF_TOKEN=HF_TOKEN \
  AI Sheets/sheets

# 访问 http://localhost:3000

本地开发

# 安装pnpm
# 克隆项目
git clone https://github.com/huggingface/aisheets.git
cd aisheets

# 设置环境变量
export HF_TOKEN=your_token_here

# 安装依赖
pnpm install

# 启动开发服务器
pnpm dev

# 访问 http://localhost:5173

生产构建

# 构建生产版本
pnpm build

# 启动生产服务器
export HF_TOKEN=your_token_here
pnpm serve

环境变量配置

核心配置

  • HF_TOKEN: Hugging Face认证令牌
  • OAUTH_CLIENT_ID: Hugging Face OAuth客户端ID
  • OAUTH_SCOPES: OAuth认证范围(默认:openid profile inference-api manage-repos

模型配置

  • DEFAULT_MODEL: 默认文本生成模型(默认:meta-llama/Llama-3.3-70B-Instruct
  • DEFAULT_MODEL_PROVIDER: 默认模型提供商(默认:nebius
  • MODEL_ENDPOINT_URL: 自定义推理端点URL
  • MODEL_ENDPOINT_NAME: 自定义端点对应的模型名称

系统配置

  • DATA_DIR: 数据存储目录(默认:./data
  • NUM_CONCURRENT_REQUESTS: 并发请求数量(默认:5,最大:10)
  • SERPER_API_KEY: Serper网络搜索API密钥
  • TELEMETRY_ENABLED: 遥测功能开关(默认:1)

使用方法

1. 数据导入方式

从零创建数据集

  • 适用于:熟悉工具、头脑风暴、快速实验
  • 描述你想要的数据集,AI自动生成结构和内容
  • 示例:"世界各地的城市,包括所属国家和每个城市的地标图片,以吉卜力风格生成"

导入现有数据集(推荐)

  • 支持格式:XLS、TSV、CSV、Parquet
  • 最多1000行,列数无限制
  • 适用于大多数真实世界的数据处理场景

2. 数据处理操作

添加AI列

点击"+"按钮添加新列,可选择:

  • 提取特定信息
  • 总结长文本
  • 翻译内容
  • 自定义提示:"对{{column}}执行某操作"

优化和扩展

  • 添加更多单元格: 向下拖拽自动生成
  • 手动编辑: 直接编辑单元格内容作为示例
  • 反馈机制: 使用点赞标记好的输出
  • 配置调整: 修改提示、切换模型或提供商

3. 导出和扩展

  • 导出到Hugging Face Hub
  • 生成可重用的配置文件
  • 支持HF Jobs批量数据生成

集成Ollama

# 启动Ollama服务器
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3

# 设置环境变量
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3

# 启动AI Sheets
pnpm serve

使用场景示例

模型对比测试

  • 导入包含问题的数据集
  • 为不同模型创建不同列
  • 使用LLM作为评判比较模型质量

数据集分类

  • 导入Hub上的现有数据集
  • 添加分类列进行内容分类
  • 手动验证和编辑初始分类结果

图像生成比较

  • 创建对象名称和描述的数据集
  • 使用不同的图像生成模型
  • 比较不同风格和提示的效果

项目优势

  1. 无代码操作: 无需编程知识即可处理复杂数据
  2. 开源免费: 完全开源,支持本地部署
  3. 模型丰富: 接入Hugging Face生态系统
  4. 界面友好: 类似Excel的熟悉操作体验
  5. 灵活扩展: 支持自定义模型和API端点
  6. 实时反馈: 通过编辑和点赞改进AI输出
  7. 批量处理: 支持大规模数据生成管道

社区与支持

AI Sheets为数据科学家、研究人员和开发者提供了一个强大而易用的工具,让AI数据处理变得简单高效。无论是模型测试、数据清理还是合成数据生成,都能通过直观的界面快速完成。

Star History Chart