huggingface/aisheetsView GitHub Homepage for Latest Official Releases
一个无代码的AI数据处理工具,可使用AI模型构建、丰富和转换数据集
TypeScriptaisheetshuggingface 114 Last Updated: August 08, 2025
AI Sheets - 无代码AI数据处理工具
项目概述
AI Sheets是Hugging Face开源的一款无代码工具,专门用于使用AI模型构建、丰富和转换数据集。该工具可以本地部署或在Hub上运行,支持访问Hugging Face Hub上的数千个开源模型。
项目地址: https://github.com/huggingface/aisheets
在线体验: https://huggingface.co/spaces/aisheets/sheets
核心特性
1. 用户友好的界面
- 类似电子表格的易学用户界面
- 支持快速实验,从小数据集开始,再运行大规模数据生成管道
- 通过编写提示创建新列,可以无限次迭代和编辑单元格
2. 强大的AI集成
- 支持使用Hugging Face Hub上数千个开源模型
- 支持通过Inference Providers API或本地模型进行推理
- 支持OpenAI的gpt-oss模型
- 支持自定义LLM端点(需符合OpenAI API规范)
3. 多样化的数据操作
- 模型比较测试: 在同一数据上测试不同模型的表现
- 提示优化: 为特定数据和模型改进提示词
- 数据转换: 清理和转换数据集列
- 数据分类: 对内容进行自动分类
- 数据分析: 提取文本中的关键信息
- 数据丰富: 补充缺失信息(如地址的邮政编码)
- 合成数据生成: 创建现实但虚构的数据集
技术架构
前端技术栈
- 框架: Qwik + QwikCity
- 构建工具: Vite
- 包管理: pnpm
目录结构
├── public/ # 静态资源
└── src/
├── components/ # 无状态组件
├── features/ # 业务逻辑组件
└── routes/ # 路由文件
后端服务
- 服务器: Express.js
- 认证: Hugging Face OAuth
- API: 兼容OpenAI API规范
安装与部署
Docker部署(推荐)
# 获取Hugging Face token
export HF_TOKEN=your_token_here
# 运行Docker容器
docker run -p 3000:3000 \
-e HF_TOKEN=HF_TOKEN \
AI Sheets/sheets
# 访问 http://localhost:3000
本地开发
# 安装pnpm
# 克隆项目
git clone https://github.com/huggingface/aisheets.git
cd aisheets
# 设置环境变量
export HF_TOKEN=your_token_here
# 安装依赖
pnpm install
# 启动开发服务器
pnpm dev
# 访问 http://localhost:5173
生产构建
# 构建生产版本
pnpm build
# 启动生产服务器
export HF_TOKEN=your_token_here
pnpm serve
环境变量配置
核心配置
HF_TOKEN
: Hugging Face认证令牌OAUTH_CLIENT_ID
: Hugging Face OAuth客户端IDOAUTH_SCOPES
: OAuth认证范围(默认:openid profile inference-api manage-repos
)
模型配置
DEFAULT_MODEL
: 默认文本生成模型(默认:meta-llama/Llama-3.3-70B-Instruct
)DEFAULT_MODEL_PROVIDER
: 默认模型提供商(默认:nebius
)MODEL_ENDPOINT_URL
: 自定义推理端点URLMODEL_ENDPOINT_NAME
: 自定义端点对应的模型名称
系统配置
DATA_DIR
: 数据存储目录(默认:./data
)NUM_CONCURRENT_REQUESTS
: 并发请求数量(默认:5,最大:10)SERPER_API_KEY
: Serper网络搜索API密钥TELEMETRY_ENABLED
: 遥测功能开关(默认:1)
使用方法
1. 数据导入方式
从零创建数据集
- 适用于:熟悉工具、头脑风暴、快速实验
- 描述你想要的数据集,AI自动生成结构和内容
- 示例:
"世界各地的城市,包括所属国家和每个城市的地标图片,以吉卜力风格生成"
导入现有数据集(推荐)
- 支持格式:XLS、TSV、CSV、Parquet
- 最多1000行,列数无限制
- 适用于大多数真实世界的数据处理场景
2. 数据处理操作
添加AI列
点击"+"按钮添加新列,可选择:
- 提取特定信息
- 总结长文本
- 翻译内容
- 自定义提示:
"对{{column}}执行某操作"
优化和扩展
- 添加更多单元格: 向下拖拽自动生成
- 手动编辑: 直接编辑单元格内容作为示例
- 反馈机制: 使用点赞标记好的输出
- 配置调整: 修改提示、切换模型或提供商
3. 导出和扩展
- 导出到Hugging Face Hub
- 生成可重用的配置文件
- 支持HF Jobs批量数据生成
集成Ollama
# 启动Ollama服务器
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3
# 设置环境变量
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3
# 启动AI Sheets
pnpm serve
使用场景示例
模型对比测试
- 导入包含问题的数据集
- 为不同模型创建不同列
- 使用LLM作为评判比较模型质量
数据集分类
- 导入Hub上的现有数据集
- 添加分类列进行内容分类
- 手动验证和编辑初始分类结果
图像生成比较
- 创建对象名称和描述的数据集
- 使用不同的图像生成模型
- 比较不同风格和提示的效果
项目优势
- 无代码操作: 无需编程知识即可处理复杂数据
- 开源免费: 完全开源,支持本地部署
- 模型丰富: 接入Hugging Face生态系统
- 界面友好: 类似Excel的熟悉操作体验
- 灵活扩展: 支持自定义模型和API端点
- 实时反馈: 通过编辑和点赞改进AI输出
- 批量处理: 支持大规模数据生成管道
社区与支持
- GitHub仓库: https://github.com/huggingface/aisheets
- 在线社区: https://huggingface.co/spaces/aisheets/sheets/discussions
- 问题反馈: 通过GitHub Issues提交
- 技术文档: 详细的环境配置和API集成指南
AI Sheets为数据科学家、研究人员和开发者提供了一个强大而易用的工具,让AI数据处理变得简单高效。无论是模型测试、数据清理还是合成数据生成,都能通过直观的界面快速完成。