一個無程式碼的 AI 數據處理工具,可使用 AI 模型構建、豐富和轉換數據集

TypeScriptaisheetshuggingface 114 Last Updated: August 08, 2025

AI Sheets - 無程式碼 AI 資料處理工具

專案概述

AI Sheets 是 Hugging Face 開源的一款無程式碼工具,專門用於使用 AI 模型建構、豐富和轉換資料集。該工具可以本地部署或在 Hub 上執行,支援存取 Hugging Face Hub 上的數千個開源模型。

專案地址: https://github.com/huggingface/aisheets
線上體驗: https://huggingface.co/spaces/aisheets/sheets

核心功能

1. 使用者友善的介面

  • 類似試算表的易學使用者介面
  • 支援快速實驗,從小資料集開始,再執行大規模資料生成管線
  • 透過編寫提示詞建立新欄,可以無限次迭代和編輯儲存格

2. 強大的 AI 整合

  • 支援使用 Hugging Face Hub 上數千個開源模型
  • 支援透過 Inference Providers API 或本地模型進行推論
  • 支援 OpenAI 的 gpt-oss 模型
  • 支援自訂 LLM 端點(需符合 OpenAI API 規範)

3. 多元的資料操作

  • 模型比較測試: 在同一資料上測試不同模型的表現
  • 提示詞優化: 為特定資料和模型改進提示詞
  • 資料轉換: 清理和轉換資料集欄位
  • 資料分類: 對內容進行自動分類
  • 資料分析: 提取文本中的關鍵資訊
  • 資料豐富: 補充缺失資訊(如地址的郵遞區號)
  • 合成資料生成: 建立真實但虛構的資料集

技術架構

前端技術堆疊

  • 框架: Qwik + QwikCity
  • 建置工具: Vite
  • 套件管理: pnpm

目錄結構

├── public/              # 靜態資源
└── src/
    ├── components/      # 無狀態元件
    ├── features/        # 業務邏輯元件
    └── routes/          # 路由檔案

後端服務

  • 伺服器: Express.js
  • 驗證: Hugging Face OAuth
  • API: 相容 OpenAI API 規範

安裝與部署

Docker 部署(推薦)

# 取得 Hugging Face token
export HF_TOKEN=your_token_here

# 執行 Docker 容器
docker run -p 3000:3000 \
  -e HF_TOKEN=HF_TOKEN \
  AI Sheets/sheets

# 存取 http://localhost:3000

本地開發

# 安裝 pnpm
# 複製專案
git clone https://github.com/huggingface/aisheets.git
cd aisheets

# 設定環境變數
export HF_TOKEN=your_token_here

# 安裝依賴
pnpm install

# 啟動開發伺服器
pnpm dev

# 存取 http://localhost:5173

生產建置

# 建置生產版本
pnpm build

# 啟動生產伺服器
export HF_TOKEN=your_token_here
pnpm serve

環境變數配置

核心配置

  • HF_TOKEN: Hugging Face 驗證令牌
  • OAUTH_CLIENT_ID: Hugging Face OAuth 客戶端 ID
  • OAUTH_SCOPES: OAuth 驗證範圍(預設:openid profile inference-api manage-repos

模型配置

  • DEFAULT_MODEL: 預設文字生成模型(預設:meta-llama/Llama-3.3-70B-Instruct
  • DEFAULT_MODEL_PROVIDER: 預設模型供應商(預設:nebius
  • MODEL_ENDPOINT_URL: 自訂推論端點 URL
  • MODEL_ENDPOINT_NAME: 自訂端點對應的模型名稱

系統配置

  • DATA_DIR: 資料儲存目錄(預設:./data
  • NUM_CONCURRENT_REQUESTS: 並行請求數量(預設:5,最大:10)
  • SERPER_API_KEY: Serper 網路搜尋 API 密鑰
  • TELEMETRY_ENABLED: 遙測功能開關(預設:1)

使用方法

1. 資料匯入方式

從零開始建立資料集

  • 適用於:熟悉工具、腦力激盪、快速實驗
  • 描述你想要的資料集,AI 自動生成結構和內容
  • 範例:"世界各地的城市,包括所屬國家和每個城市的地標圖片,以吉卜力風格生成"

匯入現有資料集(推薦)

  • 支援格式:XLS、TSV、CSV、Parquet
  • 最多 1000 行,欄數無限制
  • 適用於大多數真實世界的資料處理情境

2. 資料處理操作

新增 AI 欄

點擊"+"按鈕新增欄,可選擇:

  • 提取特定資訊
  • 總結長文本
  • 翻譯內容
  • 自訂提示詞:"對{{column}}執行某操作"

優化與擴展

  • 新增更多儲存格: 向下拖曳自動生成
  • 手動編輯: 直接編輯儲存格內容作為範例
  • 回饋機制: 使用按讚標記好的輸出
  • 配置調整: 修改提示詞、切換模型或供應商

3. 匯出與擴展

  • 匯出到 Hugging Face Hub
  • 生成可重複使用的設定檔
  • 支援 HF Jobs 批次資料生成

整合 Ollama

# 啟動 Ollama 伺服器
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3

# 設定環境變數
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3

# 啟動 AI Sheets
pnpm serve

使用情境範例

模型比較測試

  • 匯入包含問題的資料集
  • 為不同模型建立不同欄
  • 使用 LLM 作為評判比較模型品質

資料集分類

  • 匯入 Hub 上的現有資料集
  • 新增分類欄進行內容分類
  • 手動驗證和編輯初始分類結果

圖像生成比較

  • 建立物件名稱和描述的資料集
  • 使用不同的圖像生成模型
  • 比較不同風格和提示詞的效果

專案優勢

  1. 無程式碼操作: 無需程式設計知識即可處理複雜資料
  2. 開源免費: 完全開源,支援本地部署
  3. 模型豐富: 接入 Hugging Face 生態系統
  4. 介面友善: 類似 Excel 的熟悉操作體驗
  5. 彈性擴展: 支援自訂模型和 API 端點
  6. 即時回饋: 透過編輯和按讚改進 AI 輸出
  7. 批次處理: 支援大規模資料生成管線

社群與支援

AI Sheets 為資料科學家、研究人員和開發者提供了一個強大且易用的工具,讓 AI 資料處理變得簡單高效。無論是模型測試、資料清理還是合成資料生成,都能透過直觀的介面快速完成。

Star History Chart