huggingface/aisheetsView GitHub Homepage for Latest Official Releases
一個無程式碼的 AI 數據處理工具,可使用 AI 模型構建、豐富和轉換數據集
TypeScriptaisheetshuggingface 114 Last Updated: August 08, 2025
AI Sheets - 無程式碼 AI 資料處理工具
專案概述
AI Sheets 是 Hugging Face 開源的一款無程式碼工具,專門用於使用 AI 模型建構、豐富和轉換資料集。該工具可以本地部署或在 Hub 上執行,支援存取 Hugging Face Hub 上的數千個開源模型。
專案地址: https://github.com/huggingface/aisheets
線上體驗: https://huggingface.co/spaces/aisheets/sheets
核心功能
1. 使用者友善的介面
- 類似試算表的易學使用者介面
- 支援快速實驗,從小資料集開始,再執行大規模資料生成管線
- 透過編寫提示詞建立新欄,可以無限次迭代和編輯儲存格
2. 強大的 AI 整合
- 支援使用 Hugging Face Hub 上數千個開源模型
- 支援透過 Inference Providers API 或本地模型進行推論
- 支援 OpenAI 的 gpt-oss 模型
- 支援自訂 LLM 端點(需符合 OpenAI API 規範)
3. 多元的資料操作
- 模型比較測試: 在同一資料上測試不同模型的表現
- 提示詞優化: 為特定資料和模型改進提示詞
- 資料轉換: 清理和轉換資料集欄位
- 資料分類: 對內容進行自動分類
- 資料分析: 提取文本中的關鍵資訊
- 資料豐富: 補充缺失資訊(如地址的郵遞區號)
- 合成資料生成: 建立真實但虛構的資料集
技術架構
前端技術堆疊
- 框架: Qwik + QwikCity
- 建置工具: Vite
- 套件管理: pnpm
目錄結構
├── public/ # 靜態資源
└── src/
├── components/ # 無狀態元件
├── features/ # 業務邏輯元件
└── routes/ # 路由檔案
後端服務
- 伺服器: Express.js
- 驗證: Hugging Face OAuth
- API: 相容 OpenAI API 規範
安裝與部署
Docker 部署(推薦)
# 取得 Hugging Face token
export HF_TOKEN=your_token_here
# 執行 Docker 容器
docker run -p 3000:3000 \
-e HF_TOKEN=HF_TOKEN \
AI Sheets/sheets
# 存取 http://localhost:3000
本地開發
# 安裝 pnpm
# 複製專案
git clone https://github.com/huggingface/aisheets.git
cd aisheets
# 設定環境變數
export HF_TOKEN=your_token_here
# 安裝依賴
pnpm install
# 啟動開發伺服器
pnpm dev
# 存取 http://localhost:5173
生產建置
# 建置生產版本
pnpm build
# 啟動生產伺服器
export HF_TOKEN=your_token_here
pnpm serve
環境變數配置
核心配置
HF_TOKEN
: Hugging Face 驗證令牌OAUTH_CLIENT_ID
: Hugging Face OAuth 客戶端 IDOAUTH_SCOPES
: OAuth 驗證範圍(預設:openid profile inference-api manage-repos
)
模型配置
DEFAULT_MODEL
: 預設文字生成模型(預設:meta-llama/Llama-3.3-70B-Instruct
)DEFAULT_MODEL_PROVIDER
: 預設模型供應商(預設:nebius
)MODEL_ENDPOINT_URL
: 自訂推論端點 URLMODEL_ENDPOINT_NAME
: 自訂端點對應的模型名稱
系統配置
DATA_DIR
: 資料儲存目錄(預設:./data
)NUM_CONCURRENT_REQUESTS
: 並行請求數量(預設:5,最大:10)SERPER_API_KEY
: Serper 網路搜尋 API 密鑰TELEMETRY_ENABLED
: 遙測功能開關(預設:1)
使用方法
1. 資料匯入方式
從零開始建立資料集
- 適用於:熟悉工具、腦力激盪、快速實驗
- 描述你想要的資料集,AI 自動生成結構和內容
- 範例:
"世界各地的城市,包括所屬國家和每個城市的地標圖片,以吉卜力風格生成"
匯入現有資料集(推薦)
- 支援格式:XLS、TSV、CSV、Parquet
- 最多 1000 行,欄數無限制
- 適用於大多數真實世界的資料處理情境
2. 資料處理操作
新增 AI 欄
點擊"+"按鈕新增欄,可選擇:
- 提取特定資訊
- 總結長文本
- 翻譯內容
- 自訂提示詞:
"對{{column}}執行某操作"
優化與擴展
- 新增更多儲存格: 向下拖曳自動生成
- 手動編輯: 直接編輯儲存格內容作為範例
- 回饋機制: 使用按讚標記好的輸出
- 配置調整: 修改提示詞、切換模型或供應商
3. 匯出與擴展
- 匯出到 Hugging Face Hub
- 生成可重複使用的設定檔
- 支援 HF Jobs 批次資料生成
整合 Ollama
# 啟動 Ollama 伺服器
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3
# 設定環境變數
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3
# 啟動 AI Sheets
pnpm serve
使用情境範例
模型比較測試
- 匯入包含問題的資料集
- 為不同模型建立不同欄
- 使用 LLM 作為評判比較模型品質
資料集分類
- 匯入 Hub 上的現有資料集
- 新增分類欄進行內容分類
- 手動驗證和編輯初始分類結果
圖像生成比較
- 建立物件名稱和描述的資料集
- 使用不同的圖像生成模型
- 比較不同風格和提示詞的效果
專案優勢
- 無程式碼操作: 無需程式設計知識即可處理複雜資料
- 開源免費: 完全開源,支援本地部署
- 模型豐富: 接入 Hugging Face 生態系統
- 介面友善: 類似 Excel 的熟悉操作體驗
- 彈性擴展: 支援自訂模型和 API 端點
- 即時回饋: 透過編輯和按讚改進 AI 輸出
- 批次處理: 支援大規模資料生成管線
社群與支援
- GitHub 儲存庫: https://github.com/huggingface/aisheets
- 線上社群: https://huggingface.co/spaces/aisheets/sheets/discussions
- 問題回饋: 透過 GitHub Issues 提交
- 技術文件: 詳細的環境配置和 API 整合指南
AI Sheets 為資料科學家、研究人員和開發者提供了一個強大且易用的工具,讓 AI 資料處理變得簡單高效。無論是模型測試、資料清理還是合成資料生成,都能透過直觀的介面快速完成。