AIモデルを使用してデータセットを構築、拡充、変換できる、コード不要のAIデータ処理ツール

TypeScriptaisheetshuggingface 114 Last Updated: August 08, 2025

AI Sheets - ノーコードAIデータ処理ツール

プロジェクト概要

AI Sheetsは、Hugging Faceがオープンソースとして公開しているノーコードツールで、AIモデルを使用してデータセットを構築、拡充、変換することに特化しています。このツールはローカルにデプロイすることも、Hub上で実行することも可能で、Hugging Face Hub上の数千ものオープンソースモデルにアクセスできます。

プロジェクトアドレス: https://github.com/huggingface/aisheets オンライン体験: https://huggingface.co/spaces/aisheets/sheets

主要機能

1. ユーザーフレンドリーなインターフェース

  • スプレッドシートに似た、習得しやすいユーザーインターフェース
  • 小規模なデータセットから迅速な実験を開始し、大規模なデータ生成パイプラインを実行可能
  • プロンプトを記述して新しい列を作成し、無制限にイテレーションやセル編集が可能

2. 強力なAI統合

  • Hugging Face Hub上の数千ものオープンソースモデルの使用をサポート
  • Inference Providers APIまたはローカルモデルを介した推論をサポート
  • OpenAIのgpt-ossモデルをサポート
  • カスタムLLMエンドポイントをサポート(OpenAI API仕様に準拠する必要あり)

3. 多様なデータ操作

  • モデル比較テスト: 同じデータで異なるモデルのパフォーマンスをテスト
  • プロンプト最適化: 特定のデータとモデル向けにプロンプトを改善
  • データ変換: データセットの列をクリーンアップおよび変換
  • データ分類: コンテンツを自動的に分類
  • データ分析: テキストから重要な情報を抽出
  • データ拡充: 欠落している情報(例:住所の郵便番号)を補完
  • 合成データ生成: 現実的でありながら架空のデータセットを作成

技術アーキテクチャ

フロントエンド技術スタック

  • フレームワーク: Qwik + QwikCity
  • ビルドツール: Vite
  • パッケージ管理: pnpm

ディレクトリ構造

├── public/              # 静的リソース
└── src/
    ├── components/      # ステートレスコンポーネント
    ├── features/        # ビジネスロジックコンポーネント
    └── routes/          # ルートファイル

バックエンドサービス

  • サーバー: Express.js
  • 認証: Hugging Face OAuth
  • API: OpenAI API仕様に準拠

インストールとデプロイ

Dockerデプロイ(推奨)

# Hugging Faceトークンを取得
export HF_TOKEN=your_token_here

# Dockerコンテナを実行
docker run -p 3000:3000 \
  -e HF_TOKEN=HF_TOKEN \
  AI Sheets/sheets

# http://localhost:3000 にアクセス

ローカル開発

# pnpmをインストール
# プロジェクトをクローン
git clone https://github.com/huggingface/aisheets.git
cd aisheets

# 環境変数を設定
export HF_TOKEN=your_token_here

# 依存関係をインストール
pnpm install

# 開発サーバーを起動
pnpm dev

# http://localhost:5173 にアクセス

プロダクションビルド

# プロダクションバージョンをビルド
pnpm build

# プロダクションサーバーを起動
export HF_TOKEN=your_token_here
pnpm serve

環境変数設定

コア設定

  • HF_TOKEN: Hugging Face認証トークン
  • OAUTH_CLIENT_ID: Hugging Face OAuthクライアントID
  • OAUTH_SCOPES: OAuth認証スコープ(デフォルト:openid profile inference-api manage-repos

モデル設定

  • DEFAULT_MODEL: デフォルトのテキスト生成モデル(デフォルト:meta-llama/Llama-3.3-70B-Instruct
  • DEFAULT_MODEL_PROVIDER: デフォルトのモデルプロバイダー(デフォルト:nebius
  • MODEL_ENDPOINT_URL: カスタム推論エンドポイントURL
  • MODEL_ENDPOINT_NAME: カスタムエンドポイントに対応するモデル名

システム設定

  • DATA_DIR: データ保存ディレクトリ(デフォルト:./data
  • NUM_CONCURRENT_REQUESTS: 同時リクエスト数(デフォルト:5、最大:10)
  • SERPER_API_KEY: Serperウェブ検索APIキー
  • TELEMETRY_ENABLED: テレメトリー機能の有効/無効(デフォルト:1)

使用方法

1. データインポート方法

ゼロからデータセットを作成

  • 適用対象:ツールに慣れている場合、ブレインストーミング、迅速な実験
  • 必要なデータセットを記述すると、AIが構造とコンテンツを自動生成
  • 例:"世界中の都市、所属国、各都市のランドマーク画像をジブリ風に生成"

既存データセットのインポート(推奨)

  • サポート形式:XLS、TSV、CSV、Parquet
  • 最大1000行、列数無制限
  • ほとんどの現実世界のデータ処理シナリオに適用可能

2. データ処理操作

AI列の追加

「+」ボタンをクリックして新しい列を追加し、以下を選択できます:

  • 特定の情報を抽出
  • 長文を要約
  • コンテンツを翻訳
  • カスタムプロンプト:"{{column}}に対してある操作を実行"

最適化と拡張

  • セルの追加: 下にドラッグして自動生成
  • 手動編集: セル内容を直接編集して例として提供
  • フィードバックメカニズム: 高評価を使用して良い出力をマーク
  • 設定調整: プロンプトの変更、モデルやプロバイダーの切り替え

3. エクスポートと拡張

  • Hugging Face Hubへのエクスポート
  • 再利用可能な設定ファイルの生成
  • HF Jobsによるバッチデータ生成をサポート

Ollamaの統合

# Ollamaサーバーを起動
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3

# 環境変数を設定
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3

# AI Sheetsを起動
pnpm serve

使用シナリオ例

モデル比較テスト

  • 質問を含むデータセットをインポート
  • 異なるモデル用に異なる列を作成
  • LLMを評価者として使用し、モデルの品質を比較

データセット分類

  • Hub上の既存データセットをインポート
  • 分類列を追加してコンテンツを分類
  • 初期分類結果を手動で検証および編集

画像生成比較

  • オブジェクト名と説明のデータセットを作成
  • 異なる画像生成モデルを使用
  • 異なるスタイルとプロンプトの効果を比較

プロジェクトの利点

  1. ノーコード操作: プログラミング知識なしで複雑なデータを処理可能
  2. オープンソース無料: 完全なオープンソースで、ローカルデプロイをサポート
  3. 豊富なモデル: Hugging Faceエコシステムにアクセス
  4. ユーザーフレンドリーなインターフェース: Excelに似た使い慣れた操作体験
  5. 柔軟な拡張性: カスタムモデルとAPIエンドポイントをサポート
  6. リアルタイムフィードバック: 編集と高評価を通じてAI出力を改善
  7. バッチ処理: 大規模なデータ生成パイプラインをサポート

コミュニティとサポート

AI Sheetsは、データサイエンティスト、研究者、開発者に対し、強力で使いやすいツールを提供し、AIデータ処理をシンプルかつ効率的にします。モデルテスト、データクリーンアップ、合成データ生成のいずれにおいても、直感的なインターフェースを通じて迅速に完了できます。

Star History Chart