Ein No-Code-KI-Datenverarbeitungstool, mit dem KI-Modelle zum Erstellen, Anreichern und Transformieren von Datensätzen verwendet werden können.
AI Sheets - No-Code KI-Datenverarbeitungstool
Projektübersicht
AI Sheets ist ein von Hugging Face entwickeltes Open-Source-No-Code-Tool, das speziell dafür konzipiert wurde, Datensätze mithilfe von KI-Modellen zu erstellen, anzureichern und zu transformieren. Das Tool kann lokal oder auf dem Hugging Face Hub ausgeführt werden und bietet Zugriff auf Tausende von Open-Source-Modellen auf dem Hugging Face Hub.
Projektadresse: https://github.com/huggingface/aisheets
Online-Demo: https://huggingface.co/spaces/aisheets/sheets
Kernfunktionen
1. Benutzerfreundliche Oberfläche
- Eine leicht zu erlernende Benutzeroberfläche, ähnlich einer Tabellenkalkulation
- Ermöglicht schnelle Experimente, beginnend mit kleinen Datensätzen bis hin zur Ausführung umfangreicher Datengenerierungspipelines
- Neue Spalten können durch das Schreiben von Prompts erstellt werden, wobei Zellen unbegrenzt oft iteriert und bearbeitet werden können
2. Leistungsstarke KI-Integration
- Unterstützt Tausende von Open-Source-Modellen auf dem Hugging Face Hub
- Unterstützt Inferenz über die Inference Providers API oder lokale Modelle
- Unterstützt OpenAIs gpt-oss-Modelle
- Unterstützt benutzerdefinierte LLM-Endpunkte (müssen der OpenAI API-Spezifikation entsprechen)
3. Vielfältige Datenoperationen
- Modellvergleichstests: Die Leistung verschiedener Modelle auf denselben Daten testen
- Prompt-Optimierung: Prompts für spezifische Daten und Modelle verbessern
- Datentransformation: Datensatzspalten bereinigen und transformieren
- Datenklassifizierung: Inhalte automatisch klassifizieren
- Datenanalyse: Schlüsselinformationen aus Texten extrahieren
- Datenanreicherung: Fehlende Informationen ergänzen (z.B. Postleitzahlen zu Adressen)
- Generierung synthetischer Daten: Realistische, aber fiktive Datensätze erstellen
Technische Architektur
Frontend-Technologie-Stack
- Framework: Qwik + QwikCity
- Build-Tool: Vite
- Paketverwaltung: pnpm
Verzeichnisstruktur
├── public/ # Statische Ressourcen
└── src/
├── components/ # Zustandslose Komponenten
├── features/ # Komponenten für Geschäftslogik
└── routes/ # Routing-Dateien
Backend-Dienste
- Server: Express.js
- Authentifizierung: Hugging Face OAuth
- API: Kompatibel mit der OpenAI API-Spezifikation
Installation und Bereitstellung
Docker-Bereitstellung (Empfohlen)
# Hugging Face Token abrufen
export HF_TOKEN=your_token_here
# Docker-Container ausführen
docker run -p 3000:3000 \
-e HF_TOKEN=HF_TOKEN \
AI Sheets/sheets
# Auf http://localhost:3000 zugreifen
Lokale Entwicklung
# pnpm installieren
# Projekt klonen
git clone https://github.com/huggingface/aisheets.git
cd aisheets
# Umgebungsvariablen einrichten
export HF_TOKEN=your_token_here
# Abhängigkeiten installieren
pnpm install
# Entwicklungsserver starten
pnpm dev
# Auf http://localhost:5173 zugreifen
Produktions-Build
# Produktionsversion erstellen
pnpm build
# Produktionsserver starten
export HF_TOKEN=your_token_here
pnpm serve
Umgebungsvariablen-Konfiguration
Kernkonfiguration
HF_TOKEN
: Hugging Face AuthentifizierungstokenOAUTH_CLIENT_ID
: Hugging Face OAuth Client-IDOAUTH_SCOPES
: OAuth Authentifizierungsbereiche (Standard:openid profile inference-api manage-repos
)
Modellkonfiguration
DEFAULT_MODEL
: Standard-Textgenerierungsmodell (Standard:meta-llama/Llama-3.3-70B-Instruct
)DEFAULT_MODEL_PROVIDER
: Standard-Modellanbieter (Standard:nebius
)MODEL_ENDPOINT_URL
: URL für benutzerdefinierten Inferenz-EndpunktMODEL_ENDPOINT_NAME
: Modellname für benutzerdefinierten Endpunkt
Systemkonfiguration
DATA_DIR
: Datenspeicherverzeichnis (Standard:./data
)NUM_CONCURRENT_REQUESTS
: Anzahl gleichzeitiger Anfragen (Standard: 5, Maximum: 10)SERPER_API_KEY
: Serper Web-Such-API-SchlüsselTELEMETRY_ENABLED
: Telemetrie-Funktion (Ein/Aus) (Standard: 1)
Verwendung
1. Datenimportmethoden
Datensatz von Grund auf neu erstellen
- Geeignet für: Vertrautheit mit dem Tool, Brainstorming, schnelle Experimente
- Beschreiben Sie den gewünschten Datensatz; die KI generiert automatisch Struktur und Inhalt
- Beispiel:
"Städte weltweit, einschließlich des zugehörigen Landes und eines Wahrzeichenbildes für jede Stadt, im Ghibli-Stil generiert"
Bestehenden Datensatz importieren (Empfohlen)
- Unterstützte Formate: XLS, TSV, CSV, Parquet
- Maximal 1000 Zeilen, unbegrenzte Spaltenanzahl
- Geeignet für die meisten realen Datenverarbeitungsszenarien
2. Datenverarbeitungsoperationen
KI-Spalte hinzufügen
Klicken Sie auf die Schaltfläche "+", um eine neue Spalte hinzuzufügen. Sie können wählen:
- Spezifische Informationen extrahieren
- Lange Texte zusammenfassen
- Inhalte übersetzen
- Benutzerdefinierter Prompt:
"Führe Operation X auf {{column}} aus"
Optimierung und Erweiterung
- Weitere Zellen hinzufügen: Nach unten ziehen zur automatischen Generierung
- Manuelle Bearbeitung: Zelleninhalte direkt als Beispiel bearbeiten
- Feedback-Mechanismus: Gute Ausgaben mit 'Gefällt mir' markieren
- Konfigurationsanpassung: Prompt ändern, Modell oder Anbieter wechseln
3. Export und Erweiterung
- In den Hugging Face Hub exportieren
- Wiederverwendbare Konfigurationsdateien generieren
- Unterstützt HF Jobs für die Batch-Datengenerierung
Ollama-Integration
# Ollama-Server starten
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3
# Umgebungsvariablen einrichten
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3
# AI Sheets starten
pnpm serve
Anwendungsbeispiele
Modellvergleichstests
- Datensatz mit Fragen importieren
- Separate Spalten für verschiedene Modelle erstellen
- Ein LLM als Richter zur Bewertung und zum Vergleich der Modellqualität einsetzen
Datensatzklassifizierung
- Bestehenden Datensatz vom Hub importieren
- Klassifizierungsspalte zur Inhaltskategorisierung hinzufügen
- Manuelle Überprüfung und Bearbeitung der anfänglichen Klassifizierungsergebnisse
Bildgenerierungsvergleich
- Datensatz mit Objektnamen und Beschreibungen erstellen
- Verschiedene Bildgenerierungsmodelle verwenden
- Effekte verschiedener Stile und Prompts vergleichen
Projektvorteile
- No-Code-Bedienung: Komplexe Daten ohne Programmierkenntnisse verarbeiten
- Open Source und kostenlos: Vollständig Open Source, unterstützt lokale Bereitstellung
- Umfangreiche Modellauswahl: Zugang zum Hugging Face Ökosystem
- Benutzerfreundliche Oberfläche: Vertraute Bedienung ähnlich Excel
- Flexible Erweiterbarkeit: Unterstützt benutzerdefinierte Modelle und API-Endpunkte
- Echtzeit-Feedback: KI-Ausgaben durch Bearbeiten und 'Gefällt mir' verbessern
- Stapelverarbeitung: Unterstützt Pipelines zur groß angelegten Datengenerierung
Community und Support
- GitHub-Repository: https://github.com/huggingface/aisheets
- Online-Community: https://huggingface.co/spaces/aisheets/sheets/discussions
- Problem melden: Über GitHub Issues einreichen
- Technische Dokumentation: Detaillierte Anleitungen zur Umgebungskonfiguration und API-Integration
AI Sheets bietet Datenwissenschaftlern, Forschern und Entwicklern ein leistungsstarkes und benutzerfreundliches Tool, um die KI-Datenverarbeitung einfach und effizient zu gestalten. Ob Modelltests, Datenbereinigung oder die Generierung synthetischer Daten – alles kann über die intuitive Oberfläche schnell erledigt werden.