Un outil de traitement de données IA sans code qui permet de construire, d'enrichir et de transformer des ensembles de données à l'aide de modèles d'IA.
AI Sheets - Outil de traitement de données IA sans code
Aperçu du projet
AI Sheets est un outil sans code open source de Hugging Face, spécialement conçu pour construire, enrichir et transformer des jeux de données à l'aide de modèles d'IA. Cet outil peut être déployé localement ou exécuté sur le Hub, et prend en charge l'accès à des milliers de modèles open source sur le Hugging Face Hub.
Adresse du projet : https://github.com/huggingface/aisheets
Expérience en ligne : https://huggingface.co/spaces/aisheets/sheets
Fonctionnalités clés
1. Interface conviviale
- Interface utilisateur facile à apprendre, similaire à une feuille de calcul
- Prend en charge l'expérimentation rapide, en commençant par de petits jeux de données avant d'exécuter des pipelines de génération de données à grande échelle
- Créez de nouvelles colonnes en écrivant des invites (prompts), avec des itérations et des modifications de cellules illimitées
2. Intégration IA puissante
- Prend en charge l'utilisation de milliers de modèles open source sur le Hugging Face Hub
- Prend en charge l'inférence via l'API des fournisseurs d'inférence ou des modèles locaux
- Prend en charge les modèles gpt-oss d'OpenAI
- Prend en charge les points de terminaison LLM personnalisés (doivent être conformes à la spécification de l'API OpenAI)
3. Opérations de données diversifiées
- Tests de comparaison de modèles : Testez les performances de différents modèles sur les mêmes données
- Optimisation des invites : Améliorez les invites (prompts) pour des données et des modèles spécifiques
- Transformation de données : Nettoyez et transformez les colonnes des jeux de données
- Classification de données : Classez automatiquement le contenu
- Analyse de données : Extrayez les informations clés du texte
- Enrichissement de données : Complétez les informations manquantes (par exemple, le code postal d'une adresse)
- Génération de données synthétiques : Créez des jeux de données réalistes mais fictifs
Architecture technique
Pile technologique front-end
- Framework : Qwik + QwikCity
- Outil de build : Vite
- Gestionnaire de paquets : pnpm
Structure des répertoires
├── public/ # Ressources statiques
└── src/
├── components/ # Composants sans état
├── features/ # Composants de logique métier
└── routes/ # Fichiers de routage
Services back-end
- Serveur : Express.js
- Authentification : Hugging Face OAuth
- API : Compatible avec la spécification de l'API OpenAI
Installation et déploiement
Déploiement Docker (recommandé)
# Obtenir le token Hugging Face
export HF_TOKEN=votre_token_ici
# Exécuter le conteneur Docker
docker run -p 3000:3000 \
-e HF_TOKEN=HF_TOKEN \
AI Sheets/sheets
# Accéder à http://localhost:3000
Développement local
# Installer pnpm
# Cloner le projet
git clone https://github.com/huggingface/aisheets.git
cd aisheets
# Configurer les variables d'environnement
export HF_TOKEN=votre_token_ici
# Installer les dépendances
pnpm install
# Démarrer le serveur de développement
pnpm dev
# Accéder à http://localhost:5173
Build de production
# Construire la version de production
pnpm build
# Démarrer le serveur de production
export HF_TOKEN=votre_token_ici
pnpm serve
Configuration des variables d'environnement
Configuration principale
HF_TOKEN
: Jeton d'authentification Hugging FaceOAUTH_CLIENT_ID
: ID client OAuth Hugging FaceOAUTH_SCOPES
: Portée d'authentification OAuth (par défaut :openid profile inference-api manage-repos
)
Configuration des modèles
DEFAULT_MODEL
: Modèle de génération de texte par défaut (par défaut :meta-llama/Llama-3.3-70B-Instruct
)DEFAULT_MODEL_PROVIDER
: Fournisseur de modèle par défaut (par défaut :nebius
)MODEL_ENDPOINT_URL
: URL du point de terminaison d'inférence personnaliséMODEL_ENDPOINT_NAME
: Nom du modèle correspondant au point de terminaison personnalisé
Configuration système
DATA_DIR
: Répertoire de stockage des données (par défaut :./data
)NUM_CONCURRENT_REQUESTS
: Nombre de requêtes concurrentes (par défaut : 5, maximum : 10)SERPER_API_KEY
: Clé API de recherche web SerperTELEMETRY_ENABLED
: Activation de la fonction de télémétrie (par défaut : 1)
Méthodes d'utilisation
1. Méthodes d'importation de données
Créer un jeu de données à partir de zéro
- Convient pour : se familiariser avec l'outil, le brainstorming, l'expérimentation rapide
- Décrivez le jeu de données que vous souhaitez, l'IA générera automatiquement la structure et le contenu
- Exemple :
"Villes du monde entier, y compris le pays d'appartenance et des images de monuments pour chaque ville, générées dans le style Ghibli"
Importer un jeu de données existant (recommandé)
- Formats pris en charge : XLS, TSV, CSV, Parquet
- Jusqu'à 1000 lignes, nombre illimité de colonnes
- Convient à la plupart des scénarios de traitement de données du monde réel
2. Opérations de traitement de données
Ajouter une colonne IA
Cliquez sur le bouton "+" pour ajouter une nouvelle colonne, vous pouvez choisir :
- Extraire des informations spécifiques
- Résumer des textes longs
- Traduire du contenu
- Invite personnalisée :
« Effectuer une opération sur {{column}} »
Optimiser et étendre
- Ajouter plus de cellules : Faites glisser vers le bas pour générer automatiquement
- Édition manuelle : Modifiez directement le contenu des cellules comme exemple
- Mécanisme de feedback : Utilisez les "j'aime" pour marquer les bonnes sorties
- Ajustement de la configuration : Modifiez l'invite, changez de modèle ou de fournisseur
3. Exportation et extension
- Exporter vers le Hugging Face Hub
- Générer des fichiers de configuration réutilisables
- Prend en charge la génération de données par lots via HF Jobs
Intégration d'Ollama
# Démarrer le serveur Ollama
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3
# Configurer les variables d'environnement
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3
# Démarrer AI Sheets
pnpm serve
Exemples de scénarios d'utilisation
Tests de comparaison de modèles
- Importez un jeu de données contenant des questions
- Créez différentes colonnes pour différents modèles
- Utilisez un LLM comme juge pour comparer la qualité des modèles
Classification de jeux de données
- Importez un jeu de données existant depuis le Hub
- Ajoutez une colonne de classification pour classer le contenu
- Vérifiez et modifiez manuellement les résultats de classification initiaux
Comparaison de génération d'images
- Créez un jeu de données de noms et de descriptions d'objets
- Utilisez différents modèles de génération d'images
- Comparez les effets de différents styles et invites
Avantages du projet
- Opération sans code : Traitez des données complexes sans connaissances en programmation
- Open source et gratuit : Entièrement open source, prend en charge le déploiement local
- Modèles riches : Accès à l'écosystème Hugging Face
- Interface conviviale : Expérience utilisateur familière, similaire à Excel
- Extensibilité flexible : Prend en charge les modèles et les points de terminaison API personnalisés
- Retour d'information en temps réel : Améliorez la sortie de l'IA par l'édition et les "j'aime"
- Traitement par lots : Prend en charge les pipelines de génération de données à grande échelle
Communauté et support
- Dépôt GitHub : https://github.com/huggingface/aisheets
- Communauté en ligne : https://huggingface.co/spaces/aisheets/sheets/discussions
- Rapports de problèmes : Soumettez via les GitHub Issues
- Documentation technique : Guides détaillés de configuration de l'environnement et d'intégration d'API
AI Sheets offre aux scientifiques des données, aux chercheurs et aux développeurs un outil puissant et facile à utiliser, rendant le traitement des données par l'IA simple et efficace. Qu'il s'agisse de tests de modèles, de nettoyage de données ou de génération de données synthétiques, tout peut être accompli rapidement via une interface intuitive.