Una herramienta de procesamiento de datos con IA sin código que permite construir, enriquecer y transformar conjuntos de datos utilizando modelos de IA.
AI Sheets - Herramienta de procesamiento de datos con IA sin código
Resumen del Proyecto
AI Sheets es una herramienta sin código de código abierto de Hugging Face, diseñada específicamente para construir, enriquecer y transformar conjuntos de datos utilizando modelos de IA. La herramienta puede implementarse localmente o ejecutarse en el Hub, y permite el acceso a miles de modelos de código abierto en el Hugging Face Hub.
Dirección del proyecto: https://github.com/huggingface/aisheets Prueba en línea: https://huggingface.co/spaces/aisheets/sheets
Características Principales
1. Interfaz de Usuario Amigable
- Interfaz de usuario fácil de aprender, similar a una hoja de cálculo
- Permite la experimentación rápida, comenzando con pequeños conjuntos de datos y luego ejecutando pipelines de generación de datos a gran escala
- Crea nuevas columnas escribiendo prompts, con iteraciones y edición de celdas ilimitadas
2. Potente Integración de IA
- Soporte para miles de modelos de código abierto en el Hugging Face Hub
- Soporte para inferencia a través de la API de Inference Providers o modelos locales
- Soporte para modelos gpt-oss de OpenAI
- Soporte para endpoints LLM personalizados (deben cumplir con la especificación de la API de OpenAI)
3. Operaciones de Datos Diversas
- Pruebas de comparación de modelos: Prueba el rendimiento de diferentes modelos con los mismos datos
- Optimización de prompts: Mejora los prompts para datos y modelos específicos
- Transformación de datos: Limpia y transforma columnas de conjuntos de datos
- Clasificación de datos: Clasifica automáticamente el contenido
- Análisis de datos: Extrae información clave de textos
- Enriquecimiento de datos: Complementa información faltante (ej. código postal de una dirección)
- Generación de datos sintéticos: Crea conjuntos de datos realistas pero ficticios
Arquitectura Técnica
Pila Tecnológica Frontend
- Framework: Qwik + QwikCity
- Herramienta de construcción: Vite
- Gestión de paquetes: pnpm
Estructura de Directorios
├── public/ # Recursos estáticos
└── src/
├── components/ # Componentes sin estado
├── features/ # Componentes de lógica de negocio
└── routes/ # Archivos de rutas
Servicios Backend
- Servidor: Express.js
- Autenticación: Hugging Face OAuth
- API: Compatible con la especificación de la API de OpenAI
Instalación y Despliegue
Despliegue con Docker (Recomendado)
# Obtener el token de Hugging Face
export HF_TOKEN=your_token_here
# Ejecutar el contenedor Docker
docker run -p 3000:3000 \
-e HF_TOKEN=HF_TOKEN \
AI Sheets/sheets
# Acceder a http://localhost:3000
Desarrollo Local
# Instalar pnpm
# Clonar el proyecto
git clone https://github.com/huggingface/aisheets.git
cd aisheets
# Configurar variables de entorno
export HF_TOKEN=your_token_here
# Instalar dependencias
pnpm install
# Iniciar el servidor de desarrollo
pnpm dev
# Acceder a http://localhost:5173
Construcción para Producción
# Construir la versión de producción
pnpm build
# Iniciar el servidor de producción
export HF_TOKEN=your_token_here
pnpm serve
Configuración de Variables de Entorno
Configuración Principal
HF_TOKEN
: Token de autenticación de Hugging FaceOAUTH_CLIENT_ID
: ID de cliente de Hugging Face OAuthOAUTH_SCOPES
: Alcances de autenticación OAuth (por defecto:openid profile inference-api manage-repos
)
Configuración del Modelo
DEFAULT_MODEL
: Modelo de generación de texto por defecto (por defecto:meta-llama/Llama-3.3-70B-Instruct
)DEFAULT_MODEL_PROVIDER
: Proveedor de modelo por defecto (por defecto:nebius
)MODEL_ENDPOINT_URL
: URL del endpoint de inferencia personalizadoMODEL_ENDPOINT_NAME
: Nombre del modelo correspondiente al endpoint personalizado
Configuración del Sistema
DATA_DIR
: Directorio de almacenamiento de datos (por defecto:./data
)NUM_CONCURRENT_REQUESTS
: Número de solicitudes concurrentes (por defecto: 5, máximo: 10)SERPER_API_KEY
: Clave de la API de búsqueda web de SerperTELEMETRY_ENABLED
: Interruptor de la función de telemetría (por defecto: 1)
Métodos de Uso
1. Métodos de Importación de Datos
Crear un conjunto de datos desde cero
- Aplicable para: familiarizarse con la herramienta, lluvia de ideas, experimentos rápidos
- Describe el conjunto de datos que deseas, la IA generará automáticamente la estructura y el contenido
- Ejemplo:
"Ciudades de todo el mundo, incluyendo el país al que pertenecen y una imagen de un punto de referencia de cada ciudad, generadas al estilo Ghibli"
Importar un conjunto de datos existente (Recomendado)
- Formatos soportados: XLS, TSV, CSV, Parquet
- Máximo 1000 filas, número ilimitado de columnas
- Aplicable a la mayoría de los escenarios de procesamiento de datos del mundo real
2. Operaciones de Procesamiento de Datos
Añadir columna de IA
Haz clic en el botón "+" para añadir una nueva columna, puedes elegir:
- Extraer información específica
- Resumir texto largo
- Traducir contenido
- Prompt personalizado:
"Realizar alguna operación en {{column}}"
Optimizar y expandir
- Añadir más celdas: Arrastra hacia abajo para generar automáticamente
- Edición manual: Edita directamente el contenido de las celdas como ejemplo
- Mecanismo de retroalimentación: Usa el "me gusta" para marcar las buenas salidas
- Ajuste de configuración: Modifica el prompt, cambia el modelo o el proveedor
3. Exportar y expandir
- Exportar al Hugging Face Hub
- Generar archivos de configuración reutilizables
- Soporte para generación de datos por lotes con HF Jobs
Integración con Ollama
# Iniciar el servidor de Ollama
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3
# Configurar variables de entorno
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3
# Iniciar AI Sheets
pnpm serve
Ejemplos de Casos de Uso
Pruebas de Comparación de Modelos
- Importar un conjunto de datos que contenga preguntas
- Crear diferentes columnas para diferentes modelos
- Usar un LLM como juez para comparar la calidad del modelo
Clasificación de Conjuntos de Datos
- Importar un conjunto de datos existente del Hub
- Añadir una columna de clasificación para categorizar el contenido
- Verificar y editar manualmente los resultados de la clasificación inicial
Comparación de Generación de Imágenes
- Crear un conjunto de datos de nombres y descripciones de objetos
- Usar diferentes modelos de generación de imágenes
- Comparar los efectos de diferentes estilos y prompts
Ventajas del Proyecto
- Operación sin código: No se requieren conocimientos de programación para procesar datos complejos
- Código abierto y gratuito: Completamente de código abierto, soporta despliegue local
- Modelos ricos: Acceso al ecosistema de Hugging Face
- Interfaz amigable: Experiencia de operación familiar similar a Excel
- Extensión flexible: Soporta modelos y endpoints de API personalizados
- Retroalimentación en tiempo real: Mejora la salida de la IA mediante la edición y los "me gusta"
- Procesamiento por lotes: Soporta pipelines de generación de datos a gran escala
Comunidad y Soporte
- Repositorio de GitHub: https://github.com/huggingface/aisheets
- Comunidad en línea: https://huggingface.co/spaces/aisheets/sheets/discussions
- Reporte de problemas: Envía a través de GitHub Issues
- Documentación técnica: Guías detalladas de configuración de entorno e integración de API
AI Sheets proporciona a científicos de datos, investigadores y desarrolladores una herramienta potente y fácil de usar, que hace que el procesamiento de datos con IA sea simple y eficiente. Ya sea para pruebas de modelos, limpieza de datos o generación de datos sintéticos, todo se puede completar rápidamente a través de una interfaz intuitiva.