Una herramienta de procesamiento de datos con IA sin código que permite construir, enriquecer y transformar conjuntos de datos utilizando modelos de IA.

TypeScriptaisheetshuggingface 114 Last Updated: August 08, 2025

AI Sheets - Herramienta de procesamiento de datos con IA sin código

Resumen del Proyecto

AI Sheets es una herramienta sin código de código abierto de Hugging Face, diseñada específicamente para construir, enriquecer y transformar conjuntos de datos utilizando modelos de IA. La herramienta puede implementarse localmente o ejecutarse en el Hub, y permite el acceso a miles de modelos de código abierto en el Hugging Face Hub.

Dirección del proyecto: https://github.com/huggingface/aisheets Prueba en línea: https://huggingface.co/spaces/aisheets/sheets

Características Principales

1. Interfaz de Usuario Amigable

  • Interfaz de usuario fácil de aprender, similar a una hoja de cálculo
  • Permite la experimentación rápida, comenzando con pequeños conjuntos de datos y luego ejecutando pipelines de generación de datos a gran escala
  • Crea nuevas columnas escribiendo prompts, con iteraciones y edición de celdas ilimitadas

2. Potente Integración de IA

  • Soporte para miles de modelos de código abierto en el Hugging Face Hub
  • Soporte para inferencia a través de la API de Inference Providers o modelos locales
  • Soporte para modelos gpt-oss de OpenAI
  • Soporte para endpoints LLM personalizados (deben cumplir con la especificación de la API de OpenAI)

3. Operaciones de Datos Diversas

  • Pruebas de comparación de modelos: Prueba el rendimiento de diferentes modelos con los mismos datos
  • Optimización de prompts: Mejora los prompts para datos y modelos específicos
  • Transformación de datos: Limpia y transforma columnas de conjuntos de datos
  • Clasificación de datos: Clasifica automáticamente el contenido
  • Análisis de datos: Extrae información clave de textos
  • Enriquecimiento de datos: Complementa información faltante (ej. código postal de una dirección)
  • Generación de datos sintéticos: Crea conjuntos de datos realistas pero ficticios

Arquitectura Técnica

Pila Tecnológica Frontend

  • Framework: Qwik + QwikCity
  • Herramienta de construcción: Vite
  • Gestión de paquetes: pnpm

Estructura de Directorios

├── public/              # Recursos estáticos
└── src/
    ├── components/      # Componentes sin estado
    ├── features/        # Componentes de lógica de negocio
    └── routes/          # Archivos de rutas

Servicios Backend

  • Servidor: Express.js
  • Autenticación: Hugging Face OAuth
  • API: Compatible con la especificación de la API de OpenAI

Instalación y Despliegue

Despliegue con Docker (Recomendado)

# Obtener el token de Hugging Face
export HF_TOKEN=your_token_here

# Ejecutar el contenedor Docker
docker run -p 3000:3000 \
  -e HF_TOKEN=HF_TOKEN \
  AI Sheets/sheets

# Acceder a http://localhost:3000

Desarrollo Local

# Instalar pnpm
# Clonar el proyecto
git clone https://github.com/huggingface/aisheets.git
cd aisheets

# Configurar variables de entorno
export HF_TOKEN=your_token_here

# Instalar dependencias
pnpm install

# Iniciar el servidor de desarrollo
pnpm dev

# Acceder a http://localhost:5173

Construcción para Producción

# Construir la versión de producción
pnpm build

# Iniciar el servidor de producción
export HF_TOKEN=your_token_here
pnpm serve

Configuración de Variables de Entorno

Configuración Principal

  • HF_TOKEN: Token de autenticación de Hugging Face
  • OAUTH_CLIENT_ID: ID de cliente de Hugging Face OAuth
  • OAUTH_SCOPES: Alcances de autenticación OAuth (por defecto: openid profile inference-api manage-repos)

Configuración del Modelo

  • DEFAULT_MODEL: Modelo de generación de texto por defecto (por defecto: meta-llama/Llama-3.3-70B-Instruct)
  • DEFAULT_MODEL_PROVIDER: Proveedor de modelo por defecto (por defecto: nebius)
  • MODEL_ENDPOINT_URL: URL del endpoint de inferencia personalizado
  • MODEL_ENDPOINT_NAME: Nombre del modelo correspondiente al endpoint personalizado

Configuración del Sistema

  • DATA_DIR: Directorio de almacenamiento de datos (por defecto: ./data)
  • NUM_CONCURRENT_REQUESTS: Número de solicitudes concurrentes (por defecto: 5, máximo: 10)
  • SERPER_API_KEY: Clave de la API de búsqueda web de Serper
  • TELEMETRY_ENABLED: Interruptor de la función de telemetría (por defecto: 1)

Métodos de Uso

1. Métodos de Importación de Datos

Crear un conjunto de datos desde cero

  • Aplicable para: familiarizarse con la herramienta, lluvia de ideas, experimentos rápidos
  • Describe el conjunto de datos que deseas, la IA generará automáticamente la estructura y el contenido
  • Ejemplo: "Ciudades de todo el mundo, incluyendo el país al que pertenecen y una imagen de un punto de referencia de cada ciudad, generadas al estilo Ghibli"

Importar un conjunto de datos existente (Recomendado)

  • Formatos soportados: XLS, TSV, CSV, Parquet
  • Máximo 1000 filas, número ilimitado de columnas
  • Aplicable a la mayoría de los escenarios de procesamiento de datos del mundo real

2. Operaciones de Procesamiento de Datos

Añadir columna de IA

Haz clic en el botón "+" para añadir una nueva columna, puedes elegir:

  • Extraer información específica
  • Resumir texto largo
  • Traducir contenido
  • Prompt personalizado: "Realizar alguna operación en {{column}}"

Optimizar y expandir

  • Añadir más celdas: Arrastra hacia abajo para generar automáticamente
  • Edición manual: Edita directamente el contenido de las celdas como ejemplo
  • Mecanismo de retroalimentación: Usa el "me gusta" para marcar las buenas salidas
  • Ajuste de configuración: Modifica el prompt, cambia el modelo o el proveedor

3. Exportar y expandir

  • Exportar al Hugging Face Hub
  • Generar archivos de configuración reutilizables
  • Soporte para generación de datos por lotes con HF Jobs

Integración con Ollama

# Iniciar el servidor de Ollama
export OLLAMA_NOHISTORY=1
ollama serve
ollama run llama3

# Configurar variables de entorno
export MODEL_ENDPOINT_URL=http://localhost:11434
export MODEL_ENDPOINT_NAME=llama3

# Iniciar AI Sheets
pnpm serve

Ejemplos de Casos de Uso

Pruebas de Comparación de Modelos

  • Importar un conjunto de datos que contenga preguntas
  • Crear diferentes columnas para diferentes modelos
  • Usar un LLM como juez para comparar la calidad del modelo

Clasificación de Conjuntos de Datos

  • Importar un conjunto de datos existente del Hub
  • Añadir una columna de clasificación para categorizar el contenido
  • Verificar y editar manualmente los resultados de la clasificación inicial

Comparación de Generación de Imágenes

  • Crear un conjunto de datos de nombres y descripciones de objetos
  • Usar diferentes modelos de generación de imágenes
  • Comparar los efectos de diferentes estilos y prompts

Ventajas del Proyecto

  1. Operación sin código: No se requieren conocimientos de programación para procesar datos complejos
  2. Código abierto y gratuito: Completamente de código abierto, soporta despliegue local
  3. Modelos ricos: Acceso al ecosistema de Hugging Face
  4. Interfaz amigable: Experiencia de operación familiar similar a Excel
  5. Extensión flexible: Soporta modelos y endpoints de API personalizados
  6. Retroalimentación en tiempo real: Mejora la salida de la IA mediante la edición y los "me gusta"
  7. Procesamiento por lotes: Soporta pipelines de generación de datos a gran escala

Comunidad y Soporte

AI Sheets proporciona a científicos de datos, investigadores y desarrolladores una herramienta potente y fácil de usar, que hace que el procesamiento de datos con IA sea simple y eficiente. Ya sea para pruebas de modelos, limpieza de datos o generación de datos sintéticos, todo se puede completar rápidamente a través de una interfaz intuitiva.

Star History Chart