VectorSpaceLab/OmniGen2View GitHub Homepage for Latest Official Releases

Modelo avanzado de IA generativa multimodal que admite la generación de imágenes a partir de texto, la edición de imágenes guiada por instrucciones y la generación contextual.

Apache-2.0Jupyter NotebookOmniGen2VectorSpaceLab 3.8k Last Updated: July 23, 2025

Descripción Detallada del Proyecto OmniGen2

Resumen del Proyecto

OmniGen2 es un modelo avanzado de IA generativa multimodal, diseñado como una solución unificada para diversas tareas de generación. Es una versión mejorada de OmniGen v1, que ofrece funcionalidades más potentes y una mayor eficiencia.

Características Principales

1. Arquitectura Multimodal Unificada

Diseño de Ruta de Decodificación Dual: A diferencia de OmniGen v1, OmniGen2 cuenta con dos rutas de decodificación únicas para las modalidades de texto e imagen, utilizando parámetros no compartidos y un tokenizador de imagen desacoplado.
Basado en Qwen-VL-2.5: Construido sobre Qwen-VL-2.5, con rutas de decodificación únicas para las modalidades de texto e imagen.
No Requiere Readaptación de Entrada VAE: Este diseño permite que OmniGen2 se construya sobre modelos de comprensión multimodal existentes sin necesidad de readaptar la entrada VAE.

2. Cuatro Capacidades Centrales

OmniGen2 ofrece un rendimiento competitivo en cuatro funciones principales:

Comprensión Visual (Visual Understanding)

Capaz de comprender y analizar el contenido de las imágenes.
Soporta tareas complejas de razonamiento visual.

Generación de Texto a Imagen (Text-to-Image Generation)

Genera imágenes de alta calidad a partir de descripciones de texto.
Soporta diversas necesidades creativas.

Edición de Imágenes Guiada por Instrucciones (Instruction-Guided Image Editing)

Edita imágenes mediante instrucciones en lenguaje natural.
Capaz de editar una sola imagen, combinar imágenes, unificar conceptos y objetos en múltiples imágenes.

Generación en Contexto (In-Context Generation)

Genera contenido basado en información contextual.
Soporta tareas complejas de procesamiento de múltiples imágenes.

3. Ventajas Técnicas

Capacidad de Procesamiento Eficiente

Destaca en la entrada de fotos individuales y múltiples, capaz de generar imágenes de alta calidad que respetan las imágenes de entrada originales y se ajustan a las indicaciones de texto.
Soporta la descarga a CPU (CPU offloading) para mejorar la eficiencia de la inferencia.

Escenarios de Aplicación Flexibles

Adecuado para creadores, desarrolladores y empresas.
Marco unificado que soporta múltiples tareas de generación.

Arquitectura Técnica

Arquitectura de Doble Componente

OmniGen2 utiliza una arquitectura de doble componente:

Ruta de procesamiento de texto independiente.
Ruta de procesamiento de imagen independiente.
Tokenizador de imagen desacoplado.

Base del Modelo

Basado en modelos avanzados de comprensión multimodal.
Adopta un marco de generación unificado.
Soporta entrenamiento e inferencia de extremo a extremo.

Instalación y Uso

Requisitos del Entorno

# 1. Clonar el repositorio
git clone git@github.com:VectorSpaceLab/OmniGen2.git
cd OmniGen2

# 2. (Opcional) Crear entorno Python
conda create -n omnigen2 python=3.11
conda activate omnigen2

# 3. Instalar dependencias
# 3.1 Instalar PyTorch (seleccionar la versión correcta de CUDA)

Integración de Funcionalidades

Integración con Diffusers: Soporta la integración con la biblioteca Diffusers.
Demostración con ComfyUI: Proporciona soporte para la interfaz ComfyUI.
Pipeline de Datos de Entrenamiento: Proceso completo de construcción de datos de entrenamiento.

Características de Rendimiento

Calidad de Generación

Capacidad de generación de imágenes de alta calidad.
Comprensión y ejecución precisa de las instrucciones.
Mantiene las características de la imagen original mientras cumple con los requisitos de edición.

Optimización de la Eficiencia

Soporta la descarga a CPU para optimizar el uso de memoria.
Eficiencia de inferencia mejorada.
Uso de memoria y costo de tiempo optimizados.

Escenarios de Aplicación

Diseño Creativo

Creación de arte conceptual.
Visualización de diseño de productos.
Generación de material de marketing.

Edición de Contenido

Post-procesamiento de imágenes.
Transformación de estilo.
Adición/eliminación de objetos.

Educación e Investigación

Herramienta de investigación académica.
Demostraciones didácticas.
Prueba de concepto.

Ecosistema de Código Abierto

Soporte Comunitario

Licencia de código abierto: Apache-2.0.
Comunidad activa en GitHub.
Actualizaciones y mejoras continuas de funcionalidades.

Disponibilidad de Recursos

Código fuente completo.
Documentación detallada.
Ejemplos y tutoriales.

Informe Técnico y Benchmarking

Resultados de Investigación

Publicación de un informe técnico detallado.
Provisión de un benchmark de generación en contexto: OmniContext.
Evaluación y mejora continua del rendimiento.

Disponibilidad del Modelo

Modelos preentrenados disponibles en Hugging Face Model Hub.
Soporte para despliegue local.
Interfaz API en la nube.