VectorSpaceLab/OmniGen2Please refer to the latest official releases for information GitHub Homepage
Modelo avanzado de IA generativa multimodal que admite la generación de imágenes a partir de texto, la edición de imágenes guiada por instrucciones y la generación contextual.
Apache-2.0Jupyter Notebook 3.4kVectorSpaceLabOmniGen2 Last Updated: 2025-07-05
Descripción Detallada del Proyecto OmniGen2
Resumen del Proyecto
OmniGen2 es un modelo avanzado de IA generativa multimodal, diseñado como una solución unificada para diversas tareas de generación. Es una versión mejorada de OmniGen v1, que ofrece funcionalidades más potentes y una mayor eficiencia.
Características Principales
1. Arquitectura Multimodal Unificada
- Diseño de Ruta de Decodificación Dual: A diferencia de OmniGen v1, OmniGen2 cuenta con dos rutas de decodificación únicas para las modalidades de texto e imagen, utilizando parámetros no compartidos y un tokenizador de imagen desacoplado.
- Basado en Qwen-VL-2.5: Construido sobre Qwen-VL-2.5, con rutas de decodificación únicas para las modalidades de texto e imagen.
- No Requiere Readaptación de Entrada VAE: Este diseño permite que OmniGen2 se construya sobre modelos de comprensión multimodal existentes sin necesidad de readaptar la entrada VAE.
2. Cuatro Capacidades Centrales
OmniGen2 ofrece un rendimiento competitivo en cuatro funciones principales:
Comprensión Visual (Visual Understanding)
- Capaz de comprender y analizar el contenido de las imágenes.
- Soporta tareas complejas de razonamiento visual.
Generación de Texto a Imagen (Text-to-Image Generation)
- Genera imágenes de alta calidad a partir de descripciones de texto.
- Soporta diversas necesidades creativas.
Edición de Imágenes Guiada por Instrucciones (Instruction-Guided Image Editing)
- Edita imágenes mediante instrucciones en lenguaje natural.
- Capaz de editar una sola imagen, combinar imágenes, unificar conceptos y objetos en múltiples imágenes.
Generación en Contexto (In-Context Generation)
- Genera contenido basado en información contextual.
- Soporta tareas complejas de procesamiento de múltiples imágenes.
3. Ventajas Técnicas
Capacidad de Procesamiento Eficiente
- Destaca en la entrada de fotos individuales y múltiples, capaz de generar imágenes de alta calidad que respetan las imágenes de entrada originales y se ajustan a las indicaciones de texto.
- Soporta la descarga a CPU (CPU offloading) para mejorar la eficiencia de la inferencia.
Escenarios de Aplicación Flexibles
- Adecuado para creadores, desarrolladores y empresas.
- Marco unificado que soporta múltiples tareas de generación.
Arquitectura Técnica
Arquitectura de Doble Componente
OmniGen2 utiliza una arquitectura de doble componente:
- Ruta de procesamiento de texto independiente.
- Ruta de procesamiento de imagen independiente.
- Tokenizador de imagen desacoplado.
Base del Modelo
- Basado en modelos avanzados de comprensión multimodal.
- Adopta un marco de generación unificado.
- Soporta entrenamiento e inferencia de extremo a extremo.
Instalación y Uso
Requisitos del Entorno
# 1. Clonar el repositorio
git clone git@github.com:VectorSpaceLab/OmniGen2.git
cd OmniGen2
# 2. (Opcional) Crear entorno Python
conda create -n omnigen2 python=3.11
conda activate omnigen2
# 3. Instalar dependencias
# 3.1 Instalar PyTorch (seleccionar la versión correcta de CUDA)
Integración de Funcionalidades
- Integración con Diffusers: Soporta la integración con la biblioteca Diffusers.
- Demostración con ComfyUI: Proporciona soporte para la interfaz ComfyUI.
- Pipeline de Datos de Entrenamiento: Proceso completo de construcción de datos de entrenamiento.
Características de Rendimiento
Calidad de Generación
- Capacidad de generación de imágenes de alta calidad.
- Comprensión y ejecución precisa de las instrucciones.
- Mantiene las características de la imagen original mientras cumple con los requisitos de edición.
Optimización de la Eficiencia
- Soporta la descarga a CPU para optimizar el uso de memoria.
- Eficiencia de inferencia mejorada.
- Uso de memoria y costo de tiempo optimizados.
Escenarios de Aplicación
Diseño Creativo
- Creación de arte conceptual.
- Visualización de diseño de productos.
- Generación de material de marketing.
Edición de Contenido
- Post-procesamiento de imágenes.
- Transformación de estilo.
- Adición/eliminación de objetos.
Educación e Investigación
- Herramienta de investigación académica.
- Demostraciones didácticas.
- Prueba de concepto.
Ecosistema de Código Abierto
Soporte Comunitario
- Licencia de código abierto: Apache-2.0.
- Comunidad activa en GitHub.
- Actualizaciones y mejoras continuas de funcionalidades.
Disponibilidad de Recursos
- Código fuente completo.
- Documentación detallada.
- Ejemplos y tutoriales.
Informe Técnico y Benchmarking
Resultados de Investigación
- Publicación de un informe técnico detallado.
- Provisión de un benchmark de generación en contexto: OmniContext.
- Evaluación y mejora continua del rendimiento.
Disponibilidad del Modelo
- Modelos preentrenados disponibles en Hugging Face Model Hub.
- Soporte para despliegue local.
- Interfaz API en la nube.