VectorSpaceLab/OmniGen2Please refer to the latest official releases for information GitHub Homepage

Modèle d'IA générative multimodale avancé, prenant en charge la génération d'images à partir de texte, l'édition d'images guidée par des instructions et la génération contextuelle.

Apache-2.0Jupyter Notebook 3.4kVectorSpaceLabOmniGen2 Last Updated: 2025-07-05

Présentation détaillée du projet OmniGen2

Aperçu du projet

OmniGen2 est un modèle d'IA générative multimodale avancé, une solution unifiée conçue pour diverses tâches de génération. C'est une version améliorée d'OmniGen v1, offrant des fonctionnalités plus puissantes et une efficacité accrue.

Fonctionnalités clés

1. Architecture multimodale unifiée

Conception à double chemin de décodage : Contrairement à OmniGen v1, OmniGen2 dispose de deux chemins de décodage uniques pour les modalités texte et image, utilisant des paramètres non partagés et un tokeniseur d'image découplé.
Basé sur Qwen-VL-2.5 : Construit sur Qwen-VL-2.5, avec des chemins de décodage uniques pour les modalités texte et image.
Pas de réadaptation de l'entrée VAE requise : Cette conception permet à OmniGen2 de s'appuyer sur les modèles de compréhension multimodale existants, sans nécessiter de réadaptation de l'entrée VAE.

2. Quatre capacités fondamentales

OmniGen2 offre des performances compétitives dans quatre fonctions principales :

Compréhension visuelle (Visual Understanding)

Capacité à comprendre et analyser le contenu des images
Prend en charge les tâches complexes de raisonnement visuel

Génération de texte en image (Text-to-Image Generation)

Génère des images de haute qualité à partir de descriptions textuelles
Prend en charge une variété de besoins créatifs

Édition d'images guidée par des instructions (Instruction-Guided Image Editing)

Permet d'éditer des images via des instructions en langage naturel
Capable d'éditer des images uniques, de combiner des images, et d'unifier des concepts et des objets à travers plusieurs images.

Génération contextuelle (In-Context Generation)

Génère du contenu basé sur des informations contextuelles
Prend en charge les tâches complexes de traitement multi-images

3. Avantages techniques

Capacités de traitement efficaces

Excellentes performances avec des entrées d'une ou plusieurs photos, capable de générer des images de haute qualité qui respectent à la fois l'image d'entrée originale et l'invite textuelle.
Prend en charge le déchargement CPU pour améliorer l'efficacité de l'inférence.

Scénarios d'application flexibles

Convient aux créateurs, développeurs et entreprises
Cadre unifié prenant en charge diverses tâches de génération

Architecture technique

Architecture à double composant

OmniGen2 utilise une architecture à double composant :

Chemin de traitement de texte indépendant
Chemin de traitement d'image indépendant
Tokeniseur d'image découplé

Fondement du modèle

Basé sur des modèles avancés de compréhension multimodale
Adopte un cadre de génération unifié
Prend en charge l'entraînement et l'inférence de bout en bout

Installation et utilisation

Exigences environnementales

# 1. Cloner le dépôt
git clone git@github.com:VectorSpaceLab/OmniGen2.git
cd OmniGen2

# 2. (Optionnel) Créer un environnement Python
conda create -n omnigen2 python=3.11
conda activate omnigen2

# 3. Installer les dépendances
# 3.1 Installer PyTorch (choisir la bonne version CUDA)

Intégration des fonctionnalités

Intégration Diffusers : Prend en charge l'intégration avec la bibliothèque Diffusers
Démonstration ComfyUI : Offre un support d'interface ComfyUI
Pipeline de données d'entraînement : Processus complet de construction des données d'entraînement

Caractéristiques de performance

Qualité de génération

Capacité de génération d'images de haute qualité
Compréhension et exécution précises des instructions
Maintient les caractéristiques de l'image originale tout en répondant aux exigences d'édition

Optimisation de l'efficacité

Prend en charge le déchargement CPU pour optimiser l'utilisation de la mémoire
Efficacité d'inférence améliorée
Empreinte mémoire et coût temporel optimisés

Scénarios d'application

Conception créative

Création d'art conceptuel
Visualisation de la conception de produits
Génération de matériel marketing

Édition de contenu

Post-traitement d'images
Transfert de style
Ajout/suppression d'objets

Éducation et recherche

Outil de recherche académique
Démonstrations pédagogiques
Preuve de concept

Écosystème open source

Support communautaire

Licence open source : Apache-2.0
Communauté GitHub active
Mises à jour et améliorations continues des fonctionnalités

Disponibilité des ressources

Code source complet
Documentation détaillée
Exemples et tutoriels

Rapports techniques et tests de référence

Résultats de recherche

Publication d'un rapport technique détaillé
Fournit un test de référence pour la génération contextuelle : OmniContext
Évaluation et amélioration continues des performances

Disponibilité du modèle

Modèles pré-entraînés disponibles sur le Hugging Face Model Hub
Prend en charge le déploiement local
Interface API cloud