Le modèle Manzano d'Apple fait une entrée fracassante : un tokenizer hybride résout le double défi de la compréhension et de la génération d'images
Résumé
L'équipe de recherche d'Apple a récemment dévoilé Manzano, un grand modèle de langage multimodal unifié, démontrant des capacités révolutionnaires dans les domaines de la compréhension et de la génération d'images. Adoptant une architecture de tokenizer d'image hybride, Manzano peut gérer simultanément les tâches de compréhension et de génération d'images, atteignant des performances de pointe sur plusieurs benchmarks, et excellant particulièrement dans les tâches de compréhension d'images à forte densité textuelle.
L'équipe de recherche d'Apple a dévoilé en septembre 2025 un modèle d'image innovant nommé Manzano (qui signifie "pommier" en espagnol). Ce modèle, en tant que grand modèle de langage multimodal unifié, résout le dilemme du compromis de performance entre la compréhension et la génération d'images que rencontrent les modèles open source existants.
Selon l'article académique publié par l'équipe de recherche d'Apple, Manzano utilise une technologie unique de tokenizer d'image hybride (Hybrid Image Tokenizer). Cette architecture est composée de trois composants clés : un encodeur visuel unifié, un décodeur de grand modèle de langage, et un décodeur d'image pour la sortie finale. Le tokenizer hybride est capable de générer deux types de tokens à partir du même encodeur : des tokens continus pour les tâches de compréhension et des tokens discrets pour les tâches de génération.
Sur le plan technique, l'entraînement de Manzano se déroule en trois phases. La phase de pré-entraînement a utilisé 2,3 milliards de paires image-texte et 1 milliard de paires texte-image, totalisant 1,6 billion de tokens. Le modèle est disponible en plusieurs versions de taille de paramètres, notamment 300 millions, 1 milliard, 3 milliards et 30 milliards, avec des décodeurs d'image allant de 900 millions à 3,52 milliards de paramètres, prenant en charge des sorties de diverses résolutions, de 256 à 2048 pixels.
En termes d'évaluation des performances, Manzano s'est distingué dans les benchmarks de compréhension d'images. La version à 3 milliards de paramètres a obtenu un score de 93,5 sur DocVQA, 85,7 sur OCRBench et 69,8 sur MathVista. La version à 30 milliards de paramètres s'est classée parmi les meilleures dans les benchmarks de raisonnement basés sur la connaissance tels que ScienceQA et MMMU.
Ses capacités de génération d'images sont également impressionnantes. Dans les évaluations automatisées comme GenEval et WISE, Manzano a montré des performances comparables à celles de systèmes commerciaux tels que GPT-4o et Nano Banana de Google. Les évaluations humaines ont révélé que le modèle a obtenu des scores élevés sur les trois dimensions : intégrité structurelle, respect des instructions et qualité esthétique.
Il est à noter que Manzano prend également en charge diverses fonctions d'édition d'images, y compris l'édition basée sur des instructions, le transfert de style, l'inpainting (remplissage d'image), l'outpainting (extension d'image) et l'estimation de profondeur. Ces fonctionnalités sont réalisées en conditionnant simultanément le grand modèle de langage et le décodeur de diffusion sur une image de référence.
L'équipe de recherche d'Apple souligne dans son article que la philosophie de conception de Manzano repose sur la simplicité et l'évolutivité. Le modèle utilise une fonction objectif autorégressive unifiée, ne nécessitant aucune perte auxiliaire supplémentaire ni de têtes spécifiques à la tâche, et ses composants sont clairement découplés, facilitant une extension indépendante. Les recherches indiquent que l'augmentation de la taille du décodeur du modèle de langage entraîne une amélioration constante des performances pour les tâches de compréhension et de génération.
Actuellement, Manzano n'a pas été rendu public et aucune version de démonstration n'est disponible. L'équipe de recherche d'Apple a seulement partagé l'article académique et des échantillons d'images à basse résolution pour la communauté de recherche. Les résultats de la recherche sur ce modèle ont été publiés publiquement sur la plateforme arXiv.
Les experts de l'industrie estiment que Manzano représente une nouvelle direction dans le développement des modèles multimodaux unifiés. Son architecture de tokenizer hybride atténue efficacement les conflits entre les tâches de compréhension visuelle et de génération, offrant de nouvelles perspectives pour la conception des futurs systèmes d'IA multimodaux. Avec l'extension future de la taille du modèle et l'optimisation des méthodes d'entraînement, les modèles multimodaux unifiés devraient jouer un rôle dans un plus grand nombre de scénarios d'application réels.