El modelo Manzano de Apple debuta con fuerza: el tokenizador híbrido resuelve el doble desafío de la comprensión y generación de imágenes

September 29, 2025
arXiv
4 min

Resumen

El equipo de investigación de Apple ha lanzado recientemente Manzano, un modelo de lenguaje grande multimodal unificado, que demuestra capacidades innovadoras en el campo de la comprensión y generación de imágenes. Manzano emplea una arquitectura de tokenizador de imágenes híbrido, capaz de procesar simultáneamente tareas de comprensión y generación de imágenes, alcanzando niveles líderes en la industria en varias pruebas de referencia, destacando especialmente en tareas de comprensión de imágenes con gran densidad de texto.


El equipo de investigación de Apple lanzó en septiembre de 2025 un innovador modelo de imagen llamado Manzano (que significa "manzano" en español). Este modelo, como un modelo de lenguaje grande multimodal unificado, resuelve el desafío del compromiso de rendimiento entre la comprensión y la generación de imágenes que enfrentan los modelos de código abierto existentes.

Según el artículo académico publicado por el equipo de investigación de Apple, Manzano utiliza una tecnología única de Tokenizador de Imágenes Híbrido (Hybrid Image Tokenizer). Esta arquitectura se compone de tres componentes centrales: un codificador visual unificado, un decodificador de modelo de lenguaje grande y un decodificador de imágenes para la salida final. El tokenizador híbrido es capaz de generar dos tipos de tokens desde el mismo codificador: tokens continuos para tareas de comprensión y tokens discretos para tareas de generación.

En cuanto a la implementación técnica, el entrenamiento de Manzano se divide en tres fases. La fase de preentrenamiento utilizó 2.300 millones de pares de imagen-texto y 1.000 millones de pares de texto-a-imagen, totalizando 1.6 billones de tokens. El modelo se ofrece en varias versiones con diferentes escalas de parámetros, incluyendo 300 millones, 1.000 millones, 3.000 millones y 30.000 millones, con el decodificador de imágenes variando de 900 millones a 3.520 millones de parámetros, y soportando múltiples resoluciones de salida desde 256 hasta 2048 píxeles.

En términos de evaluación de rendimiento, Manzano ha demostrado un desempeño sobresaliente en las pruebas de referencia de comprensión de imágenes. La versión de 3.000 millones de parámetros alcanzó una puntuación de 93.5 en la prueba DocVQA, 85.7 en la prueba OCRBench y 69.8 en la prueba MathVista. La versión de 30.000 millones de parámetros se posicionó entre las primeras en pruebas de referencia de razonamiento de conocimiento como ScienceQA y MMMU.

Las capacidades de generación de imágenes son igualmente impresionantes. En evaluaciones automatizadas como GenEval y WISE, Manzano mostró un rendimiento comparable al de sistemas comerciales como GPT-4o y Nano Banana de Google. Las evaluaciones humanas indicaron que el modelo obtuvo altas puntuaciones en las tres dimensiones de integridad estructural, seguimiento de instrucciones y calidad estética.

Cabe destacar que Manzano también soporta diversas funciones de edición de imágenes, incluyendo edición basada en instrucciones, transferencia de estilo, relleno de imágenes (inpainting), expansión de imágenes (outpainting) y estimación de profundidad, entre otras. Estas funciones se logran al condicionar simultáneamente el modelo de lenguaje grande y el decodificador de difusión a una imagen de referencia.

El equipo de investigación de Apple enfatiza en el artículo que la filosofía de diseño de Manzano se basa en la simplicidad y la escalabilidad. El modelo emplea una función objetivo autorregresiva unificada, sin necesidad de pérdidas auxiliares adicionales o cabezales específicos para tareas, y sus componentes están claramente desacoplados, lo que facilita su expansión independiente. La investigación muestra que aumentar la escala del decodificador del modelo de lenguaje conduce a una mejora consistente del rendimiento tanto en tareas de comprensión como de generación.

Actualmente, Manzano no ha sido lanzado al público ni se ha proporcionado una versión de demostración. El equipo de investigación de Apple solo ha compartido el artículo académico y muestras de imágenes de baja resolución para la comunidad de investigación. Los resultados de la investigación de este modelo han sido publicados públicamente en la plataforma arXiv.

Expertos de la industria consideran que Manzano representa una nueva dirección en el desarrollo de modelos multimodales unificados. Su arquitectura de tokenizador híbrido alivia eficazmente los conflictos entre las tareas de comprensión y generación visual, ofreciendo nuevas ideas para el diseño de futuros sistemas de IA multimodal. Con una mayor expansión de la escala del modelo y la optimización de los métodos de entrenamiento, se espera que los modelos multimodales unificados desempeñen un papel en más escenarios de aplicación práctica.