Modelo Manzano da Apple faz estreia impressionante: tokenizador híbrido resolve o duplo desafio da compreensão e geração de imagens

September 29, 2025
arXiv
4 min

Resumo

A equipe de pesquisa da Apple lançou recentemente o Manzano, um modelo de linguagem grande multimodal unificado que demonstra capacidades inovadoras nas áreas de compreensão e geração de imagens. O Manzano adota uma arquitetura de tokenizador de imagem híbrido, capaz de lidar simultaneamente com tarefas de compreensão e geração de imagens, alcançando níveis líderes da indústria em vários testes de benchmark, destacando-se particularmente em tarefas de compreensão de imagem intensivas em texto.


A equipe de pesquisa da Apple lançou em setembro de 2025 um modelo de imagem inovador chamado Manzano (que significa "macieira" em espanhol). Como um modelo de linguagem grande multimodal unificado, ele supera o dilema de trade-off de desempenho entre a compreensão e a geração de imagens, presente nos modelos de código aberto existentes.

De acordo com o artigo acadêmico publicado pela equipe de pesquisa da Apple, o Manzano emprega uma tecnologia única de Tokenizador de Imagem Híbrido. Esta arquitetura é composta por três componentes centrais: um codificador visual unificado, um decodificador de modelo de linguagem grande e um decodificador de imagem para a saída final. O tokenizador híbrido é capaz de gerar dois tipos de tokens a partir do mesmo codificador — tokens contínuos para tarefas de compreensão e tokens discretos para tarefas de geração.

Em termos de implementação técnica, o treinamento do Manzano é dividido em três fases. A fase de pré-treinamento utilizou 2,3 bilhões de pares imagem-texto e 1 bilhão de pares texto-para-imagem, totalizando 1,6 trilhão de tokens. O modelo é oferecido em várias versões com diferentes escalas de parâmetros, incluindo 300 milhões, 1 bilhão, 3 bilhões e 30 bilhões. A escala de parâmetros de seu decodificador de imagem varia de 900 milhões a 3,52 bilhões, suportando saídas de várias resoluções, de 256 a 2048 pixels.

Em relação à avaliação de desempenho, o Manzano demonstrou um desempenho notável nos testes de benchmark de compreensão de imagem. A versão de 3 bilhões de parâmetros alcançou 93,5 pontos no teste DocVQA, 85,7 pontos no teste OCRBench e 69,8 pontos no teste MathVista. A versão de 30 bilhões de parâmetros ficou entre os primeiros em testes de benchmark de raciocínio baseado em conhecimento, como ScienceQA e MMMU.

A capacidade de geração de imagens é igualmente impressionante. Em avaliações automatizadas como GenEval e WISE, o Manzano apresentou um desempenho comparável ao de sistemas comerciais como GPT-4o e Nano Banana do Google. Avaliações humanas indicaram que o modelo obteve altas pontuações nas três dimensões: integridade estrutural, aderência às instruções e qualidade estética.

É importante notar que o Manzano também suporta várias funções de edição de imagem, incluindo edição baseada em instruções, transferência de estilo, preenchimento de imagem (inpainting), expansão de imagem (outpainting) e estimativa de profundidade. Essas funções são alcançadas ao condicionar simultaneamente o modelo de linguagem grande e o decodificador de difusão a uma imagem de referência.

A equipe de pesquisa da Apple enfatiza no artigo que a filosofia de design do Manzano é a simplicidade e a escalabilidade. O modelo utiliza uma função objetivo autorregressiva unificada, sem a necessidade de perdas auxiliares adicionais ou cabeças específicas da tarefa, e seus componentes são claramente desacoplados, facilitando a expansão independente. A pesquisa demonstra que o aumento da escala do decodificador do modelo de linguagem resulta em melhorias consistentes de desempenho tanto nas tarefas de compreensão quanto de geração.

Atualmente, o Manzano ainda não foi lançado ao público e nenhuma versão de demonstração foi fornecida. A equipe de pesquisa da Apple compartilhou apenas o artigo acadêmico e amostras de imagens de baixa resolução para referência da comunidade de pesquisa. Os resultados da pesquisa do modelo foram publicados abertamente na plataforma arXiv.

Especialistas da indústria acreditam que o Manzano representa uma nova direção no desenvolvimento de modelos multimodais unificados. Sua arquitetura de tokenizador híbrido aliviou efetivamente o conflito entre as tarefas de compreensão visual e geração, oferecendo novas ideias para o design de futuros sistemas de IA multimodal. Com a expansão contínua da escala do modelo e a otimização dos métodos de treinamento, espera-se que os modelos multimodais unificados desempenhem um papel em mais cenários de aplicação prática.