苹果Manzano模型震撼登场:混合标记器破解图像理解生成双重难题
摘要
苹果研究团队近日发布名为Manzano的统一多模态大语言模型,该模型在图像理解和生成领域展现突破性能力。Manzano采用混合图像标记器架构,能够同时处理图像理解和生成任务,在多项基准测试中达到业界领先水平,特别是在文本密集型图像理解任务上表现优异。
苹果公司研究团队于2025年9月发布了一款名为Manzano(西班牙语中"苹果树"之意)的创新图像模型。该模型作为统一多模态大语言模型,打破了现有开源模型在图像理解和生成之间的性能权衡难题。
根据苹果研究团队发表的学术论文,Manzano采用了独特的混合图像标记器(Hybrid Image Tokenizer)技术。该架构由三个核心组件构成:统一的视觉编码器、大语言模型解码器,以及用于最终输出的图像解码器。其中,混合标记器能够从同一编码器生成两种类型的token——用于理解任务的连续token和用于生成任务的离散token。
在技术实现上,Manzano的训练分为三个阶段。预训练阶段使用了23亿图像文本对和10亿文本到图像对,总计1.6万亿tokens。模型提供了3亿、10亿、30亿和300亿等多个参数规模版本,其图像解码器参数规模从9亿到35.2亿不等,支持256至2048像素的多种分辨率输出。
在性能评测方面,Manzano在图像理解基准测试中表现突出。30亿参数版本在DocVQA测试中达到93.5分,在OCRBench测试中获得85.7分,在MathVista测试中取得69.8分。300亿参数版本在ScienceQA、MMMU等知识推理型基准测试中均位居前列。
图像生成能力同样亮眼。在GenEval和WISE等自动化评测中,Manzano与GPT-4o和Google的Nano Banana等商业系统表现相当。人工评估显示,该模型在结构完整性、指令遵循和美学质量三个维度均获得了较高评分。
值得注意的是,Manzano还支持多种图像编辑功能,包括基于指令的编辑、风格迁移、图像修复(inpainting)、图像扩展(outpainting)以及深度估计等。这些功能通过让大语言模型和扩散解码器同时以参考图像为条件来实现。
苹果研究团队在论文中强调,Manzano的设计理念是简洁性和可扩展性。模型采用统一的自回归目标函数,无需额外的辅助损失或任务特定头,各组件间清晰解耦,便于独立扩展。研究表明,扩大语言模型解码器规模能够在理解和生成任务上带来一致的性能提升。
目前,Manzano尚未向公众发布,也没有提供演示版本。苹果研究团队仅分享了学术论文和低分辨率的图像样本供研究社区参考。该模型的研究成果已在arXiv平台上公开发表。
业内专家认为,Manzano代表了统一多模态模型发展的新方向。其混合标记器架构有效缓解了视觉理解和生成任务之间的冲突,为未来多模态AI系统的设计提供了新思路。随着模型规模的进一步扩展和训练方法的优化,统一多模态模型有望在更多实际应用场景中发挥作用。