蘋果Manzano模型震撼登場:混合標記器破解圖像理解生成雙重難題

September 29, 2025
arXiv
3 min

摘要

蘋果研究團隊近日發布名為Manzano的統一多模態大語言模型,該模型在圖像理解和生成領域展現突破性能力。Manzano採用混合圖像標記器架構,能夠同時處理圖像理解和生成任務,在多項基準測試中達到業界領先水平,特別是在文本密集型圖像理解任務上表現優異。


蘋果公司研究團隊於2025年9月發布了一款名為Manzano(西班牙語中「蘋果樹」之意)的創新圖像模型。該模型作為統一多模態大語言模型,打破了現有開源模型在圖像理解和生成之間的性能權衡難題。

根據蘋果研究團隊發表的學術論文,Manzano採用了獨特的混合圖像標記器(Hybrid Image Tokenizer)技術。該架構由三個核心組件構成:統一的視覺編碼器、大語言模型解碼器,以及用於最終輸出的圖像解碼器。其中,混合標記器能夠從同一編碼器生成兩種類型的token——用於理解任務的連續token和用於生成任務的離散token。

在技術實現上,Manzano的訓練分為三個階段。預訓練階段使用了23億圖像文本對和10億文本到圖像對,總計1.6萬億tokens。模型提供了3億、10億、30億和300億等多個參數規模版本,其圖像解碼器參數規模從9億到35.2億不等,支持256至2048像素的多種解析度輸出。

在性能評測方面,Manzano在圖像理解基準測試中表現突出。30億參數版本在DocVQA測試中達到93.5分,在OCRBench測試中獲得85.7分,在MathVista測試中取得69.8分。300億參數版本在ScienceQA、MMMU等知識推理型基準測試中均位居前列。

圖像生成能力同樣亮眼。在GenEval和WISE等自動化評測中,Manzano與GPT-4o和Google的Nano Banana等商業系統表現相當。人工評估顯示,該模型在結構完整性、指令遵循和美學品質三個維度均獲得了較高評分。

值得注意的是,Manzano還支持多種圖像編輯功能,包括基於指令的編輯、風格遷移、圖像修復(inpainting)、圖像擴展(outpainting)以及深度估計等。這些功能通過讓大語言模型和擴散解碼器同時以參考圖像為條件來實現。

蘋果研究團隊在論文中強調,Manzano的設計理念是簡潔性和可擴展性。模型採用統一的自回歸目標函數,無需額外的輔助損失或任務特定頭,各組件間清晰解耦,便於獨立擴展。研究表明,擴大語言模型解碼器規模能夠在理解和生成任務上帶來一致的性能提升。

目前,Manzano尚未向公眾發布,也沒有提供演示版本。蘋果研究團隊僅分享了學術論文和低解析度的圖像樣本供研究社群參考。該模型的研究成果已在arXiv平台上公開發表。

業內專家認為,Manzano代表了統一多模態模型發展的新方向。其混合標記器架構有效緩解了視覺理解和生成任務之間的衝突,為未來多模態AI系統的設計提供了新思路。隨著模型規模的進一步擴展和訓練方法的優化,統一多模態模型有望在更多實際應用場景中發揮作用。