Apple Manzanoモデルが衝撃的なデビュー:ハイブリッドトークナイザーが画像理解と生成の二重の難題を解決
概要
Appleの研究チームは先日、Manzanoと名付けられた統一マルチモーダル大規模言語モデルを発表しました。このモデルは、画像理解と生成の分野で画期的な能力を発揮します。Manzanoはハイブリッド画像トークナイザーアーキテクチャを採用しており、画像理解と生成タスクを同時に処理できます。複数のベンチマークテストで業界トップレベルの性能を達成し、特にテキスト密度の高い画像理解タスクで優れたパフォーマンスを示しています。
Appleの研究チームは、2025年9月にManzano(スペイン語で「リンゴの木」の意)と名付けられた革新的な画像モデルを発表しました。このモデルは、統一マルチモーダル大規模言語モデルとして、既存のオープンソースモデルにおける画像理解と生成の間の性能トレードオフの課題を打ち破りました。
Appleの研究チームが発表した学術論文によると、Manzanoは独自のハイブリッド画像トークナイザー技術を採用しています。このアーキテクチャは、統一された視覚エンコーダー、大規模言語モデルデコーダー、そして最終出力用の画像デコーダーという3つの主要コンポーネントで構成されています。中でも、ハイブリッドトークナイザーは、同じエンコーダーから2種類のトークンを生成できます。それは、理解タスク用の連続トークンと、生成タスク用の離散トークンです。
技術的な実装において、Manzanoのトレーニングは3つのフェーズに分かれています。事前学習フェーズでは、23億の画像-テキストペアと10億のテキスト-画像ペアが使用され、合計1.6兆トークンに達します。モデルは、3億、10億、30億、300億など複数のパラメータ規模バージョンを提供しており、その画像デコーダーのパラメータ規模は9億から35.2億まで様々で、256から2048ピクセルまでの多様な解像度出力をサポートしています。
性能評価の面では、Manzanoは画像理解ベンチマークテストで際立ったパフォーマンスを発揮しました。30億パラメータバージョンは、DocVQAテストで93.5点、OCRBenchテストで85.7点、MathVistaテストで69.8点を達成しました。300億パラメータバージョンは、ScienceQA、MMMUなどの知識推論型ベンチマークテストでいずれも上位にランクインしました。
画像生成能力も同様に目覚ましいものです。GenEvalやWISEなどの自動評価において、ManzanoはGPT-4oやGoogleのNano Bananaといった商用システムと同等の性能を示しました。人間による評価では、このモデルは構造の完全性、指示への従順性、美的品質の3つの側面すべてで高い評価を得ました。
特筆すべきは、Manzanoが指示ベースの編集、スタイル転送、インペインティング(画像修復)、アウトペインティング(画像拡張)、深度推定など、多様な画像編集機能もサポートしている点です。これらの機能は、大規模言語モデルと拡散デコーダーが参照画像を同時に条件として使用することで実現されます。
Appleの研究チームは論文の中で、Manzanoの設計思想がシンプルさとスケーラビリティにあることを強調しています。モデルは統一された自己回帰目標関数を採用しており、追加の補助損失やタスク固有のヘッドは不要で、各コンポーネントは明確に分離されており、独立した拡張が容易です。研究により、言語モデルデコーダーの規模を拡大することで、理解タスクと生成タスクの両方で一貫した性能向上がもたらされることが示されています。
現在、Manzanoは一般公開されておらず、デモンストレーション版も提供されていません。Appleの研究チームは、研究コミュニティの参考のために学術論文と低解像度の画像サンプルのみを共有しています。このモデルの研究成果は、arXivプラットフォームで公開されています。
業界の専門家は、Manzanoが統一マルチモーダルモデル開発の新たな方向性を示していると考えています。そのハイブリッドトークナイザーアーキテクチャは、視覚理解タスクと生成タスク間の競合を効果的に緩和し、将来のマルチモーダルAIシステムの設計に新たな視点を提供します。モデル規模のさらなる拡張とトレーニング方法の最適化により、統一マルチモーダルモデルはより多くの実際のアプリケーションシナリオでその役割を果たすことが期待されます。