Apples Manzano-Modell feiert beeindruckendes Debüt: Hybrid-Tokenisierer löst doppelte Herausforderung des Bildverständnisses und der -generierung

September 29, 2025
arXiv
3 min

Zusammenfassung

Das Apple-Forschungsteam hat kürzlich ein vereinheitlichtes multimodales großes Sprachmodell namens Manzano vorgestellt, das bahnbrechende Fähigkeiten im Bereich des Bildverständnisses und der Bildgenerierung zeigt. Manzano verwendet eine hybride Bild-Tokenizer-Architektur, die in der Lage ist, sowohl Bildverständnis- als auch Bildgenerierungsaufgaben gleichzeitig zu verarbeiten. Es erreicht in mehreren Benchmarks branchenführende Leistungen, insbesondere bei textintensiven Bildverständnisaufgaben.


Das Forschungsteam von Apple hat im September 2025 ein innovatives Bildmodell namens Manzano (spanisch für „Apfelbaum“) vorgestellt. Als vereinheitlichtes multimodales großes Sprachmodell überwindet es das Leistungskompromiss-Dilemma zwischen Bildverständnis und -generierung, das bei bestehenden Open-Source-Modellen auftritt.

Laut dem vom Apple-Forschungsteam veröffentlichten wissenschaftlichen Artikel verwendet Manzano eine einzigartige Hybrid Image Tokenizer-Technologie. Diese Architektur besteht aus drei Kernkomponenten: einem vereinheitlichten visuellen Encoder, einem großen Sprachmodell-Decoder und einem Bild-Decoder für die endgültige Ausgabe. Dabei kann der Hybrid-Tokenizer aus demselben Encoder zwei Arten von Tokens generieren – kontinuierliche Tokens für Verständnisaufgaben und diskrete Tokens für Generierungsaufgaben.

Technisch gesehen erfolgte das Training von Manzano in drei Phasen. Die Vortrainingsphase nutzte 2,3 Milliarden Bild-Text-Paare und 1 Milliarde Text-zu-Bild-Paare, was insgesamt 1,6 Billionen Tokens entspricht. Das Modell ist in mehreren Parametergrößen erhältlich, darunter 300 Millionen, 1 Milliarde, 3 Milliarden und 30 Milliarden Parameter. Die Parametergröße des Bild-Decoders variiert von 900 Millionen bis 3,52 Milliarden, und es unterstützt verschiedene Auflösungen von 256 bis 2048 Pixeln für die Ausgabe.

In Bezug auf die Leistungsbewertung zeigte Manzano herausragende Ergebnisse bei Benchmarks für das Bildverständnis. Die 3-Milliarden-Parameter-Version erreichte 93,5 Punkte im DocVQA-Test, 85,7 Punkte im OCRBench-Test und 69,8 Punkte im MathVista-Test. Die 30-Milliarden-Parameter-Version belegte bei wissensbasierten Inferenz-Benchmarks wie ScienceQA und MMMU Spitzenplätze.

Die Bildgenerierungsfähigkeiten sind ebenfalls beeindruckend. In automatisierten Bewertungen wie GenEval und WISE zeigte Manzano eine vergleichbare Leistung wie kommerzielle Systeme wie GPT-4o und Googles Nano Banana. Menschliche Bewertungen zeigten, dass das Modell in den drei Dimensionen strukturelle Integrität, Befolgung von Anweisungen und ästhetische Qualität hohe Bewertungen erhielt.

Bemerkenswert ist, dass Manzano auch eine Vielzahl von Bildbearbeitungsfunktionen unterstützt, darunter anweisungsbasierte Bearbeitung, Stilübertragung, Inpainting (Bildreparatur), Outpainting (Bilderweiterung) und Tiefenschätzung. Diese Funktionen werden dadurch ermöglicht, dass das große Sprachmodell und der Diffusions-Decoder gleichzeitig auf ein Referenzbild konditioniert werden.

Das Apple-Forschungsteam betont in seinem Paper, dass die Designphilosophie von Manzano auf Einfachheit und Skalierbarkeit basiert. Das Modell verwendet eine vereinheitlichte autoregressive Zielfunktion, benötigt keine zusätzlichen Hilfs-Losses oder aufgabenspezifischen Heads, und die Komponenten sind klar entkoppelt, was eine unabhängige Skalierung erleichtert. Studien zeigen, dass die Skalierung des Sprachmodell-Decoders zu einer konsistenten Leistungssteigerung bei Verständnis- und Generierungsaufgaben führt.

Derzeit ist Manzano noch nicht öffentlich zugänglich und es gibt keine Demoversion. Das Apple-Forschungsteam hat lediglich das wissenschaftliche Paper und niedrigauflösende Bildbeispiele zur Referenz für die Forschungsgemeinschaft geteilt. Die Forschungsergebnisse zu diesem Modell wurden auf der arXiv-Plattform öffentlich zugänglich gemacht.

Branchenexperten sind der Meinung, dass Manzano eine neue Richtung in der Entwicklung vereinheitlichter multimodaler Modelle darstellt. Seine Hybrid-Tokenizer-Architektur entschärft effektiv den Konflikt zwischen visuellen Verständnis- und Generierungsaufgaben und bietet neue Ideen für das Design zukünftiger multimodaler KI-Systeme. Mit der weiteren Skalierung des Modells und der Optimierung der Trainingsmethoden wird erwartet, dass vereinheitlichte multimodale Modelle in mehr praktischen Anwendungsszenarien eine Rolle spielen werden.