애플 Manzano 모델 충격적인 등장: 혼합 토크나이저로 이미지 이해 및 생성의 이중 난제 해결

September 29, 2025
arXiv
3 min

요약

애플 연구팀은 최근 Manzano라는 이름의 통합 멀티모달 대규모 언어 모델을 발표했습니다. 이 모델은 이미지 이해 및 생성 분야에서 획기적인 능력을 보여줍니다. Manzano는 하이브리드 이미지 토크나이저 아키텍처를 채택하여 이미지 이해 및 생성 작업을 동시에 처리할 수 있으며, 여러 벤치마크 테스트에서 업계 최고 수준에 도달했습니다. 특히 텍스트 집중형 이미지 이해 작업에서 뛰어난 성능을 발휘합니다.


애플 회사 연구팀은 2025년 9월, Manzano(스페인어로 "사과나무"를 의미)라는 혁신적인 이미지 모델을 발표했습니다. 이 모델은 통합 멀티모달 대규모 언어 모델로서, 기존 오픈소스 모델들이 이미지 이해와 생성 사이에서 겪는 성능 트레이드오프 문제를 해결했습니다.

애플 연구팀이 발표한 학술 논문에 따르면, Manzano는 독특한 하이브리드 이미지 토크나이저(Hybrid Image Tokenizer) 기술을 채택했습니다. 이 아키텍처는 세 가지 핵심 구성 요소로 이루어져 있습니다: 통합 시각 인코더, 대규모 언어 모델 디코더, 그리고 최종 출력을 위한 이미지 디코더입니다. 특히 하이브리드 토크나이저는 동일한 인코더에서 두 가지 유형의 토큰을 생성할 수 있습니다. 하나는 이해 작업을 위한 연속 토큰이고, 다른 하나는 생성 작업을 위한 이산 토큰입니다.

기술 구현 측면에서 Manzano의 훈련은 세 단계로 나뉩니다. 사전 학습 단계에서는 23억 개의 이미지-텍스트 쌍과 10억 개의 텍스트-이미지 쌍을 사용하여 총 1.6조 개의 토큰을 학습했습니다. 모델은 3억, 10억, 30억, 300억 등 다양한 매개변수 규모 버전을 제공하며, 이미지 디코더의 매개변수 규모는 9억에서 35.2억에 이르며, 256에서 2048픽셀까지 다양한 해상도 출력을 지원합니다.

성능 평가 측면에서 Manzano는 이미지 이해 벤치마크 테스트에서 두드러진 성능을 보였습니다. 30억 매개변수 버전은 DocVQA 테스트에서 93.5점, OCRBench 테스트에서 85.7점, MathVista 테스트에서 69.8점을 달성했습니다. 300억 매개변수 버전은 ScienceQA, MMMU 등 지식 추론형 벤치마크 테스트에서 모두 상위권을 차지했습니다.

이미지 생성 능력 또한 인상적입니다. GenEval 및 WISE와 같은 자동 평가에서 Manzano는 GPT-4o 및 Google의 Nano Banana와 같은 상용 시스템과 비슷한 성능을 보였습니다. 수동 평가 결과, 이 모델은 구조적 무결성, 지시 준수, 미적 품질 세 가지 측면에서 모두 높은 점수를 받았습니다.

주목할 점은 Manzano가 지시 기반 편집, 스타일 전이, 이미지 복원(inpain팅), 이미지 확장(outpainting) 및 깊이 추정 등 다양한 이미지 편집 기능을 지원한다는 것입니다. 이러한 기능은 대규모 언어 모델과 확산 디코더가 동시에 참조 이미지를 조건으로 삼아 작동함으로써 구현됩니다.

애플 연구팀은 논문에서 Manzano의 설계 철학이 간결성과 확장성임을 강조했습니다. 모델은 추가적인 보조 손실이나 작업별 헤드 없이 통합된 자기회귀 목표 함수를 채택했으며, 각 구성 요소는 명확하게 분리되어 독립적인 확장이 용이합니다. 연구에 따르면, 언어 모델 디코더의 규모를 확장하면 이해 및 생성 작업 모두에서 일관된 성능 향상을 가져올 수 있습니다.

현재 Manzano는 대중에게 공개되지 않았으며, 데모 버전도 제공되지 않습니다. 애플 연구팀은 연구 커뮤니티의 참고를 위해 학술 논문과 저해상도 이미지 샘플만 공유했습니다. 이 모델의 연구 결과는 arXiv 플랫폼에 공개 발표되었습니다.

업계 전문가들은 Manzano가 통합 멀티모달 모델 발전의 새로운 방향을 제시한다고 평가합니다. 그 하이브리드 토크나이저 아키텍처는 시각적 이해 및 생성 작업 간의 충돌을 효과적으로 완화하여, 미래 멀티모달 AI 시스템 설계에 새로운 아이디어를 제공합니다. 모델 규모의 추가 확장과 훈련 방법의 최적화를 통해 통합 멀티모달 모델은 더 많은 실제 응용 시나리오에서 중요한 역할을 할 것으로 기대됩니다.