Tongyi-MAI/MAI-UI View GitHub Homepage for Latest Official Releases

실제 환경 중심의 기반 GUI 에이전트로, 네이티브 사용자 상호작용, MCP 도구 통합 및 기기-클라우드 협업 기능을 갖추고 있습니다.

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: 실제 세계 중심의 파운데이션 GUI 에이전트

개요

MAI-UI는 Alibaba의 Tongyi Lab에서 개발한 포괄적인 파운데이션 GUI 에이전트 제품군으로, 2B부터 235B-A22B 파라미터까지 모델 크기의 전체 스펙트럼을 아우릅니다. 이 프로젝트는 사용자 상호 작용, 도구 통합 및 배포 아키텍처에 대한 혁신적인 접근 방식을 통해 GUI 에이전트를 실제 배포에 실용적으로 만드는 데 있어 중요한 발전을 나타냅니다.

주요 기능 및 혁신

1. 멀티 스케일 파운데이션 모델

모델 변형: 2B, 8B, 32B, 235B-A22B 파라미터
기본 아키텍처: Qwen3-VL 멀티모달 대규모 언어 모델 기반
훈련 접근 방식: 공동 지도 미세 조정 및 강화 학습
배포 유연성: 다양한 하드웨어 제약 및 성능 요구 사항에 적합

2. 확장된 액션 공간

MAI-UI는 기존 GUI 작업 외에 세 가지 중요한 기능을 도입합니다.

에이전트-사용자 상호 작용

ask_user 액션: 모호한 지침에 대한 명확화를 사전에 요청
동적 대화: 불완전하거나 불분명한 사용자 요구 사항 처리
실제 적용 가능성: 사용자 지침의 구체성이 부족한 일반적인 시나리오 해결

MCP 도구 통합

mcp_call 액션: 모델 컨텍스트 프로토콜을 통한 외부 도구 직접 호출
API 수준 작업: 복잡한 UI 조작에 대한 효율적인 대안
향상된 기능: 매핑, 파일 관리, 데이터 검색과 같은 서비스 액세스

장치-클라우드 협업

지능형 라우팅: 온디바이스 및 클라우드 실행 간의 동적 선택
개인 정보 보호: 민감한 작업은 로컬에 유지하면서 복잡한 작업을 위해 클라우드 활용
비용 최적화: 클라우드 API 호출 40% 이상 감소

3. 자체 진화 데이터 파이프라인

자율 데이터 생성: 훈련 코퍼스의 지속적인 개선
멀티 에이전트 협업: 인간 주석 및 모델 생성 궤적의 조합
품질 필터링: 판별 모델이 고품질 실행 경로를 평가하고 유지
동적 적응: 훈련 데이터가 모델 기능에 따라 진화

4. 대규모 온라인 강화 학습

대규모 병렬화: 최대 512개의 병렬 Android 환경
확장된 컨텍스트: 최대 50개의 환경 단계 지원
상당한 개선: 환경 확장으로 +5.2점, 단계 예산 증가로 +4.3점
실제 견고성: 팝업, 광고, UI 변경이 있는 동적 환경에서의 훈련

성능 성과

GUI 그라운딩 벤치마크

ScreenSpot-Pro: 73.5% 정확도 (Gemini-3-Pro 및 Seed1.8 능가)
MMBench GUI L2: 91.3% 정확도
OSWorld-G: 70.9% 정확도
UI-Vision: 49.2% 정확도

모바일 내비게이션 벤치마크

AndroidWorld: 76.7% 성공률 (새로운 SOTA, UI-Tars-2, Gemini-2.5-Pro, Seed1.8 능가)
MobileWorld: 41.7% 성공률 (가장 강력한 기준선 대비 20.8점 향상)

장치-클라우드 협업 결과

성능 향상: 온디바이스 성능 33% 향상
비용 절감: 클라우드 모델 호출 40% 이상 감소
개인 정보 보호: 작업의 40.5%가 온디바이스에서 완전히 완료됨

기술 아키텍처

모델 기반

백본: Qwen3-VL 멀티모달 아키텍처
입력 모달리티: 자연어 지침 및 렌더링된 UI 스크린샷
출력: 라이브 Android 장치에 대한 구조화된 액션
액션 공간: 클릭, 스와이프, 텍스트 입력, 시스템 버튼, 추가적인 상호 작용 기능

훈련 방법론

지도 미세 조정: 선별된 GUI 그라운딩 및 내비게이션 데이터에 대한 초기 훈련
온라인 강화 학습: 라이브 환경과의 상호 작용을 통한 지속적인 개선
자체 진화 파이프라인: 자율 데이터 생성 및 품질 개선
다차원 통합: 사용자 상호 작용, MCP 도구 호출 및 기존 GUI 작업

배포 시스템

하이브리드 아키텍처: 온디바이스 및 클라우드 모델의 원활한 통합
작업 인식 라우팅: 작업 복잡성 및 개인 정보 보호 요구 사항에 기반한 지능형 의사 결정
개인 정보 보호 우선 설계: 민감한 작업은 로컬에 유지하고 복잡한 작업은 클라우드 기능 활용
비용 최적화: 지능형 워크로드 분배를 통한 효율적인 리소스 활용

실제 응용

가정 및 개인 용도

스마트 쇼핑: 캘린더 통합 기반의 사전 제안
작업 자동화: 일상 활동을 위한 복잡한 멀티 앱 워크플로우
컨텍스트 지원: 자연스러운 대화를 통한 사용자 의도 이해

전문 및 사무 용도

문서 관리: 지능적인 파일 처리 및 공유
커뮤니케이션 지원: 컨텍스트 인식을 통한 이메일 작성
앱 간 통합: 여러 애플리케이션 간의 원활한 워크플로우

내비게이션 및 위치 서비스

경로 계획: MCP 도구를 통한 매핑 서비스 통합
위치 인식 제안: 컨텍스트 기반 추천
멀티모달 교통: 다양한 교통 수단 지원

기술 사양

요구 사항

vLLM: 버전 ≥0.11.0
Transformers: 버전 ≥4.57.0
Python: 표준 ML 생태계와 호환
하드웨어: 모바일 장치부터 클라우드 인프라까지 확장 가능

사용 가능한 모델

MAI-UI-2B: 리소스 제약 환경을 위한 경량 모델
MAI-UI-8B: 균형 잡힌 성능 및 효율성
더 큰 변형: 최대 기능을 위한 32B 및 235B-A22B

통합 옵션

API 서비스: vLLM을 통한 OpenAI 호환 인터페이스
직접 통합: 사용자 정의 애플리케이션을 위한 Python SDK
컨테이너 배포: 확장 가능한 배포를 위한 Docker 지원

연구 영향

벤치마크 리더십

MAI-UI는 여러 권위 있는 벤치마크에서 새로운 최첨단 성능을 확립하여 이론적 발전과 실제 적용 가능성을 모두 입증합니다.

방법론적 기여

장치-클라우드 협업: GUI 에이전트를 위한 새로운 배포 아키텍처
자체 진화 데이터: 훈련 데이터셋의 자율 개선
확장된 상호 작용 모델: 사용자 대화 및 도구 통합에 대한 네이티브 지원

산업 응용

이 프로젝트는 역사적으로 GUI 에이전트 채택을 제한했던 실제 배포 문제를 해결하여 프로덕션 환경에 적합합니다.

오픈 소스 약속

라이선스

Apache License 2.0: 상업 및 연구 용도를 위한 허용적 라이선스
타사 구성 요소: 적절한 출처 표시와 함께 명확하게 문서화됨
커뮤니티 기여: 협업을 장려하는 개방형 개발 모델

사용 가능한 리소스

모델: Hugging Face의 MAI-UI-2B 및 MAI-UI-8B
코드: GitHub의 전체 구현
문서: 포괄적인 기술 보고서 및 사용 가이드
벤치마크: 평가를 위한 MobileWorld 벤치마크

향후 방향

연구 확장

더 큰 모델 변형: 32B 및 235B 모델의 지속적인 개발
크로스 플랫폼 지원: Android를 넘어 iOS 및 데스크톱 플랫폼으로 확장
향상된 도구 통합: 더 광범위한 MCP 도구 생태계

상업적 응용

기업 배포: 비즈니스 워크플로우 통합
접근성 솔루션: 장애가 있는 사용자를 위한 지원
생산성 향상: 지식 근로자를 위한 고급 자동화

인용 정보

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

연락처 정보

프로젝트 리드: Hanzhang Zhou (hanzhang.zhou@alibaba-inc.com)
기술 리드: Xu Zhang (hanguang.zx@alibaba-inc.com)
연구 책임자: Yue Wang (yue.w@alibaba-inc.com)
기관: Tongyi Lab, Alibaba Group

추가 리소스

프로젝트 웹사이트: https://tongyi-mai.github.io/MAI-UI/
GitHub 리포지토리: https://github.com/Tongyi-MAI/MAI-UI
Hugging Face 모델: https://huggingface.co/Tongyi-MAI
기술 논문: https://arxiv.org/abs/2512.22047
MobileWorld 벤치마크: https://github.com/Tongyi-MAI/MobileWorld