실제 환경 중심의 기반 GUI 에이전트로, 네이티브 사용자 상호작용, MCP 도구 통합 및 기기-클라우드 협업 기능을 갖추고 있습니다.

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: 실제 세계 중심의 파운데이션 GUI 에이전트

개요

MAI-UI는 Alibaba의 Tongyi Lab에서 개발한 포괄적인 파운데이션 GUI 에이전트 제품군으로, 2B부터 235B-A22B 파라미터까지 모델 크기의 전체 스펙트럼을 아우릅니다. 이 프로젝트는 사용자 상호 작용, 도구 통합 및 배포 아키텍처에 대한 혁신적인 접근 방식을 통해 GUI 에이전트를 실제 배포에 실용적으로 만드는 데 있어 중요한 발전을 나타냅니다.

주요 기능 및 혁신

1. 멀티 스케일 파운데이션 모델

  • 모델 변형: 2B, 8B, 32B, 235B-A22B 파라미터
  • 기본 아키텍처: Qwen3-VL 멀티모달 대규모 언어 모델 기반
  • 훈련 접근 방식: 공동 지도 미세 조정 및 강화 학습
  • 배포 유연성: 다양한 하드웨어 제약 및 성능 요구 사항에 적합

2. 확장된 액션 공간

MAI-UI는 기존 GUI 작업 외에 세 가지 중요한 기능을 도입합니다.

에이전트-사용자 상호 작용

  • ask_user 액션: 모호한 지침에 대한 명확화를 사전에 요청
  • 동적 대화: 불완전하거나 불분명한 사용자 요구 사항 처리
  • 실제 적용 가능성: 사용자 지침의 구체성이 부족한 일반적인 시나리오 해결

MCP 도구 통합

  • mcp_call 액션: 모델 컨텍스트 프로토콜을 통한 외부 도구 직접 호출
  • API 수준 작업: 복잡한 UI 조작에 대한 효율적인 대안
  • 향상된 기능: 매핑, 파일 관리, 데이터 검색과 같은 서비스 액세스

장치-클라우드 협업

  • 지능형 라우팅: 온디바이스 및 클라우드 실행 간의 동적 선택
  • 개인 정보 보호: 민감한 작업은 로컬에 유지하면서 복잡한 작업을 위해 클라우드 활용
  • 비용 최적화: 클라우드 API 호출 40% 이상 감소

3. 자체 진화 데이터 파이프라인

  • 자율 데이터 생성: 훈련 코퍼스의 지속적인 개선
  • 멀티 에이전트 협업: 인간 주석 및 모델 생성 궤적의 조합
  • 품질 필터링: 판별 모델이 고품질 실행 경로를 평가하고 유지
  • 동적 적응: 훈련 데이터가 모델 기능에 따라 진화

4. 대규모 온라인 강화 학습

  • 대규모 병렬화: 최대 512개의 병렬 Android 환경
  • 확장된 컨텍스트: 최대 50개의 환경 단계 지원
  • 상당한 개선: 환경 확장으로 +5.2점, 단계 예산 증가로 +4.3점
  • 실제 견고성: 팝업, 광고, UI 변경이 있는 동적 환경에서의 훈련

성능 성과

GUI 그라운딩 벤치마크

  • ScreenSpot-Pro: 73.5% 정확도 (Gemini-3-Pro 및 Seed1.8 능가)
  • MMBench GUI L2: 91.3% 정확도
  • OSWorld-G: 70.9% 정확도
  • UI-Vision: 49.2% 정확도

모바일 내비게이션 벤치마크

  • AndroidWorld: 76.7% 성공률 (새로운 SOTA, UI-Tars-2, Gemini-2.5-Pro, Seed1.8 능가)
  • MobileWorld: 41.7% 성공률 (가장 강력한 기준선 대비 20.8점 향상)

장치-클라우드 협업 결과

  • 성능 향상: 온디바이스 성능 33% 향상
  • 비용 절감: 클라우드 모델 호출 40% 이상 감소
  • 개인 정보 보호: 작업의 40.5%가 온디바이스에서 완전히 완료됨

기술 아키텍처

모델 기반

  • 백본: Qwen3-VL 멀티모달 아키텍처
  • 입력 모달리티: 자연어 지침 및 렌더링된 UI 스크린샷
  • 출력: 라이브 Android 장치에 대한 구조화된 액션
  • 액션 공간: 클릭, 스와이프, 텍스트 입력, 시스템 버튼, 추가적인 상호 작용 기능

훈련 방법론

  1. 지도 미세 조정: 선별된 GUI 그라운딩 및 내비게이션 데이터에 대한 초기 훈련
  2. 온라인 강화 학습: 라이브 환경과의 상호 작용을 통한 지속적인 개선
  3. 자체 진화 파이프라인: 자율 데이터 생성 및 품질 개선
  4. 다차원 통합: 사용자 상호 작용, MCP 도구 호출 및 기존 GUI 작업

배포 시스템

  • 하이브리드 아키텍처: 온디바이스 및 클라우드 모델의 원활한 통합
  • 작업 인식 라우팅: 작업 복잡성 및 개인 정보 보호 요구 사항에 기반한 지능형 의사 결정
  • 개인 정보 보호 우선 설계: 민감한 작업은 로컬에 유지하고 복잡한 작업은 클라우드 기능 활용
  • 비용 최적화: 지능형 워크로드 분배를 통한 효율적인 리소스 활용

실제 응용

가정 및 개인 용도

  • 스마트 쇼핑: 캘린더 통합 기반의 사전 제안
  • 작업 자동화: 일상 활동을 위한 복잡한 멀티 앱 워크플로우
  • 컨텍스트 지원: 자연스러운 대화를 통한 사용자 의도 이해

전문 및 사무 용도

  • 문서 관리: 지능적인 파일 처리 및 공유
  • 커뮤니케이션 지원: 컨텍스트 인식을 통한 이메일 작성
  • 앱 간 통합: 여러 애플리케이션 간의 원활한 워크플로우

내비게이션 및 위치 서비스

  • 경로 계획: MCP 도구를 통한 매핑 서비스 통합
  • 위치 인식 제안: 컨텍스트 기반 추천
  • 멀티모달 교통: 다양한 교통 수단 지원

기술 사양

요구 사항

  • vLLM: 버전 ≥0.11.0
  • Transformers: 버전 ≥4.57.0
  • Python: 표준 ML 생태계와 호환
  • 하드웨어: 모바일 장치부터 클라우드 인프라까지 확장 가능

사용 가능한 모델

  • MAI-UI-2B: 리소스 제약 환경을 위한 경량 모델
  • MAI-UI-8B: 균형 잡힌 성능 및 효율성
  • 더 큰 변형: 최대 기능을 위한 32B 및 235B-A22B

통합 옵션

  • API 서비스: vLLM을 통한 OpenAI 호환 인터페이스
  • 직접 통합: 사용자 정의 애플리케이션을 위한 Python SDK
  • 컨테이너 배포: 확장 가능한 배포를 위한 Docker 지원

연구 영향

벤치마크 리더십

MAI-UI는 여러 권위 있는 벤치마크에서 새로운 최첨단 성능을 확립하여 이론적 발전과 실제 적용 가능성을 모두 입증합니다.

방법론적 기여

  • 장치-클라우드 협업: GUI 에이전트를 위한 새로운 배포 아키텍처
  • 자체 진화 데이터: 훈련 데이터셋의 자율 개선
  • 확장된 상호 작용 모델: 사용자 대화 및 도구 통합에 대한 네이티브 지원

산업 응용

이 프로젝트는 역사적으로 GUI 에이전트 채택을 제한했던 실제 배포 문제를 해결하여 프로덕션 환경에 적합합니다.

오픈 소스 약속

라이선스

  • Apache License 2.0: 상업 및 연구 용도를 위한 허용적 라이선스
  • 타사 구성 요소: 적절한 출처 표시와 함께 명확하게 문서화됨
  • 커뮤니티 기여: 협업을 장려하는 개방형 개발 모델

사용 가능한 리소스

  • 모델: Hugging Face의 MAI-UI-2B 및 MAI-UI-8B
  • 코드: GitHub의 전체 구현
  • 문서: 포괄적인 기술 보고서 및 사용 가이드
  • 벤치마크: 평가를 위한 MobileWorld 벤치마크

향후 방향

연구 확장

  • 더 큰 모델 변형: 32B 및 235B 모델의 지속적인 개발
  • 크로스 플랫폼 지원: Android를 넘어 iOS 및 데스크톱 플랫폼으로 확장
  • 향상된 도구 통합: 더 광범위한 MCP 도구 생태계

상업적 응용

  • 기업 배포: 비즈니스 워크플로우 통합
  • 접근성 솔루션: 장애가 있는 사용자를 위한 지원
  • 생산성 향상: 지식 근로자를 위한 고급 자동화

인용 정보

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

연락처 정보

추가 리소스

Star History Chart