강력한 멀티모달 GUI 자동화 에이전트 패밀리, 모바일 기기 및 PC 플랫폼의 엔드 투 엔드 작동 지원

MITPythonMobileAgentX-PLUG 5.6k Last Updated: September 11, 2025

Mobile-Agent 프로젝트 상세 소개

프로젝트 개요

Mobile-Agent는 알리바바 X-PLUG 팀이 개발한 강력한 GUI 에이전트 제품군으로, 모바일 장치 및 PC 플랫폼을 위해 설계된 엔드투엔드 멀티모달 에이전트 시스템입니다. 이 프로젝트는 시각적 인지, 추론 계획 및 동작 실행을 통해 다양한 애플리케이션을 자율적으로 조작하여 GUI 자동화를 실현하는 것을 목표로 합니다.

프로젝트 아키텍처 및 구성 요소

핵심 구성 요소 시리즈

1. GUI-Owl 기반 모델

GUI-Owl은 기반 GUI 에이전트 모델로, 데스크톱 및 모바일 환경의 위치 파악, 질의응답, 계획, 의사 결정 및 프로그램 지식을 포함하는 10가지 GUI 벤치마크에서 오픈소스 엔드투엔드 모델 중 최첨단 성능을 달성했습니다. GUI-Owl-7B는 AndroidWorld에서 66.4점, OSWorld에서 29.4점을 기록했습니다.

2. Mobile-Agent-v3

Mobile-Agent-v3는 GUI-Owl을 기반으로 하는 크로스 플랫폼 멀티 에이전트 프레임워크로, 계획, 진행 관리, 반성 및 기억과 같은 기능을 제공합니다. 이는 인지, 위치 파악, 추론, 계획 및 동작 실행을 단일 정책 네트워크로 통합하도록 설계된 GUI 자동화를 위한 기반 모델로서의 네이티브 엔드투엔드 멀티모달 에이전트입니다.

3. Mobile-Agent-E

Mobile-Agent-E는 자가 진화 능력을 갖춘 계층적 멀티 에이전트 프레임워크로, 과거 경험을 통해 자가 진화를 실현하여 복잡한 다중 애플리케이션 작업에서 더 강력한 성능을 발휘합니다.

4. PC-Agent

PC-Agent는 사용자 지시에 따라 생산성 시나리오(예: Chrome, Word, WeChat)의 자동 제어를 실현할 수 있는 멀티 에이전트 협업 시스템입니다. 밀집되고 다양한 상호작용 요소를 위해 특별히 설계된 능동적 인지 모듈은 PC 플랫폼에 더 잘 적응합니다. 계층적 멀티 에이전트 협업 구조는 더 복잡한 작업 시퀀스의 성공률을 높입니다. 현재 Windows와 Mac을 모두 지원합니다.

5. Mobile-Agent-v2

Mobile-Agent-v2는 멀티 에이전트 협업을 통해 효과적인 탐색을 실현하는 모바일 장치 조작 도우미입니다. 멀티 에이전트 아키텍처는 긴 컨텍스트 입력 시나리오에서의 탐색 문제를 해결합니다. 강화된 시각적 인지 모듈은 조작 정확도를 크게 향상시킵니다.

기술적 특징

핵심 기술적 장점

  1. 크로스 플랫폼 호환성: Android, iOS, Windows, Mac 등 여러 플랫폼 지원
  2. 시각적 인지 능력: 시각적 인지 도구를 활용하여 애플리케이션 프런트엔드 인터페이스의 시각 및 텍스트 요소를 정확하게 식별하고 위치 파악
  3. 멀티모달 이해: 시각 및 언어 이해를 결합하여 복잡한 작업 추론
  4. 엔드투엔드 조작: 작업 이해부터 실행까지의 완전한 자동화 프로세스
  5. 자가 진화: 경험 학습을 통해 성능을 지속적으로 개선

기술 혁신 포인트

GUI-Owl의 세 가지 주요 혁신

  1. 대규모 환경 인프라: Android, Ubuntu, macOS 및 Windows를 포함하는 클라우드 기반 가상 환경으로, 자가 진화 GUI 궤적 생성 프레임워크 지원
  2. 다양한 기반 에이전트 능력: UI 위치 파악, 계획, 동작 의미론 및 추론 모드를 통합하여 엔드투엔드 의사 결정 지원
  3. 확장 가능한 환경 강화 학습: 실제 세계 정렬을 위한 완전 비동기 훈련이 가능한 확장 가능한 강화 학습 프레임워크 개발

성능

벤치마크 테스트 결과

  • Mobile-Agent-v3는 AndroidWorld에서 73.3점, OSWorld에서 37.7점을 달성하여 오픈소스 GUI 에이전트 프레임워크의 새로운 최첨단 표준을 수립했습니다.
  • ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World 및 OSWorld를 포함한 여러 GUI 자동화 평가 순위에서 SOTA(최첨단) 성능을 달성했습니다.

시스템 성능 최적화

  • 낮은 메모리 오버헤드 (8GB)
  • 빠른 추론 속도 (작업당 10-15초)
  • 모두 오픈소스 모델 사용

기술 구현

환경 요구 사항

# 기본 환경 설정
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

Android 플랫폼 설정

  1. Android Debug Bridge (ADB) 다운로드
  2. Android 휴대폰에서 ADB 디버깅 스위치 켜기
  3. 데이터 케이블로 휴대폰을 컴퓨터에 연결하고 "파일 전송" 선택
  4. ADB 환경 테스트: /path/to/adb devices

PC 플랫폼 설정

# Windows 환경
pip install -r requirements.txt

# Mac 환경
pip install -r requirements_mac.txt

API 설정

{
  "vl_model_name": "gpt-4o",
  "llm_model_name": "gpt-4o",
  "token": "sk-...",
  "url": "https://api.openai.com/v1"
}

응용 시나리오

지원되는 조작 유형

  1. 모바일 앱 조작: 클릭, 스와이프, 텍스트 입력, 앱 전환
  2. PC 앱 조작: 브라우저 제어, 오피스 소프트웨어 조작, 통신 소프트웨어 사용
  3. 크로스 앱 작업: 여러 앱 간의 복잡한 작업 흐름
  4. 복잡한 추론 작업: 여러 단계의 추론이 필요한 장기 작업

실제 응용 예시

  • 온라인 쇼핑: 상품 검색, 가격 비교, 장바구니 추가
  • 정보 조회: 뉴스 검색, 스포츠 경기 결과 확인
  • 사무 자동화: 문서 작성, 이메일 전송, 데이터 처리
  • 소셜 미디어: 콘텐츠 게시, 메시지 회신, 정보 공유

학술 성과

발표 논문

  • Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
  • PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
  • Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
  • Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
  • Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception

수상 내역

  • 2025년 제24회 중국 계산 언어학 대회 (CCL 2025) 최우수 데모상
  • 2024년 제23회 중국 계산 언어학 대회 (CCL 2024) 최우수 데모상

평가 벤치마크

Mobile-Eval 벤치마크

Mobile-Eval은 모바일 장치 에이전트 성능 평가를 위해 설계된 벤치마크로, 10가지 주요 단일 앱 시나리오와 1가지 다중 앱 시나리오를 포함합니다. 각 시나리오에는 세 가지 지시 유형이 설계되었습니다.

테스트 시나리오 예시

  • 쇼핑 작업: 알리바바 웹사이트에서 모자를 찾아 장바구니에 추가
  • 음악 재생: Amazon Music에서 가수 주걸륜 검색
  • 정보 조회: 오늘 레이커스 경기 결과 검색
  • 이메일 전송: 지정된 주소로 빈 이메일 전송

기술 스택

핵심 기술

  • 멀티모달 대규모 언어 모델: GPT-4V, Qwen-VL 등
  • 시각적 인지: CLIP, GroundingDINO 등
  • 강화 학습: Trajectory-aware Relative Policy Optimization (TRPO)
  • 멀티 에이전트 프레임워크: 계층적 협업 아키텍처

지원 플랫폼

  • 모바일 플랫폼: Android, HarmonyOS (≤ 4 버전)
  • 데스크톱 플랫폼: Windows, macOS, Ubuntu
  • 브라우저: Chrome 및 기타 주요 브라우저
  • 오피스 소프트웨어: Word, Excel, PowerPoint 등

오픈소스 정보

저장소 구조

MobileAgent/
├── Mobile-Agent/          # 원본 버전
├── Mobile-Agent-v2/       # 멀티 에이전트 협업 버전
├── Mobile-Agent-v3/       # GUI-Owl 기반 최신 버전
├── Mobile-Agent-E/        # 자가 진화 버전
├── PC-Agent/             # PC 플랫폼 버전
└── requirements.txt      # 의존성 패키지

모델 배포

  • GUI-Owl-7B 및 GUI-Owl-32B 모델 체크포인트가 배포되었습니다.
  • HuggingFace 및 ModelScope 플랫폼 배포 지원
  • 온라인 데모 체험 제공

커뮤니티 및 생태계

온라인 체험

관련 프로젝트

  • AppAgent: 스마트폰 사용자로서의 멀티모달 에이전트
  • mPLUG-Owl: 모듈형 멀티모달 대규모 언어 모델
  • Qwen-VL: 범용 시각 언어 모델
  • GroundingDINO: 오픈셋 객체 탐지

미래 발전

이 프로젝트는 GUI 자동화 에이전트의 최전선 발전을 대표하며, 지속적인 기술 혁신과 성능 최적화를 통해 진정한 범용 인공지능 비서 실현을 위한 길을 열고 있습니다. 모델 능력 향상과 응용 시나리오 확장에 따라 Mobile-Agent는 더 많은 실제 시나리오에서 중요한 역할을 할 것으로 기대됩니다.

Star History Chart