X-PLUG/MobileAgentView GitHub Homepage for Latest Official Releases

강력한 멀티모달 GUI 자동화 에이전트 패밀리, 모바일 기기 및 PC 플랫폼의 엔드 투 엔드 작동 지원

MITPythonMobileAgentX-PLUG 5.6k Last Updated: September 11, 2025

Mobile-Agent 프로젝트 상세 소개

프로젝트 개요

Mobile-Agent는 알리바바 X-PLUG 팀이 개발한 강력한 GUI 에이전트 제품군으로, 모바일 장치 및 PC 플랫폼을 위해 설계된 엔드투엔드 멀티모달 에이전트 시스템입니다. 이 프로젝트는 시각적 인지, 추론 계획 및 동작 실행을 통해 다양한 애플리케이션을 자율적으로 조작하여 GUI 자동화를 실현하는 것을 목표로 합니다.

프로젝트 아키텍처 및 구성 요소

핵심 구성 요소 시리즈

1. GUI-Owl 기반 모델

GUI-Owl은 기반 GUI 에이전트 모델로, 데스크톱 및 모바일 환경의 위치 파악, 질의응답, 계획, 의사 결정 및 프로그램 지식을 포함하는 10가지 GUI 벤치마크에서 오픈소스 엔드투엔드 모델 중 최첨단 성능을 달성했습니다. GUI-Owl-7B는 AndroidWorld에서 66.4점, OSWorld에서 29.4점을 기록했습니다.

2. Mobile-Agent-v3

Mobile-Agent-v3는 GUI-Owl을 기반으로 하는 크로스 플랫폼 멀티 에이전트 프레임워크로, 계획, 진행 관리, 반성 및 기억과 같은 기능을 제공합니다. 이는 인지, 위치 파악, 추론, 계획 및 동작 실행을 단일 정책 네트워크로 통합하도록 설계된 GUI 자동화를 위한 기반 모델로서의 네이티브 엔드투엔드 멀티모달 에이전트입니다.

3. Mobile-Agent-E

Mobile-Agent-E는 자가 진화 능력을 갖춘 계층적 멀티 에이전트 프레임워크로, 과거 경험을 통해 자가 진화를 실현하여 복잡한 다중 애플리케이션 작업에서 더 강력한 성능을 발휘합니다.

4. PC-Agent

PC-Agent는 사용자 지시에 따라 생산성 시나리오(예: Chrome, Word, WeChat)의 자동 제어를 실현할 수 있는 멀티 에이전트 협업 시스템입니다. 밀집되고 다양한 상호작용 요소를 위해 특별히 설계된 능동적 인지 모듈은 PC 플랫폼에 더 잘 적응합니다. 계층적 멀티 에이전트 협업 구조는 더 복잡한 작업 시퀀스의 성공률을 높입니다. 현재 Windows와 Mac을 모두 지원합니다.

5. Mobile-Agent-v2

Mobile-Agent-v2는 멀티 에이전트 협업을 통해 효과적인 탐색을 실현하는 모바일 장치 조작 도우미입니다. 멀티 에이전트 아키텍처는 긴 컨텍스트 입력 시나리오에서의 탐색 문제를 해결합니다. 강화된 시각적 인지 모듈은 조작 정확도를 크게 향상시킵니다.

기술적 특징

핵심 기술적 장점

크로스 플랫폼 호환성: Android, iOS, Windows, Mac 등 여러 플랫폼 지원
시각적 인지 능력: 시각적 인지 도구를 활용하여 애플리케이션 프런트엔드 인터페이스의 시각 및 텍스트 요소를 정확하게 식별하고 위치 파악
멀티모달 이해: 시각 및 언어 이해를 결합하여 복잡한 작업 추론
엔드투엔드 조작: 작업 이해부터 실행까지의 완전한 자동화 프로세스
자가 진화: 경험 학습을 통해 성능을 지속적으로 개선

기술 혁신 포인트

GUI-Owl의 세 가지 주요 혁신

대규모 환경 인프라: Android, Ubuntu, macOS 및 Windows를 포함하는 클라우드 기반 가상 환경으로, 자가 진화 GUI 궤적 생성 프레임워크 지원
다양한 기반 에이전트 능력: UI 위치 파악, 계획, 동작 의미론 및 추론 모드를 통합하여 엔드투엔드 의사 결정 지원
확장 가능한 환경 강화 학습: 실제 세계 정렬을 위한 완전 비동기 훈련이 가능한 확장 가능한 강화 학습 프레임워크 개발

성능

벤치마크 테스트 결과

Mobile-Agent-v3는 AndroidWorld에서 73.3점, OSWorld에서 37.7점을 달성하여 오픈소스 GUI 에이전트 프레임워크의 새로운 최첨단 표준을 수립했습니다.
ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World 및 OSWorld를 포함한 여러 GUI 자동화 평가 순위에서 SOTA(최첨단) 성능을 달성했습니다.

시스템 성능 최적화

낮은 메모리 오버헤드 (8GB)
빠른 추론 속도 (작업당 10-15초)
모두 오픈소스 모델 사용

기술 구현

환경 요구 사항

# 기본 환경 설정
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

Android 플랫폼 설정

Android Debug Bridge (ADB) 다운로드
Android 휴대폰에서 ADB 디버깅 스위치 켜기
데이터 케이블로 휴대폰을 컴퓨터에 연결하고 "파일 전송" 선택
ADB 환경 테스트: /path/to/adb devices

PC 플랫폼 설정

# Windows 환경
pip install -r requirements.txt

# Mac 환경
pip install -r requirements_mac.txt

API 설정

{
  "vl_model_name": "gpt-4o",
  "llm_model_name": "gpt-4o",
  "token": "sk-...",
  "url": "https://api.openai.com/v1"
}

응용 시나리오

지원되는 조작 유형

모바일 앱 조작: 클릭, 스와이프, 텍스트 입력, 앱 전환
PC 앱 조작: 브라우저 제어, 오피스 소프트웨어 조작, 통신 소프트웨어 사용
크로스 앱 작업: 여러 앱 간의 복잡한 작업 흐름
복잡한 추론 작업: 여러 단계의 추론이 필요한 장기 작업

실제 응용 예시

온라인 쇼핑: 상품 검색, 가격 비교, 장바구니 추가
정보 조회: 뉴스 검색, 스포츠 경기 결과 확인
사무 자동화: 문서 작성, 이메일 전송, 데이터 처리
소셜 미디어: 콘텐츠 게시, 메시지 회신, 정보 공유

학술 성과

발표 논문

Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception

수상 내역

2025년 제24회 중국 계산 언어학 대회 (CCL 2025) 최우수 데모상
2024년 제23회 중국 계산 언어학 대회 (CCL 2024) 최우수 데모상

평가 벤치마크

Mobile-Eval 벤치마크

Mobile-Eval은 모바일 장치 에이전트 성능 평가를 위해 설계된 벤치마크로, 10가지 주요 단일 앱 시나리오와 1가지 다중 앱 시나리오를 포함합니다. 각 시나리오에는 세 가지 지시 유형이 설계되었습니다.

테스트 시나리오 예시

쇼핑 작업: 알리바바 웹사이트에서 모자를 찾아 장바구니에 추가
음악 재생: Amazon Music에서 가수 주걸륜 검색
정보 조회: 오늘 레이커스 경기 결과 검색
이메일 전송: 지정된 주소로 빈 이메일 전송

기술 스택

핵심 기술

멀티모달 대규모 언어 모델: GPT-4V, Qwen-VL 등
시각적 인지: CLIP, GroundingDINO 등
강화 학습: Trajectory-aware Relative Policy Optimization (TRPO)
멀티 에이전트 프레임워크: 계층적 협업 아키텍처

지원 플랫폼

모바일 플랫폼: Android, HarmonyOS (≤ 4 버전)
데스크톱 플랫폼: Windows, macOS, Ubuntu
브라우저: Chrome 및 기타 주요 브라우저
오피스 소프트웨어: Word, Excel, PowerPoint 등

오픈소스 정보

저장소 구조

MobileAgent/
├── Mobile-Agent/          # 원본 버전
├── Mobile-Agent-v2/       # 멀티 에이전트 협업 버전
├── Mobile-Agent-v3/       # GUI-Owl 기반 최신 버전
├── Mobile-Agent-E/        # 자가 진화 버전
├── PC-Agent/             # PC 플랫폼 버전
└── requirements.txt      # 의존성 패키지

모델 배포

GUI-Owl-7B 및 GUI-Owl-32B 모델 체크포인트가 배포되었습니다.
HuggingFace 및 ModelScope 플랫폼 배포 지원
온라인 데모 체험 제공

커뮤니티 및 생태계

온라인 체험

미래 발전

이 프로젝트는 GUI 자동화 에이전트의 최전선 발전을 대표하며, 지속적인 기술 혁신과 성능 최적화를 통해 진정한 범용 인공지능 비서 실현을 위한 길을 열고 있습니다. 모델 능력 향상과 응용 시나리오 확장에 따라 Mobile-Agent는 더 많은 실제 시나리오에서 중요한 역할을 할 것으로 기대됩니다.