강력한 멀티모달 GUI 자동화 에이전트 패밀리, 모바일 기기 및 PC 플랫폼의 엔드 투 엔드 작동 지원
Mobile-Agent 프로젝트 상세 소개
프로젝트 개요
Mobile-Agent는 알리바바 X-PLUG 팀이 개발한 강력한 GUI 에이전트 제품군으로, 모바일 장치 및 PC 플랫폼을 위해 설계된 엔드투엔드 멀티모달 에이전트 시스템입니다. 이 프로젝트는 시각적 인지, 추론 계획 및 동작 실행을 통해 다양한 애플리케이션을 자율적으로 조작하여 GUI 자동화를 실현하는 것을 목표로 합니다.
프로젝트 아키텍처 및 구성 요소
핵심 구성 요소 시리즈
1. GUI-Owl 기반 모델
GUI-Owl은 기반 GUI 에이전트 모델로, 데스크톱 및 모바일 환경의 위치 파악, 질의응답, 계획, 의사 결정 및 프로그램 지식을 포함하는 10가지 GUI 벤치마크에서 오픈소스 엔드투엔드 모델 중 최첨단 성능을 달성했습니다. GUI-Owl-7B는 AndroidWorld에서 66.4점, OSWorld에서 29.4점을 기록했습니다.
2. Mobile-Agent-v3
Mobile-Agent-v3는 GUI-Owl을 기반으로 하는 크로스 플랫폼 멀티 에이전트 프레임워크로, 계획, 진행 관리, 반성 및 기억과 같은 기능을 제공합니다. 이는 인지, 위치 파악, 추론, 계획 및 동작 실행을 단일 정책 네트워크로 통합하도록 설계된 GUI 자동화를 위한 기반 모델로서의 네이티브 엔드투엔드 멀티모달 에이전트입니다.
3. Mobile-Agent-E
Mobile-Agent-E는 자가 진화 능력을 갖춘 계층적 멀티 에이전트 프레임워크로, 과거 경험을 통해 자가 진화를 실현하여 복잡한 다중 애플리케이션 작업에서 더 강력한 성능을 발휘합니다.
4. PC-Agent
PC-Agent는 사용자 지시에 따라 생산성 시나리오(예: Chrome, Word, WeChat)의 자동 제어를 실현할 수 있는 멀티 에이전트 협업 시스템입니다. 밀집되고 다양한 상호작용 요소를 위해 특별히 설계된 능동적 인지 모듈은 PC 플랫폼에 더 잘 적응합니다. 계층적 멀티 에이전트 협업 구조는 더 복잡한 작업 시퀀스의 성공률을 높입니다. 현재 Windows와 Mac을 모두 지원합니다.
5. Mobile-Agent-v2
Mobile-Agent-v2는 멀티 에이전트 협업을 통해 효과적인 탐색을 실현하는 모바일 장치 조작 도우미입니다. 멀티 에이전트 아키텍처는 긴 컨텍스트 입력 시나리오에서의 탐색 문제를 해결합니다. 강화된 시각적 인지 모듈은 조작 정확도를 크게 향상시킵니다.
기술적 특징
핵심 기술적 장점
- 크로스 플랫폼 호환성: Android, iOS, Windows, Mac 등 여러 플랫폼 지원
- 시각적 인지 능력: 시각적 인지 도구를 활용하여 애플리케이션 프런트엔드 인터페이스의 시각 및 텍스트 요소를 정확하게 식별하고 위치 파악
- 멀티모달 이해: 시각 및 언어 이해를 결합하여 복잡한 작업 추론
- 엔드투엔드 조작: 작업 이해부터 실행까지의 완전한 자동화 프로세스
- 자가 진화: 경험 학습을 통해 성능을 지속적으로 개선
기술 혁신 포인트
GUI-Owl의 세 가지 주요 혁신
- 대규모 환경 인프라: Android, Ubuntu, macOS 및 Windows를 포함하는 클라우드 기반 가상 환경으로, 자가 진화 GUI 궤적 생성 프레임워크 지원
- 다양한 기반 에이전트 능력: UI 위치 파악, 계획, 동작 의미론 및 추론 모드를 통합하여 엔드투엔드 의사 결정 지원
- 확장 가능한 환경 강화 학습: 실제 세계 정렬을 위한 완전 비동기 훈련이 가능한 확장 가능한 강화 학습 프레임워크 개발
성능
벤치마크 테스트 결과
- Mobile-Agent-v3는 AndroidWorld에서 73.3점, OSWorld에서 37.7점을 달성하여 오픈소스 GUI 에이전트 프레임워크의 새로운 최첨단 표준을 수립했습니다.
- ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G, MMBench-GUI, Android Control, Android World 및 OSWorld를 포함한 여러 GUI 자동화 평가 순위에서 SOTA(최첨단) 성능을 달성했습니다.
시스템 성능 최적화
- 낮은 메모리 오버헤드 (8GB)
- 빠른 추론 속도 (작업당 10-15초)
- 모두 오픈소스 모델 사용
기술 구현
환경 요구 사항
# 기본 환경 설정
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt
Android 플랫폼 설정
- Android Debug Bridge (ADB) 다운로드
- Android 휴대폰에서 ADB 디버깅 스위치 켜기
- 데이터 케이블로 휴대폰을 컴퓨터에 연결하고 "파일 전송" 선택
- ADB 환경 테스트:
/path/to/adb devices
PC 플랫폼 설정
# Windows 환경
pip install -r requirements.txt
# Mac 환경
pip install -r requirements_mac.txt
API 설정
{
"vl_model_name": "gpt-4o",
"llm_model_name": "gpt-4o",
"token": "sk-...",
"url": "https://api.openai.com/v1"
}
응용 시나리오
지원되는 조작 유형
- 모바일 앱 조작: 클릭, 스와이프, 텍스트 입력, 앱 전환
- PC 앱 조작: 브라우저 제어, 오피스 소프트웨어 조작, 통신 소프트웨어 사용
- 크로스 앱 작업: 여러 앱 간의 복잡한 작업 흐름
- 복잡한 추론 작업: 여러 단계의 추론이 필요한 장기 작업
실제 응용 예시
- 온라인 쇼핑: 상품 검색, 가격 비교, 장바구니 추가
- 정보 조회: 뉴스 검색, 스포츠 경기 결과 확인
- 사무 자동화: 문서 작성, 이메일 전송, 데이터 처리
- 소셜 미디어: 콘텐츠 게시, 메시지 회신, 정보 공유
학술 성과
발표 논문
- Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
- PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
- Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
- Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception
수상 내역
- 2025년 제24회 중국 계산 언어학 대회 (CCL 2025) 최우수 데모상
- 2024년 제23회 중국 계산 언어학 대회 (CCL 2024) 최우수 데모상
평가 벤치마크
Mobile-Eval 벤치마크
Mobile-Eval은 모바일 장치 에이전트 성능 평가를 위해 설계된 벤치마크로, 10가지 주요 단일 앱 시나리오와 1가지 다중 앱 시나리오를 포함합니다. 각 시나리오에는 세 가지 지시 유형이 설계되었습니다.
테스트 시나리오 예시
- 쇼핑 작업: 알리바바 웹사이트에서 모자를 찾아 장바구니에 추가
- 음악 재생: Amazon Music에서 가수 주걸륜 검색
- 정보 조회: 오늘 레이커스 경기 결과 검색
- 이메일 전송: 지정된 주소로 빈 이메일 전송
기술 스택
핵심 기술
- 멀티모달 대규모 언어 모델: GPT-4V, Qwen-VL 등
- 시각적 인지: CLIP, GroundingDINO 등
- 강화 학습: Trajectory-aware Relative Policy Optimization (TRPO)
- 멀티 에이전트 프레임워크: 계층적 협업 아키텍처
지원 플랫폼
- 모바일 플랫폼: Android, HarmonyOS (≤ 4 버전)
- 데스크톱 플랫폼: Windows, macOS, Ubuntu
- 브라우저: Chrome 및 기타 주요 브라우저
- 오피스 소프트웨어: Word, Excel, PowerPoint 등
오픈소스 정보
저장소 구조
MobileAgent/
├── Mobile-Agent/ # 원본 버전
├── Mobile-Agent-v2/ # 멀티 에이전트 협업 버전
├── Mobile-Agent-v3/ # GUI-Owl 기반 최신 버전
├── Mobile-Agent-E/ # 자가 진화 버전
├── PC-Agent/ # PC 플랫폼 버전
└── requirements.txt # 의존성 패키지
모델 배포
- GUI-Owl-7B 및 GUI-Owl-32B 모델 체크포인트가 배포되었습니다.
- HuggingFace 및 ModelScope 플랫폼 배포 지원
- 온라인 데모 체험 제공
커뮤니티 및 생태계
온라인 체험
관련 프로젝트
- AppAgent: 스마트폰 사용자로서의 멀티모달 에이전트
- mPLUG-Owl: 모듈형 멀티모달 대규모 언어 모델
- Qwen-VL: 범용 시각 언어 모델
- GroundingDINO: 오픈셋 객체 탐지
미래 발전
이 프로젝트는 GUI 자동화 에이전트의 최전선 발전을 대표하며, 지속적인 기술 혁신과 성능 최적화를 통해 진정한 범용 인공지능 비서 실현을 위한 길을 열고 있습니다. 모델 능력 향상과 응용 시나리오 확장에 따라 Mobile-Agent는 더 많은 실제 시나리오에서 중요한 역할을 할 것으로 기대됩니다.