google/computer-use-preview View GitHub Homepage for Latest Official Releases

Google에서 공식적으로 발표한 Gemini 2.5 컴퓨터 사용 모델 미리보기 프로젝트입니다. 자연어 명령어를 통해 브라우저에서 작업을 수행하는 AI 에이전트를 지원합니다.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Google Computer Use Preview 프로젝트 소개

프로젝트 개요

Google Computer Use Preview는 Google 공식적으로 발표한 오픈 소스 프로젝트로, Gemini 2.5 기반의 컴퓨터 사용(Computer Use) 모델의 능력을 보여줍니다. 이 프로젝트는 개발자가 자연어 명령을 통해 브라우저가 다양한 작업을 수행하도록 제어하여 진정한 브라우저 자동화 에이전트를 구현할 수 있도록 합니다.

프로젝트 주소: https://github.com/google/computer-use-preview

오픈 소스 라이선스: Apache 2.0

핵심 기능

1. 자연어 제어

사용자는 간단한 자연어로 작업을 설명할 수 있으며, AI 에이전트는 자동으로 이를 분석하고 다음과 같은 해당 브라우저 작업을 실행합니다:

버튼 클릭
양식 작성
페이지 스크롤
텍스트 입력
검색 실행

2. 다중 환경 지원

프로젝트는 두 가지 실행 환경을 지원합니다:

Playwright: 로컬 브라우저 제어, Chrome 브라우저를 사용하여 로컬에서 작업 실행
Browserbase: 클라우드 브라우저 서비스, 원격 브라우저 제어 지원

3. Gemini 2.5 모델 기반

이 프로젝트는 Google의 최신 gemini-2.5-computer-use-preview-10-2025 모델을 사용하며, 이 모델은 UI 상호작용에 특화되어 다음과 같은 기능을 갖추고 있습니다:

강력한 시각적 이해 능력
정확한 UI 요소 인식
낮은 지연 시간 응답
뛰어난 추론 능력

4. API 유연성

두 가지 API 접속 방식을 지원합니다:

Gemini Developer API: 빠른 개발 및 테스트에 적합
Vertex AI: 기업용 애플리케이션 배포에 적합

기술 아키텍처

핵심 구성 요소

브라우저 제어 계층
- Playwright: 로컬 브라우저 자동화 프레임워크
- Browserbase: 클라우드 브라우저 인프라
AI 모델 계층
- Gemini 2.5 Computer Use 모델
- 시각적 이해 및 추론 능력
- UI 동작 생성
에이전트 루프
- 사용자 쿼리 수신
- 스크린샷 캡처
- 동작 생성 및 실행
- 기록된 작업 추적

작동 원리

사용자가 자연어로 작업 설명을 제공합니다.
시스템이 현재 브라우저 스크린샷을 캡처합니다.
Gemini 모델이 스크린샷과 작업 요구 사항을 분석합니다.
모델이 구체적인 UI 작업 명령(클릭, 입력, 스크롤 등)을 생성합니다.
작업을 실행하고 새로운 화면 상태를 가져옵니다.
작업이 완료될 때까지 2-5단계를 반복합니다.

빠른 시작

환경 요구 사항

Python 3.x
Chrome 브라우저
Gemini API 키 (또는 Vertex AI 접근 권한)

설치 단계

프로젝트 복제

git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

가상 환경 생성 및 종속성 설치

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Playwright 및 브라우저 설치

# Chrome에 필요한 시스템 종속성 설치
playwright install-deps chrome

# Chrome 브라우저 설치
playwright install chrome

API 키 구성

Gemini Developer API 사용

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

또는 가상 환경에 영구적으로 추가:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Vertex AI 사용

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

사용 예시

1. 기본 사용 (Playwright 로컬 환경)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. 초기 URL 지정

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Browserbase 클라우드 환경 사용

먼저 Browserbase 환경 변수 설정:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

그 다음 실행:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

명령줄 인자 설명

주요 인자

인자	설명	필수 여부	기본값	지원 환경
`--query`	자연어 작업 설명	예	N/A	모든
`--env`	실행 환경(playwright/browserbase)	아니요	N/A	모든
`--initial_url`	브라우저 시작 시 로드할 초기 URL	아니요	https://www.google.com	playwright
`--highlight_mouse`	스크린샷에 마우스 위치 강조 표시(디버깅용)	아니요	false	playwright

환경 변수

변수명	설명	필수 여부
`GEMINI_API_KEY`	Gemini API 키	예(Gemini API 사용 시)
`BROWSERBASE_API_KEY`	Browserbase API 키	예(browserbase 환경 사용 시)
`BROWSERBASE_PROJECT_ID`	Browserbase 프로젝트 ID	예(browserbase 환경 사용 시)
`USE_VERTEXAI`	Vertex AI 활성화	아니요
`VERTEXAI_PROJECT`	Vertex AI 프로젝트 ID	예(Vertex AI 사용 시)
`VERTEXAI_LOCATION`	Vertex AI 위치	예(Vertex AI 사용 시)

응용 시나리오

1. 자동화 테스트

UI 회귀 테스트
엔드투엔드 테스트
크로스 브라우저 테스트

2. 데이터 스크래핑

양식 자동 작성
웹 페이지 데이터 추출
정기 작업 실행

3. 워크플로 자동화

반복 작업 자동화
다단계 비즈니스 프로세스
일괄 작업 처리

4. 개인 비서

일상적인 웹 작업 자동화
정보 수집 및 정리
지능형 웹 페이지 탐색

성능

Google과 Browserbase의 평가 데이터에 따르면, Gemini 2.5 Computer Use 모델은 여러 벤치마크에서 뛰어난 성능을 보였습니다:

OnlineMind2Web: 웹 제어 작업에서 정확도 선두
WebVoyager: 복잡한 웹 페이지 탐색 작업에서 우수한 성능
낮은 지연 시간: 경쟁 모델 대비 빠른 응답
높은 정확도: 브라우저 및 모바일 제어 벤치마크에서 다른 주요 모델 능가

주의 사항

보안

이 모델은 미리 보기 버전이므로 오류 및 보안 취약점이 있을 수 있습니다.
모델이 제안하는 작업이 부적절하거나 안전하지 않을 수 있습니다.
적대적 입력으로 인해 악의적인 작업이 발생할 수 있습니다.
프로덕션 환경에서 사용하기 전에 충분한 테스트를 권장합니다.

사용 제한

명확한 수동 확인 메커니즘이 필요합니다.
Google의 생성형 AI 금지 사용 정책을 준수해야 합니다.
이 제품은 Pre-GA 약관의 적용을 받습니다.

모범 사례

항상 통제된 환경에서 테스트하십시오.
에이전트의 작업 동작을 모니터링하십시오.
중요한 작업에 수동 검토를 추가하십시오.
최신 버전으로 정기적으로 업데이트하십시오.

기술적 장점

시각적 이해 능력: Gemini 2.5 Pro 기반의 강력한 시각 인식 능력
네이티브 UI 상호작용: 구조화된 API 없이 직접 그래픽 인터페이스 조작
로그인 후 작업: 인증이 필요한 복잡한 작업 지원
양식 처리: 복잡한 양식 지능적으로 작성 및 제출
상호작용 요소 조작: 드롭다운 메뉴, 필터 등 상호작용 구성 요소 처리

프로젝트의 의미

Google Computer Use Preview는 AI 에이전트 기술의 중요한 진전을 나타냅니다. AI 모델이 구조화된 API에 의존하는 대신 인간처럼 그래픽 인터페이스와 직접 상호작용하도록 함으로써, 이 기술은 범용 에이전트 구축을 위한 새로운 가능성을 열었습니다. 이를 통해 개발자는 다음을 수행할 수 있습니다:

이전에는 수동 개입이 필요했던 복잡한 작업을 자동화합니다.
지능형 브라우저 자동화 애플리케이션을 신속하게 구축합니다.
UI 테스트 및 워크플로 자동화 개발 비용을 절감합니다.
새로운 인간-컴퓨터 상호작용 방식을 탐색합니다.

미래 전망

모델 능력의 지속적인 향상과 함께, 컴퓨터 사용 기술은 다음 분야에서 발전할 것입니다:

더 높은 정확성과 신뢰성
더 복잡한 다단계 작업 실행
더 나은 보안 및 제어 가능성
다른 AI 능력과의 심층적인 통합
더 넓은 응용 시나리오 커버리지