browser-use/browser-use View GitHub Homepage for Latest Official Releases

A maneira mais fácil para agentes de IA se conectarem e controlarem navegadores, automatizando operações em sites.

MITPythonbrowser-usebrowser-use 78.2k Last Updated: February 12, 2026

Detalhes do Projeto Browser-use

Visão Geral do Projeto

Browser-use é uma biblioteca Python revolucionária, projetada especificamente para permitir que agentes de IA controlem e operem navegadores da web com facilidade. O objetivo principal deste projeto é tornar os sites acessíveis e controláveis para agentes de IA, permitindo tarefas complexas de automação da web.

Endereço do Projeto: https://github.com/browser-use/browser-use

Principais Características

🌐 Controle de Navegador Simples e Fácil de Usar

A Maneira Mais Simples de Conectar: Browser-use é a maneira mais fácil de conectar agentes de IA com navegadores.
Suporte Multi-navegador: Construído com base no Playwright, suporta Chromium, Firefox e WebKit.
Modo de Navegador Sem Cabeça: Suporta operações de navegador com e sem interface gráfica.

🤖 Suporte a Múltiplos Modelos LLM

O projeto suporta vários modelos de linguagem grandes (LLM) populares:

OpenAI GPT Series (GPT-4o, etc.)
Anthropic Claude
Google Gemini
DeepSeek-V3
Azure OpenAI

💡 Execução Inteligente de Tarefas

Instruções em Linguagem Natural: Os usuários só precisam dizer ao sistema o que fazer, e o agente de IA pode entender e executar.
Processamento de Tarefas Complexas: Capaz de lidar com fluxos de operações web complexos e de várias etapas.
Capacidade de Processamento Paralelo: Suporta o processamento simultâneo de várias tarefas semelhantes, melhorando significativamente a eficiência.

Instalação e Uso

Requisitos de Instalação

Python 3.11 ou superior
Requer a instalação do Playwright e Chromium

Início Rápido

# Instale usando pip
pip install browser-use

# Instale o Playwright
playwright install chromium

Exemplo de Uso Básico

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv

load_dotenv()

async def main():
    agent = Agent(
        task="比较 gpt-4o 和 DeepSeek-V3 的价格", # Comparar os preços de gpt-4o e DeepSeek-V3
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

asyncio.run(main())

Configuração do Ambiente

É necessário adicionar as chaves de API correspondentes no arquivo .env:

OPENAI_API_KEY=your_openai_key
ANTHROPIC_API_KEY=your_anthropic_key
AZURE_ENDPOINT=your_azure_endpoint
AZURE_OPENAI_API_KEY=your_azure_key
GEMINI_API_KEY=your_gemini_key
DEEPSEEK_API_KEY=your_deepseek_key

Cenários de Aplicação Prática

1. Automação de Comércio Eletrônico

Gerenciamento de Carrinho de Compras: Adicionar automaticamente produtos ao carrinho e concluir o processo de checkout.
Comparação de Preços: Comparar preços de produtos em vários sites.
Monitoramento de Estoque: Monitorar o status do estoque de produtos.

2. Automação de Recrutamento e Busca de Emprego

Busca de Vagas: Buscar automaticamente vagas de aprendizado de máquina relevantes com base no currículo.
Candidaturas em Lote: Candidatar-se automaticamente a vagas em várias abas.
Envio de Currículos: Combinar e enviar currículos de forma inteligente.

3. Gerenciamento de Mídias Sociais

Gerenciamento de Contatos: Adicionar os seguidores mais recentes do LinkedIn à lista de leads do Salesforce.
Publicação de Conteúdo: Automatizar a publicação de conteúdo em mídias sociais.
Coleta de Dados: Coletar informações específicas nas mídias sociais.

4. Processamento de Documentos

Operações do Google Docs: Criar documentos no Google Docs e salvar como PDF.
Extração de Dados: Extrair informações de sites e salvar em arquivos.
Preenchimento de Formulários: Preencher automaticamente vários formulários online.

5. Pesquisa de Dados

Busca de Modelos Hugging Face: Buscar modelos com licenças específicas e ordenar por número de curtidas.
Pesquisa Acadêmica: Coletar e organizar materiais de pesquisa.
Pesquisa de Mercado: Automatizar a coleta de dados de mercado.

Arquitetura Técnica

Componentes Principais

Classe Agent: O principal controlador do agente, responsável pelo planejamento e execução de tarefas.
Controlador do Navegador: Interface de controle do navegador baseada no Playwright.
Integração LLM: Interface unificada para suportar vários modelos de linguagem grandes.
Planejador de Tarefas: Decomposição inteligente de tarefas e planejamento de execução.

Fluxo de Trabalho

Recebimento de Tarefas: Receber instruções em linguagem natural do usuário.
Análise de Tarefas: Usar LLM para analisar e entender os requisitos da tarefa.
Planejamento de Operações: Desenvolver etapas detalhadas de operação do navegador.
Monitoramento da Execução: Monitorar o status da execução em tempo real e lidar com exceções.
Feedback de Resultados: Fornecer resultados da execução da tarefa e relatórios de status.

Vantagens do Projeto

1. Fácil de Usar

Design de API Simples: Apenas algumas linhas de código para começar a usar.
Interação em Linguagem Natural: Suporta o uso direto de instruções em chinês ou inglês.
Exemplos Abundantes: Fornece uma grande quantidade de código de exemplo para cenários de uso prático.

2. Funcionalidade Poderosa

Processamento de Tarefas Complexas: Capaz de lidar com operações complexas de várias etapas e entre páginas.
Tratamento Inteligente de Erros: Lidar automaticamente com erros comuns de carregamento e operação de páginas da web.
Gerenciamento de Estado: Gerenciar de forma inteligente o estado do navegador e as informações da sessão.

3. Forte Escalabilidade

Sistema de Plugins: Suporta extensão de funções personalizadas.
Sistema de Modelos: Permite criar modelos de tarefas reutilizáveis.
Processamento Paralelo: Suporta a execução paralela de várias tarefas, melhorando a eficiência.

4. Comunidade Ativa

Projeto de Código Aberto: Totalmente de código aberto, desenvolvimento impulsionado pela comunidade.
Comunidade Discord Ativa: Fornece suporte técnico e plataforma de comunicação.
Atualizações Contínuas: Lança regularmente novos recursos e melhorias.

Impacto do Projeto

O projeto Browser-use representa um avanço importante na área de automação de IA, tornando as complexas operações de automação do navegador simples e fáceis de usar. Este projeto não apenas fornece aos desenvolvedores uma ferramenta poderosa, mas também abre novas possibilidades para a aplicação de agentes de IA em cenários de negócios reais.

Através do Browser-use, podemos ver como a tecnologia de IA pode realmente mudar a forma como interagimos com o mundo digital, permitindo que os computadores entendam e operem interfaces de páginas da web como os humanos, o que estabelece uma base sólida para futuras aplicações de automação inteligente.

Resumo

Browser-use é um projeto de código aberto altamente prospectivo e prático, que combina com sucesso a capacidade de compreensão dos grandes modelos de linguagem de IA com a tecnologia de automação do navegador, criando uma ferramenta poderosa e fácil de usar. Seja para usuários individuais ou desenvolvedores corporativos, este projeto oferece grande valor e possibilidades ilimitadas.