Home
Login

A maneira mais fácil para agentes de IA se conectarem e controlarem navegadores, automatizando operações em sites.

MITPython 63.6kbrowser-use Last Updated: 2025-06-20

Detalhes do Projeto Browser-use

Visão Geral do Projeto

Browser-use é uma biblioteca Python revolucionária, projetada especificamente para permitir que agentes de IA controlem e operem navegadores da web com facilidade. O objetivo principal deste projeto é tornar os sites acessíveis e controláveis para agentes de IA, permitindo tarefas complexas de automação da web.

Endereço do Projeto: https://github.com/browser-use/browser-use

Principais Características

🌐 Controle de Navegador Simples e Fácil de Usar

  • A Maneira Mais Simples de Conectar: Browser-use é a maneira mais fácil de conectar agentes de IA com navegadores.
  • Suporte Multi-navegador: Construído com base no Playwright, suporta Chromium, Firefox e WebKit.
  • Modo de Navegador Sem Cabeça: Suporta operações de navegador com e sem interface gráfica.

🤖 Suporte a Múltiplos Modelos LLM

O projeto suporta vários modelos de linguagem grandes (LLM) populares:

  • OpenAI GPT Series (GPT-4o, etc.)
  • Anthropic Claude
  • Google Gemini
  • DeepSeek-V3
  • Azure OpenAI

💡 Execução Inteligente de Tarefas

  • Instruções em Linguagem Natural: Os usuários só precisam dizer ao sistema o que fazer, e o agente de IA pode entender e executar.
  • Processamento de Tarefas Complexas: Capaz de lidar com fluxos de operações web complexos e de várias etapas.
  • Capacidade de Processamento Paralelo: Suporta o processamento simultâneo de várias tarefas semelhantes, melhorando significativamente a eficiência.

Instalação e Uso

Requisitos de Instalação

  • Python 3.11 ou superior
  • Requer a instalação do Playwright e Chromium

Início Rápido

# Instale usando pip
pip install browser-use

# Instale o Playwright
playwright install chromium

Exemplo de Uso Básico

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv

load_dotenv()

async def main():
    agent = Agent(
        task="比较 gpt-4o 和 DeepSeek-V3 的价格", # Comparar os preços de gpt-4o e DeepSeek-V3
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

asyncio.run(main())

Configuração do Ambiente

É necessário adicionar as chaves de API correspondentes no arquivo .env:

OPENAI_API_KEY=your_openai_key
ANTHROPIC_API_KEY=your_anthropic_key
AZURE_ENDPOINT=your_azure_endpoint
AZURE_OPENAI_API_KEY=your_azure_key
GEMINI_API_KEY=your_gemini_key
DEEPSEEK_API_KEY=your_deepseek_key

Cenários de Aplicação Prática

1. Automação de Comércio Eletrônico

  • Gerenciamento de Carrinho de Compras: Adicionar automaticamente produtos ao carrinho e concluir o processo de checkout.
  • Comparação de Preços: Comparar preços de produtos em vários sites.
  • Monitoramento de Estoque: Monitorar o status do estoque de produtos.

2. Automação de Recrutamento e Busca de Emprego

  • Busca de Vagas: Buscar automaticamente vagas de aprendizado de máquina relevantes com base no currículo.
  • Candidaturas em Lote: Candidatar-se automaticamente a vagas em várias abas.
  • Envio de Currículos: Combinar e enviar currículos de forma inteligente.

3. Gerenciamento de Mídias Sociais

  • Gerenciamento de Contatos: Adicionar os seguidores mais recentes do LinkedIn à lista de leads do Salesforce.
  • Publicação de Conteúdo: Automatizar a publicação de conteúdo em mídias sociais.
  • Coleta de Dados: Coletar informações específicas nas mídias sociais.

4. Processamento de Documentos

  • Operações do Google Docs: Criar documentos no Google Docs e salvar como PDF.
  • Extração de Dados: Extrair informações de sites e salvar em arquivos.
  • Preenchimento de Formulários: Preencher automaticamente vários formulários online.

5. Pesquisa de Dados

  • Busca de Modelos Hugging Face: Buscar modelos com licenças específicas e ordenar por número de curtidas.
  • Pesquisa Acadêmica: Coletar e organizar materiais de pesquisa.
  • Pesquisa de Mercado: Automatizar a coleta de dados de mercado.

Arquitetura Técnica

Componentes Principais

  • Classe Agent: O principal controlador do agente, responsável pelo planejamento e execução de tarefas.
  • Controlador do Navegador: Interface de controle do navegador baseada no Playwright.
  • Integração LLM: Interface unificada para suportar vários modelos de linguagem grandes.
  • Planejador de Tarefas: Decomposição inteligente de tarefas e planejamento de execução.

Fluxo de Trabalho

  1. Recebimento de Tarefas: Receber instruções em linguagem natural do usuário.
  2. Análise de Tarefas: Usar LLM para analisar e entender os requisitos da tarefa.
  3. Planejamento de Operações: Desenvolver etapas detalhadas de operação do navegador.
  4. Monitoramento da Execução: Monitorar o status da execução em tempo real e lidar com exceções.
  5. Feedback de Resultados: Fornecer resultados da execução da tarefa e relatórios de status.

Vantagens do Projeto

1. Fácil de Usar

  • Design de API Simples: Apenas algumas linhas de código para começar a usar.
  • Interação em Linguagem Natural: Suporta o uso direto de instruções em chinês ou inglês.
  • Exemplos Abundantes: Fornece uma grande quantidade de código de exemplo para cenários de uso prático.

2. Funcionalidade Poderosa

  • Processamento de Tarefas Complexas: Capaz de lidar com operações complexas de várias etapas e entre páginas.
  • Tratamento Inteligente de Erros: Lidar automaticamente com erros comuns de carregamento e operação de páginas da web.
  • Gerenciamento de Estado: Gerenciar de forma inteligente o estado do navegador e as informações da sessão.

3. Forte Escalabilidade

  • Sistema de Plugins: Suporta extensão de funções personalizadas.
  • Sistema de Modelos: Permite criar modelos de tarefas reutilizáveis.
  • Processamento Paralelo: Suporta a execução paralela de várias tarefas, melhorando a eficiência.

4. Comunidade Ativa

  • Projeto de Código Aberto: Totalmente de código aberto, desenvolvimento impulsionado pela comunidade.
  • Comunidade Discord Ativa: Fornece suporte técnico e plataforma de comunicação.
  • Atualizações Contínuas: Lança regularmente novos recursos e melhorias.

Impacto do Projeto

O projeto Browser-use representa um avanço importante na área de automação de IA, tornando as complexas operações de automação do navegador simples e fáceis de usar. Este projeto não apenas fornece aos desenvolvedores uma ferramenta poderosa, mas também abre novas possibilidades para a aplicação de agentes de IA em cenários de negócios reais.

Através do Browser-use, podemos ver como a tecnologia de IA pode realmente mudar a forma como interagimos com o mundo digital, permitindo que os computadores entendam e operem interfaces de páginas da web como os humanos, o que estabelece uma base sólida para futuras aplicações de automação inteligente.

Resumo

Browser-use é um projeto de código aberto altamente prospectivo e prático, que combina com sucesso a capacidade de compreensão dos grandes modelos de linguagem de IA com a tecnologia de automação do navegador, criando uma ferramenta poderosa e fácil de usar. Seja para usuários individuais ou desenvolvedores corporativos, este projeto oferece grande valor e possibilidades ilimitadas.