Agentes baseados em visão

Os agentes baseados em visão tratam o navegador como uma tela visual. Eles analisam as capturas de tela, interpretam-nas usando modelos multimodais e geram ações de baixo nível, como “clique em (210.260)” ou “digite “Peter Pan””. Isso imita como um ser humano usaria um computador – lendo texto visível, localizando botões visualmente e clicando onde necessário.

A vantagem é a universalidade: o modelo não precisa de dados estruturados, apenas pixels. A desvantagem é a precisão e o desempenho: os modelos visuais são mais lentos, exigem a rolagem pela página inteira e enfrentam mudanças sutis de estado entre as capturas de tela (“Já é possível clicar neste botão?”).


Agentes baseados em DOM

Os agentes baseados em DOM, por outro lado, operam diretamente no Document Object Model (DOM), a árvore estruturada que define cada página da web. Em vez de interpretar pixels, eles raciocinam sobre representações textuais da página: tags de elementos, atributos, funções ARIA e rótulos.