
Conteúdo
Microsoft aponta que agentes baseados em API são mais rápidos, mas interfaces gráficas continuam mais versáteis
Um novo estudo conduzido pela Microsoft comparou o desempenho de dois tipos de agentes de inteligência artificial — os que operam via API e os que interagem com interfaces gráficas de usuário (GUI) — e revelou que, embora os agentes de API sejam mais rápidos, os agentes GUI demonstram maior flexibilidade.
A análise, publicada no arXiv, foca em “agentes computacionais” — sistemas de IA que navegam por websites e aplicativos para executar tarefas no lugar dos usuários. A Microsoft testou esses dois tipos de agentes em um ambiente chamado WebArena, um espaço de código aberto para benchmark de interações complexas da web.
Agentes de API: mais rápidos, mas limitados
Segundo a Microsoft, os agentes de IA que utilizam APIs diretas conseguem executar tarefas com maior velocidade e precisão. Isso ocorre porque esses agentes acessam diretamente os dados e comandos, sem depender de elementos visuais ou layouts dinâmicos.
Entretanto, a dependência de APIs específicas limita a aplicabilidade desses agentes. Eles funcionam bem quando há integração e documentação, mas enfrentam desafios quando a API muda ou quando precisam lidar com sistemas mais antigos que não possuem interfaces programáveis.
Agentes GUI: adaptáveis a contextos variados
Já os agentes baseados em GUI imitam o comportamento humano: clicam em botões, preenchem formulários e navegam por menus visuais. Embora essa abordagem demande mais tempo para completar uma tarefa, ela oferece mais flexibilidade e é capaz de operar em qualquer site ou sistema, mesmo sem APIs públicas.
O estudo destaca que os agentes GUI são capazes de se adaptar a mudanças de layout e design, o que os torna mais robustos em ambientes reais, onde a estrutura das páginas pode mudar com frequência.
O futuro está na fusão das abordagens
A Microsoft acredita que o futuro da automação com IA está em modelos híbridos que combinam a velocidade dos agentes de API com a adaptabilidade dos agentes GUI. Esses agentes híbridos seriam capazes de usar APIs sempre que disponíveis, mas recorreriam à interação gráfica quando necessário.
A empresa afirma que esse tipo de abordagem será essencial para o desenvolvimento de assistentes autônomos, capazes de operar em uma ampla variedade de sistemas — de sites de comércio eletrônico a aplicações corporativas — com o mínimo de intervenção humana.