Orlei Barbosa

Posts diários + boletins
10/03/2026, 01:01:56

Agentes no computador e benchmarks mais duros: por que 2026 é o ano da IA “de verdade”

Agentes no computador e benchmarks mais duros: por que 2026 é o ano da IA “de verdade”

Subtítulo: A conversa de IA está mudando rápido: menos “demo” e mais entrega mensurável. Nesta edição, três sinais fortes — agentes operando software com desempenho competitivo, avaliações que voltam a separar o joio do trigo e métricas de adoção que premiam eficiência (não cliques).

Sinal #1 — IA que usa o computador (e começa a vencer)

O avanço mais “concreto” do momento não é só responder melhor: é executar tarefas reais em ambientes de trabalho — navegador, desktop, planilhas, sistemas legados. Isso coloca a IA no território do que as empresas realmente pagam: fluxo completo, do pedido ao resultado.

O que apareceu nas métricas

  • OSWorld-Verified: um benchmark de “uso de computador” (desktop) onde agentes navegam via screenshots e ações de teclado/mouse. A versão “Verified” foi criada para corrigir problemas de instabilidade, tarefas ambíguas e mudanças de sites, após 300+ ajustes reportados.
  • GPT‑5.4: a OpenAI reporta 75,0% no OSWorld‑Verified e cita 72,4% como desempenho humano médio no mesmo teste.

O ponto não é “a máquina é humana”. É que a barra de avaliação está ficando mais parecida com o mundo real: seguir passos, lidar com UI, recuperar-se de erros e concluir.

Por que isso importa

  • ROI fica mensurável: você mede tempo poupado por tarefa (e não “qualidade do texto”).
  • Integração vira o jogo: agentes precisam de ferramentas, permissões, logs e confirmações — não só um prompt.
  • Risco operacional sobe: um agente que clica pode fazer estrago. Isso puxa governança, revisões e trilhas de auditoria para o centro.

Sinal #2 — Benchmarks “ressuscitados” para escapar da saturação

Conforme modelos vão “gabaritando” provas antigas, a indústria precisa de avaliações que não virem treino disfarçado. Um exemplo relevante é o Humanity’s Last Exam (HLE), publicado pela Scale em parceria com o Center for AI Safety.

O que é o HLE

  • 2.500 questões multiárea e parcialmente multimodais (inclui itens com diagramas/figuras).
  • Foco em profundidade de raciocínio e amplitude de conhecimento, com preocupação explícita com contaminação de dados e “benchmark hacking”.
  • Além de acurácia, enfatiza calibração (o quão confiável é a confiança declarada do modelo).

Na prática, HLE reforça uma mensagem que muita gente ignora: não basta acertar — é preciso saber quando você não sabe. Para produto e compliance, calibração é quase tão importante quanto acurácia.

Leitura crítica: use benchmark como ferramenta, não como marketing

  • Compare método (como avalia) antes de comparar ranking.
  • Prefira benchmarks que documentam anti-contaminação e intervalos de confiança.
  • Procure também evidências “de campo”: tickets resolvidos, erros por 1.000 execuções, taxa de rollback.

Sinal #3 — Adoção vira eficiência: mais gente, menos prompts

Um dado que vale ouro para quem constrói (ou compra) IA: o melhor produto de IA pode ter menos interação e ainda assim entregar mais valor. A Mixpanel resume esse movimento com números de uso agregados em escala.

Os números (com fonte)

  • Dados agregados citados pela Mixpanel: ~290,8 bilhões de eventos de IA e ~2,61 bilhões de dispositivos.
  • No recorte global descrito: dispositivos +26% YoY, enquanto eventos totais caem levemente — sugerindo migração de exploração para execução (tarefas concluídas com menos idas e vindas).

Isso conversa com a evolução dos produtos: mais automação, mais “agentização”, mais IA embutida (invisível) — e menos chat longo.

O que isso significa na prática

1) Se você é empresa: comece pequeno, mas com métrica de verdade

  • Escolha 1 fluxo repetitivo (ex.: conciliação, cadastro, triagem, atualização de planilha) e defina tempo para valor, taxa de erro e custo por execução.
  • Imponha confirmações para ações irreversíveis (ex.: deletar, enviar, pagar).
  • Logue tudo: prompt, ferramentas, mudanças feitas, diffs (onde der).

2) Se você é dev/produto: prepare o terreno para agentes

  • Ferramentas com contratos claros: APIs com schemas, respostas estruturadas e erros previsíveis.
  • Isolamento: sandboxes, contas de serviço, permissões mínimas.
  • Observabilidade: traces por tarefa, replays e alertas de comportamento fora do padrão.

3) Se você é usuário: procure IA que “some” no seu dia

Quando a IA está boa, você não fica conversando com ela. Você pede, ela faz, e você confere.

Um exemplo de produto indo nessa direção é o NotebookLM, que anunciou Cinematic Video Overviews (vídeos mais fluidos e “imersivos” a partir de fontes enviadas pelo usuário), combinando modelos diferentes para roteiro e geração.

Fique de olho amanhã

  • Benchmarks de “uso de computador”: observe a consolidação de plataformas verificadas (mais comparabilidade, menos “gambiarras”).
  • Governança para agentes: políticas de confirmação, limites de ação, auditoria e “kill switch” devem virar requisito básico.
  • Métricas de valor: tendência de medir IA por resultado (tarefas concluídas, tempo poupado) e não por volume de prompts.
  • Mercado de trabalho: acompanhe métricas que combinam capacidade teórica com uso real (como “observed exposure”).

Receba os próximos

Quer receber por e-mail/WhatsApp assim que publicar?

Assinar Voltar