Orlei Barbosa

Posts diários + boletins
14/03/2026, 01:04:19

IA hoje: benchmark do Google para Android, “Avocado” da Meta adiado e a UE apertando a rotulagem de conteúdo sintético

IA hoje: benchmark do Google para Android, “Avocado” da Meta adiado e a UE apertando a rotulagem de conteúdo sintético

Subtítulo: Três sinais claros do momento atual da Inteligência Artificial: (1) mais avaliação com tarefas reais (e menos “ranking de marketing”), (2) pressão por desempenho entre labs, e (3) regras práticas para identificar conteúdo gerado por IA entrando em fase final na Europa. No Brasil, empresas também começam a “verticalizar” modelos e agentes em setores como energia e atendimento.

Publicado em 2026-03-13 (horário de São Paulo).

Google lança o Android Bench (e o que esse tipo de benchmark muda)

O Google apresentou o Android Bench, um benchmark voltado a avaliar modelos de linguagem em tarefas reais de desenvolvimento Android, extraídas de projetos públicos no GitHub e verificadas com testes automatizados (unit/instrumentation). A proposta é comparar modelos em situações que desenvolvedores realmente enfrentam — como migrações para Jetpack Compose, mudanças entre versões do Android e tarefas de rede em wearables.

Por que isso importa

  • Menos “prova de múltipla escolha” e mais “conserta o bug e passa no teste”. Esse é o tipo de métrica que aproxima avaliação de IA do mundo do software.
  • Resultados variam muito: os primeiros números citados no material indicam taxas de resolução entre 16% e 72% (dependendo do modelo avaliado) — um lembrete de que a performance ainda oscila bastante conforme o domínio e o formato das tarefas.
  • Recorte importante: nesta primeira versão, o foco é a capacidade do modelo em resolver desafios sem considerar agentes autônomos ou ferramentas externas acopladas.

Meta adia o modelo “Avocado” após testes internos

A Meta decidiu adiar o lançamento do seu próximo modelo de IA, conhecido internamente como “Avocado”, após ele apresentar desempenho abaixo do esperado em testes internos quando comparado a sistemas rivais. Segundo a reportagem, o Avocado foi avaliado em tarefas como raciocínio, programação e produção de texto e, apesar de superar modelos anteriores da empresa, não alcançou os melhores resultados do mercado. A expectativa interna passou a ser um anúncio a partir de maio.

O detalhe que chama atenção

  • Além do atraso, a matéria cita que executivos chegaram a discutir licenciar temporariamente um modelo externo (Gemini) para alimentar alguns produtos — um sinal de como a corrida por qualidade/tempo de lançamento ficou apertada.
  • Também aparece (de novo) a tensão entre “open” vs “closed”: a Meta historicamente defendeu distribuição mais aberta, mas executivos consideram manter sistemas fechados, ao menos inicialmente.

Nota editorial: o texto do Olhar Digital referencia o New York Times como fonte primária para o adiamento.

UE: rascunho de código voluntário para rotulagem/“marca d’água” de conteúdo por IA

A Comissão Europeia publicou um segundo rascunho de um Código de Prática voluntário para apoiar a conformidade com obrigações de transparência do AI Act, especialmente as exigências do Artigo 50 relacionadas a marcação e rotulagem de conteúdo gerado/manipulado por IA (incluindo deepfakes e certos textos de interesse público).

O que o rascunho recomenda (em termos simples)

  • Abordagem em duas camadas: uso combinado de metadados protegidos e watermarking (marca d’água) para facilitar detecção.
  • Elementos opcionais: fingerprinting, logging e protocolos de verificação para melhorar rastreabilidade e checagem.
  • Ícone/rotulagem: o material também discute a ideia de um ícone padronizado na UE para rotular conteúdo.

Calendário

Segundo a Comissão, o feedback sobre o rascunho vai até 30 de março e a versão final é esperada para o início de junho. As regras de transparência para conteúdo gerado por IA passam a ser aplicáveis em 2 de agosto de 2026.

Brasil: IA vertical e “agentes” entrando no trabalho do dia a dia

EnergyGPT (Cemig): IA especializada em energia, com modelos em português

A Cemig anunciou no SXSW 2026 o EnergyGPT, descrito como uma plataforma de IA voltada ao setor elétrico. A matéria cita um investimento de R$ 26 milhões e uso diário por mais de 200 profissionais em áreas como regulação, engenharia e auditoria. A arquitetura descrita combina uma família de modelos em português (1B a 14B parâmetros) e uma plataforma para criação de agentes internos.

Infobip: cobrança por resultado em agentes de IA

No Mobile World Congress 2026, a Infobip relatou que pretende experimentar um modelo de cobrança por resultado para agentes de IA (em vez de cobrar por usuário/sessão). A empresa também menciona primeiros casos de uso em comércio conversacional (vendas por WhatsApp) e um roadmap para incluir voz no lançamento oficial, previsto para abril.

Games: Razer aposta em automação de QA e agentes no pipeline

Na GDC 2026, a Razer destacou soluções com IA para o pipeline de desenvolvimento de jogos, incluindo um assistente/agente (AVA) e uma ferramenta de QA com análise de vídeos de gameplay para detectar problemas e gerar relatórios automaticamente, além de execução de testes por agentes.

Startups: IA como “condição básica” para escala

Um texto repercute o relatório “Corrida dos Unicórnios 2026” (Distrito), defendendo que IA deixa de ser diferencial e passa a ser requisito para startups em fase de escala — especialmente quando aplicada a automação de processos, personalização e monitoramento preditivo, com governança orientada por dados.

O que isso significa na prática

1) Se você compra/avalia LLMs para engenharia

  • Peça provas em tarefas reais: benchmarks “de domínio” (como Android) tendem a expor limitações que testes genéricos escondem.
  • Exija reprodutibilidade: soluções verificadas por testes automatizados reduzem discussão subjetiva (“parece que funcionou”).
  • Não confunda modelo com produto: em 2026, desempenho “cru” pode ser bem diferente do desempenho com ferramentas, RAG, lint, execuções em sandbox, etc. Compare maçã com maçã.

2) Se você publica conteúdo (ou tem marca)

  • Rotulagem vai virar rotina: mesmo quando voluntário no começo, o ecossistema caminha para padrões de marcação (metadados/água) e disclosure.
  • Prepare seu fluxo editorial: defina política interna de “conteúdo com IA” (quando rotular, como revisar, onde registrar).

3) Se você quer IA “que dá ROI”

  • Verticalize onde dói: casos como energia e atendimento mostram que domínio + dados + processo (não só o modelo) é o que destrava valor.
  • Agentes mudam precificação: cobrar por resultado tende a virar conversa comum (com todos os riscos de métrica mal definida).

Fique de olho amanhã

  • Benchmarks de engenharia: se o Android Bench ganhar tração, espere derivados para outros domínios (backend, data engineering, segurança, etc.).
  • Governança de conteúdo sintético: acompanhe a evolução do código de prática da UE — especialmente requisitos de interoperabilidade e “estado da arte”.
  • Estratégia das big techs: atrasos como o do “Avocado” sugerem que 2026 será menos sobre “lançar rápido” e mais sobre “lançar com qualidade mensurável”.

Receba os próximos

Quer receber por e-mail/WhatsApp assim que publicar?

Assinar Voltar