Nemotron 3 Super e Gemini 3.1 Pro: a semana em que IA virou “motor de agentes” (com 1M de contexto)
Nemotron 3 Super e Gemini 3.1 Pro: a semana em que IA virou “motor de agentes” (com 1M de contexto)
Subtítulo: NVIDIA colocou na rua um modelo aberto pensado para execução (MoE híbrido com Mamba + 1M de contexto e foco em throughput). Do outro lado, o Google empurrou a linha Pro do Gemini para workflows longos e multimodais — com número forte em ARC‑AGI‑2.
A mensagem para quem constrói produto é clara: o jogo de 2026 não é só “o melhor chat”, é orquestração e custo/latência por tarefa concluída.
Publicado em 2026-03-19 (America/Sao_Paulo)
Panorama do dia
Dois anúncios/referências recentes ajudam a entender para onde o mercado está empurrando a Inteligência Artificial em 2026:
- Eficiência + abertura (NVIDIA): um modelo “grande por fora, leve por token” — 120B parâmetros, mas ~12B ativos por token — com foco explícito em servir mais rápido e baratear execução de agentes.
- Contexto gigante + multimodal (Google): 1 milhão de tokens de entrada e 64k de saída, reforçando a tese de que parte do custo total do sistema cai quando você reduz chamadas e mantém a “memória” do trabalho dentro do próprio modelo.
Para quem está criando produto (ou mantendo um stack de IA em produção), isso muda o jeito de medir “melhor modelo”: menos “nota de leaderboard” isolada e mais tempo para resolver, taxa de acerto em tarefas reais e custo por workflow.
1) Nemotron 3 Super (NVIDIA): modelo aberto, arquitetura nova e números de benchmark
A NVIDIA anunciou o Nemotron 3 Super em 11 de março de 2026 (GTC), descrito como um modelo híbrido Mamba‑Transformer com MoE (mistura de especialistas) e uma proposta bem objetiva: aumentar throughput e manter competitividade em tarefas de agentes/código.
O que chama atenção (com dados)
- Escala “eficiente”: 120B parâmetros, mas apenas ~12B ativos por token (arquitetura MoE). Fonte: visão geral do lançamento.
- Contexto: o material de divulgação cita 1M de tokens de contexto (observação importante: provedores via API podem impor limites menores).
- Throughput: a página do lançamento menciona 2,2× mais throughput que um comparável (GPT‑OSS‑120B), posicionando o Nemotron como “motor” para sistemas multiagentes.
- Benchmarks (auto‑reportados): o texto compila números (ex.: MMLU‑Pro, AIME 2025, GPQA, LiveCodeBench, SWE‑Bench Verified) e detalha a metodologia e ferramentas usadas para avaliação.
- “Abertura” em camadas: além de pesos, a NVIDIA aponta liberação de datasets de pré/pós‑treino e receitas/configs (isso é relevante porque facilita reproduzir e comparar).
Por que a arquitetura importa (sem hype)
A parte interessante aqui não é só “mais um modelo”. É o desenho para servir barato e rápido:
- LatentMoE: roteamento em espaço latente (mais compacto) para reduzir gargalos de comunicação e carregamento de pesos, permitindo ativar mais especialistas sem explodir custo.
- Backbone híbrido: camadas Mamba‑2 (SSM) para lidar melhor com sequência longa + “âncoras” de atenção para preservar recall associativo.
- Multi‑Token Prediction (MTP): treinamento para prever múltiplos tokens, facilitando speculative decoding e aceleração no mundo real.
O detalhe que muita gente ignora: limites reais de contexto
Mesmo quando o modelo “suporta 1M”, o seu acesso costuma vir com:
- limite de contexto menor no provedor (no texto, aparece o teto de 262k em várias ofertas via API);
- limites de throughput por conta/organização;
- custo de serializar/guardar prompts enormes (latência e engenharia do seu lado).
Ou seja: contexto grande é arma poderosa, mas precisa ser tratado como recurso escasso.
2) Gemini 3.1 Pro (Google): 1M de tokens + salto em ARC‑AGI‑2
Em fevereiro de 2026, o material de referência do Gemini 3.1 Pro reforça o posicionamento do Google: um modelo Pro para tarefas complexas, multimodais e com contexto longo — distribuído via Gemini API/AI Studio e via Vertex AI no mundo enterprise.
Números que viraram manchete (com fonte)
- Contexto: até 1M tokens de entrada e até 64k de saída (conforme o texto compilado com base em model card).
- ARC‑AGI‑2: o guia compila a afirmação de 77,1% como score verificado em ARC‑AGI‑2, e aponta uma página de metodologia de avaliações do DeepMind para detalhes.
- Metodologia: existe um endpoint/página dedicada a metodologia de avaliação para o Gemini 3.1 Pro (útil para entender como os números foram obtidos).
O ponto de produto: contexto longo não é “para caber PDF” — é para reduzir chamadas
Em stacks de produção, boa parte do custo de IA vem do número de iterações (planejar → chamar ferramenta → corrigir → chamar de novo). Um modelo com contexto grande pode:
- reduzir “perdas de memória” entre etapas;
- segurar artefatos grandes (logs, specs, codebase) numa mesma sessão;
- diminuir a necessidade de RAG agressivo em alguns fluxos (não em todos).
Isso não elimina engenharia (indexação, caches, ferramentas), mas muda o equilíbrio: às vezes compensa pagar mais por token e executar em menos rodadas.
3) A tendência por trás: “IA que executa” (agentes) e não só “IA que conversa”
Quando NVIDIA enfatiza throughput e quando Google enfatiza contexto + multimodal, ambos estão apontando para a mesma direção: agentic workflows.
Na prática, isso quer dizer que a pergunta certa deixa de ser “qual responde melhor?” e vira:
- Qual resolve uma tarefa inteira com menos chamadas?
- Qual aguenta ferramentas (tool calling) sem alucinar o plano?
- Qual tem custo/latência previsível em produção?
Benchmarks como SWE‑Bench Verified e LiveCodeBench (citados no material do Nemotron) e testes de raciocínio fora da distribuição (como ARC‑AGI‑2, citado no material do Gemini) são tentativas — imperfeitas, mas úteis — de medir essa “capacidade de execução”.
O que isso significa na prática
Para quem está escolhendo modelo (ou trocando de provedor)
- Meça custo por fluxo, não por token: calcule “R$ por tarefa concluída” (ex.: gerar relatório + validar + publicar) e não só preço por 1M tokens.
- Valide limites de contexto reais: “suporte a 1M” no paper não garante que o endpoint da sua nuvem libera isso.
- Separar modelos por função: use um modelo eficiente/aberto para rotinas (triagem, extração, agentes em lote) e reserve o “top” para decisões difíceis.
Para quem está construindo agentes
- Throughput importa porque agente = múltiplas tentativas: mesmo um ganho de 2× de velocidade pode ser o divisor entre “dá para rodar em background” e “vira fila infinita”.
- Contexto grande exige disciplina: chunking ainda é necessário (especialmente para auditoria e reprodutibilidade). Evite “jogar tudo no prompt” sem estratégia.
- Faça cache de artefatos: respostas intermediárias, resumos validados e resultados de ferramentas (isso reduz custo e melhora consistência).
Checklist rápido para esta semana
- Escolha 3 tarefas reais do seu produto (ex.: atendimento + criação de resposta; geração de post; classificação de documentos).
- Rode com um modelo “eficiente” e com um modelo “de raciocínio” e compare: tempo total, nº de chamadas, custo e taxa de retrabalho.
- Documente o que falhou (o problema quase sempre é ferramenta/dados/validação, não só o modelo).
Fique de olho amanhã
- Atualizações de API e limites: mudanças silenciosas (quota, contexto máximo, rate limit) costumam ter impacto maior que “um novo modelo”.
- Reprodutibilidade de benchmarks: procure por configs públicas (como no caso do NeMo Evaluator) e verifique se os números “se sustentam” fora do release.
- Ecossistema de ferramentas: CLIs, SDKs e plataformas de agentes (tipo “ambientes de execução”) são onde a batalha de adoção acontece.
Receba o post diário
Se você quer acompanhar IA sem ruído — com links e implicações práticas — assine nossa newsletter (MailPoet) e favorite o blog para não perder os posts diários.
Fontes
Links usados como referência (priorizando páginas primárias e materiais citados nos guias):
- LLM Stats — Nemotron 3 Super: Pricing, Benchmarks, Architecture & API
- NVIDIA — Nemotron 3 Super Technical Report (PDF)
- NVIDIA — Model Card (Nemotron 3 Super 120B A12B)
- NVIDIA — Nemotron Open Model License
- GitHub — NeMo Evaluator SDK
- GitHub — Configs de reprodutibilidade (Nemotron 3 Super)
- GitHub — Nemotron Developer Repository
- Hugging Face — Checkpoint BF16 (Nemotron 3 Super)
- Hugging Face — Nemotron Pre-Training Datasets
- Hugging Face — Nemotron Post-Training v3
- LLM Stats — Gemini 3.1 Pro: Pricing, Context Window, Benchmarks, API & More
- Google DeepMind — Metodologia de avaliações (Gemini 3.1 Pro)
Nota: sempre que houver divergência entre resumo/guia e página primária (model card, paper, metodologia), considere a página primária como fonte de verdade.