Google anuncia Gemini 3.1 Pro, ARC-AGI-2 desempenho de raciocínio mais que dobra em relação à geração anterior, atingindo 77,1%, conquistando 13 de 16 primeiras posições em benchmarks, com preços de API inalterados. A corrida armamentista de IA está acelerando a redução do ciclo de vida de cada geração de modelos.
(Atualização: Gemini lança gratuitamente a funcionalidade de “Simulado SAT”, com tutoria personalizada de IA)
(Informação adicional: Google lança oficialmente “Gemini 3”! Chegou ao topo do ranking dos modelos de IA mais inteligentes do mundo, quais são os destaques?)
Índice do artigo
Na noite de ontem (19), o Google lançou oficialmente a versão de pré-visualização do Gemini 3.1 Pro. No ARC-AGI-2 (que mede a capacidade lógica do modelo ao resolver problemas inéditos), o 3.1 Pro atingiu 77,1%, mais que o dobro do Gemini 3 Pro anterior.
No gráfico abaixo, entre as 16 avaliações, o 3.1 Pro conquistou 13 primeiros lugares.
Outros resultados também chamam atenção: GPQA Diamond (conhecimento científico avançado) 94,3%, SWE-Bench Verified (correção de código autônoma) 80,6%, Humanity’s Last Exam 44,4%, MMMLU 92,6%.
No MCP Atlas (que mede o fluxo de trabalho na utilização de ferramentas de múltiplas etapas), o 3.1 Pro atingiu 69,2%, liderando Claude e GPT-5.2 por quase 10 pontos percentuais.
Uma funcionalidade estratégica do Gemini 3.1 Pro é o sistema de níveis de raciocínio (thinking level) de três etapas. Desenvolvedores podem alternar entre low, medium e high, ajustando o “orçamento de raciocínio” do modelo. Para chamadas API simples, usar o nível baixo economiza latência e custos; em tarefas complexas de depuração, passar ao nível alto.
Quando configurado para high, o comportamento do 3.1 Pro se aproxima do modelo de raciocínio dedicado do Google, o Gemini Deep Think, numa versão “mini”. A VentureBeat descreveu como “Deep Think Mini ativado sob demanda”.
No benchmark BrowseComp (que mede a capacidade de busca autônoma na web), o 3.1 Pro saltou de 59,2% para 85,9%. Um agente de IA que consegue pesquisar na internet, realizar tarefas em múltiplas etapas e melhorar significativamente sua precisão de raciocínio é exatamente o rumo que toda a indústria de IA está apostando.
Os preços da API permanecem em 2 dólares por milhão de tokens de entrada e 12 dólares por milhão de tokens de saída, iguais aos do Gemini 3 Pro. Assim, o custo de entrada do Gemini 3.1 Pro é 60% menor que o do Claude Opus 4.6, e o de saída, 52% menor.
Desempenho dobrado sem aumento de preço: o Google está usando uma estratégia de “competitividade de custo” para conquistar o mercado de desenvolvedores.
A janela de contexto mantém 1 milhão de tokens (cinco vezes maior que Claude, 2,5 vezes maior que GPT-5), o limite de saída foi ampliado para 65.000 tokens, o limite de upload por API subiu de 20MB para 100MB, e há suporte para passar URLs do YouTube diretamente, permitindo que o modelo “assista” vídeos.
Por trás dessa estratégia de preços está a vantagem estrutural do Google na pesquisa e desenvolvimento de chips TPU e infraestrutura de nuvem. O Google demonstra que, na corrida armamentista de IA, possuir seus próprios chips é a maior barreira de entrada.
Claro que o Gemini 3.1 Pro não é o melhor em todas as áreas.
O Claude Sonnet 4.6 (modo Thinking Max) empata com o 3.1 Pro na memória de contexto longo (MRCR v2), mas lidera significativamente na tarefa especializada GDPval-AA Elo (1633 contra 1317).
O GPT-5.3-Codex da OpenAI lidera tarefas de programação terminal (Terminal-Bench 2.0) com 77,3%, frente aos 68,5% do 3.1 Pro. A taxa de alucinação da série Claude (~3%) também é consideravelmente menor que a do Gemini e GPT, que fica em torno de 6%.
O cenário de competição de IA em 2026 mostra o Google liderando em raciocínio e tarefas de agentes, a Anthropic destacando-se em precisão e segurança, e a OpenAI mantendo vantagem em geração de código e ecossistema. Não há um vencedor absoluto, mas o cenário pode mudar a cada três meses.
A corrida armamentista de modelos de IA não vai parar. A única questão é quem colherá os maiores benefícios: desenvolvedores, plataformas ou quem estiver disposto a pagar mais.
Hoje, a resposta do Google é: fazer com que os desenvolvedores possam usar a tecnologia de forma acessível, antes de tudo. Essa estratégia já funcionou na era da computação em nuvem; se poderá funcionar novamente na IA, dependerá se ela realmente criará valor suficiente para as empresas, e não apenas aumentará os benchmarks.