Google、Gemini 3.1 Proを発表:推論能力が3ヶ月で倍増、API価格は据え置き、TPU独自チップの優位性

動區BlockTempo

GoogleはGemini 3.1 Proを発表し、ARC-AGI-2の推論スコアは前世代比で倍増の77.1%に達し、16項目の基準中13項目でトップを獲得した。APIの価格は据え置きのままで、AI軍備競争は各世代モデルの寿命を圧縮する速度を加速させている。 (前回の概要:Geminiは無料の「SAT模擬試験」機能を導入し、AI家庭教師が個別学習ガイドを提供) (背景補足:Googleが正式に「Gemini 3」をリリース!世界最も賢いAIモデルの座に君臨、その注目ポイントは?)

本文目次

  • 「調整可能な推論」:開発者がモデルの賢さを自在に決める
  • 価格は変えず性能は倍増:誰がこの戦争を補助しているのか?
  • 勝者総取りではないが、明確な競争構図

Googleは19日深夜、Gemini 3.1 Proのプレビュー版を正式にリリース。ARC-AGI-2(新たな問題解決の論理能力を測る基準)において、3.1 Proは77.1%を記録し、前世代のGemini 3 Proの倍以上の性能を示した。

以下の図は、Googleが評価した16項目の基準のうち、3.1 Proが13項目で第一位を獲得した結果を示している。

その他の重要なスコアも注目に値する:GPQA Diamond(専門家レベルの科学知識)94.3%、SWE-Bench Verified(自動コード修正)80.6%、Humanity’s Last Exam 44.4%、MMMLU 92.6%。

MCP Atlas(多段階のツール使用ワークフローを測る基準)では、3.1 Proは69.2%を達成し、ClaudeやGPT-5.2を約10ポイント上回った。

「調整可能な推論」:開発者がモデルの賢さを自在に決める

Gemini 3.1 Proの戦略的な新機能は、三段階の思考深度システム(thinking level)だ。開発者はlow、medium、highの3つのレベル間でモデルの「推論予算」を切り替えられる。簡単なAPI呼び出しには低レベルを使い遅延とコストを抑え、複雑なデバッグ時には高レベルに切り替える。

highに設定すると、3.1 Proの挙動はGoogleの専用推論モデル「Gemini Deep Think」の「ミニ版」に近づく。VentureBeatの評価では、「ニーズに応じて起動するDeep Think Mini」と表現された。

BrowseComp(AIエージェントの自主ウェブ検索能力を測る基準)では、3.1 Proは前世代の59.2%から85.9%に急上昇。自らインターネットで情報収集し、多段階のタスクをこなし、推論精度も大きく向上したAIエージェントは、AI業界が最も注目する方向性の一つだ。

価格は据え置き、性能は倍増:誰がこの戦争を補助しているのか?

APIの価格は、入力トークン100万あたり2ドル、出力トークン100万あたり12ドルのまま。これはGemini 3 Proと完全に一致している。計算すると、Gemini 3.1 Proの入力コストはClaude Opusの約40%、出力コストは約52%に抑えられる。

性能は倍増しながら価格は変えず、Googleは「コストパフォーマンス」で開発者市場を獲得しようとしている。

コンテキストウィンドウは100万トークン(Claudeの5倍、GPT-5の2.5倍)を維持し、出力上限は前世代の65,000トークンに拡大。APIのアップロード制限も20MBから100MBに引き上げられ、YouTubeのURLを直接入力して動画を「視聴」させることも可能になった。

この価格維持戦略の背景には、Googleが自社開発のTPUチップとクラウドインフラのコスト優位性がある。Googleは行動で示している:AI軍備競争において、自社チップを持つことが最大の防御壁だ。

勝者総取りではないが、明確な競争構図

もちろん、Gemini 3.1 Proがすべての分野でトップというわけではない。

Claude Sonnet 4.6(Thinking Maxモード)は長文コンテキスト記憶(MRCR v2)で3.1 Proと互角、GDPval-AA Eloの専門家タスクでは大きくリード(1633対1317)している。

OpenAIのGPT-5.3-Codexは、端末プログラミングタスク(Terminal-Bench 2.0)で77.3%を獲得し、3.1 Proの68.5%を上回る。Claudeシリーズの幻覚率(約3%)も、GeminiやGPTの平均約6%より低い。

2026年のAI競争の構図は、Googleが推論とエージェントタスクでリード、Anthropicが精度と安全性で優位、OpenAIがコード生成とエコシステムで優勢となる見込みだ。勝者総取りではないが、「三か月ごとに入れ替わる可能性もある」。

AIモデルの軍備競争は止まらない。唯一の問題は、この競争の果実が最終的に誰の手に渡るか:開発者か、プラットフォームか、あるいは最大の支払いをする者か。

Googleの答えは明快だ:まず開発者が使いやすくなること、その次に他のことを考える。この戦略はクラウド時代に一度成功を収めた。今回も成功するかどうかは、AIが企業にとって十分な価値を生み出すかどうかにかかっている。単なる基準点の向上だけではない。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし