OpenAI が GPT-5.5 を公開:12M の文脈、AA 指数で首位獲得、Terminal-Bench 82.7% が代理のベンチマークを更新

OpenAI は 4/23 に正式に GPT-5.5 をリリースし、エージェント式(agentic)な業務と企業のナレッジ処理向けの主力モデルとして位置づけられており、同時に ChatGPT と Codex にも登場。公式の宣伝では「私たちが最も賢く、最も直感的に使えるモデル」と打ち出され、AA Intelligence Index は 60 点でトップに立ち、Claude Opus 4.7 と Gemini 3.1 Pro Preview にはそれぞれ 3 点差で先行している。

主要データ一覧

指標 GPT-5.5 対照(GPT-5.4 または同クラスの競合) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(コマンドラインのワークフロー) 82.7% GPT-5.4:75.1% Expert-SWE(OpenAI 内部のプログラム評価) 73.1% GPT-5.4:68.5% コンテキストウィンドウ 1,200 万 tokens 大幅に向上。企業の全体のコードベース、または数時間の動画を処理可能 価格(100万 token あたり) 入力 5 ドル、出力 30 ドル GPT-5.4 の 2 倍の単価;ただし出力 token の使用量は約 40% 減少し、純コストは約 20% 上昇

位置づけ: 「Agent の時代」向けに設計

OpenAI は GPT-5.5 を、エージェント式演算の基礎モデルとして説明しており、複雑な目標を理解し、ツールを使用し、自己検査によって作業成果を確認でき、さらに人間が各ステップに介入することなく多段タスクを完了まで走らせられる。TechCrunch の取材によると、社長 Greg Brockman はこのバージョンを「未来の計算への大きな一歩だが、ただの一歩にすぎない」と表現し、またそれが「5.4 と比べてより速く、より鋭い推論者であり、使用する token もより少ない」と強調した。

チーフサイエンティスト Jakub Pachocki は「短期的に非常に顕著な改善が見えている」と述べ、研究責任者 Mark Chen は今回のバージョンが「科学と技術の研究ワークフローにおいて有意義なブレークスルーをもたらした」と強調した。

提供範囲とバージョンの階層化

GPT-5.5:Plus、Pro、Business、Enterprise のユーザーが ChatGPT と Codex で使用可能

GPT-5.5 Pro:Pro、Business、Enterprise のユーザーが ChatGPT で使用可能な、より上位の推論バージョン

Codex の統合:同時に OpenAI のプログラムエージェントツールで利用可能となり、多ファイル編集、コマンドライン、テストのループを強化

サイバーセキュリティと国防の論述が同時に引き上げられる

技術チームのメンバー Mia Glaese は TechCrunch の取材で、GPT-5.5 のサイバーセキュリティ能力が OpenAI における「モデルのデプロイにおいてデジタル防御へ投入する方法」に重大な影響を与えると述べた。この論調は、Anthropic が最近、Claude Mythos を武器級のサイバーセキュリティモデルとして巡って起きた論争と、直接対照的である――Altman は先ごろ『Core Memory』番組で、Anthropic の「恐怖のマーケティング」戦略を批判していた。OpenAI は GPT-5.5 で「攻守両面、デプロイ可能」という論調をさらに強調しており、Anthropic がアクセス制限を設ける立場との差を引き離す意図がある。

価格戦略の変化

GPT-5.5 は 100万 token あたりの価格を 2 倍にし、入力 5 ドル、出力 30 ドルへとした。これは GPT-5 シリーズで初めて、単価が大きく上昇する世代となる。OpenAI の説明はこうだ:モデルの推論効率により、出力 token の使用量が約 40% 減らせるため、典型的なタスクの実際の請求額は GPT-5.4 より約 20% 高いのであって、単純に 2 倍ではない。企業にとっては、そのための意思決定が「単価が割に合うかどうか」から、「同じ prompt のもとで、GPT-5.5 が token 総量をより少なくしてより複雑なタスクを完了できるか」に移る。

産業へのシグナル

GPT-5.5 は、Terminal-Bench と社内の SWE 評価における OpenAI の差を拡大させた。これらのベンチマークはそれぞれ、コマンドラインのエージェント実行と、実際のソフトウェアエンジニアリングのタスクをテストするものであり、Codex と Claude Code の正面対決においては、より直接的なスコア勝負の戦場となる。さらに、1,200 万 tokens のコンテキストウィンドウを同時に開放したことで、OpenAI は「企業ナレッジベースの全量処理」と「長時間タスクのエージェント」の 2 つのレースラインに同時に圧力をかける。Anthropic にとっては、AA 指数で 57 点の Claude Opus 4.7 が 3 点遅れていることに加え、Claude Code のユーザーにとっても、次世代(Opus 4.8 または新世代の Claude)の進捗を観察するもう 1 つの理由になる。

この記事は OpenAI が GPT-5.5 を推し進める:12M コンテキスト、AA 指数でトップ、Terminal-Bench 82.7% が代理基準を書き換えとして最初に掲載されました 鏈新聞 ABMedia で。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Cloudflare:x402 は非人間のインターネットトラフィックに対応できます

Cloudflareの最高戦略責任者は、インターネット通信の半分以上が現在非人間であると述べており、AIエージェントによってもたらされるウェブの力学の変化を強調した。幹部によれば、x402 Foundationは、これらの経済状況にもかかわらず「コンテンツの黄金時代」を支えるためのインフラを構築している。

CryptoFrontier45分前

インドのサイバーセキュリティ企業はAIを使って脆弱性テストを数時間に短縮する

The Economic Timesによると、IndusfaceやAstra Securityを含むインドのサイバーセキュリティ企業が、大規模言語モデルに基づくAIエージェントを導入し、ソフトウェアの脆弱性テストを数日または数週間から数時間へと加速させようとしている。この変化は、攻撃者のスピードが高まっていることと、AIツールの新たな能力が(それにより)示されていることを反映している

CryptoFrontier1時間前

HINT(Hive Intelligence)24時間で大幅に60.25%上昇

Gate News のニュース、5月6日、Gateのマーケット情報によると、記事作成時点でHINT(Hive Intelligence)は0.001695米ドルで取引されており、過去24時間で60.25%上昇し、最高値は0.0019米ドル、最安値は0.0010577米ドルまで下落しています。24時間の取引高は10.01万米ドルです。現在の時価総額は約78.14万米ドルです。 Hive Intelligence は人工知能エージェントの基盤インフラ層であり、リアルタイムのブロックチェーンデータに対する統一されたアプリケーションプログラミングインターフェースを提供します。データの分断を解消し、人工知能エージェントが手間なくチェーン上で照会し、やり取りできるようにします。機関向けの暗号資産市場インフラとして、Hive Intelligence はMCPエンドポイント、REST A

GateNews1時間前

Anthropic は金融向けの AI エージェント 10 種類を提供し、Microsoft 365 を統合して簡単に財務業務を処理できる

Anthropic は、Microsoft 365、Moody’s、D&B などのデータパートナーを統合した 10 種類の金融 AI エージェントのテンプレートを提供し、プラグインまたは自動スケジューリングとしても使用できます。テンプレートは、リサーチ/顧客対応と財務業務の 2 種類に分かれており、投資調査、財務モデル、KYC などを含み、さらに Moody’s の格付けを組み込みます。Claude Opus 4.7 は金融エージェントのベンチマークで首位に立っており、金融業界の人材と規制の枠組みが影響を受けることを示しています。

ChainNewsAbmedia1時間前

NVIDIAとServiceNowが提携を拡大し、Project Arc Desktop Agentを導入

Nvidiaによると、同社らは今週、Nvidia OpenShellによって保護され、ServiceNow AI Control Towerによって統治される自律型デスクトップエージェントであるServiceNow Project Arcを紹介するために、パートナーシップを拡大したという。これらの製品は、dに展開されたAIエージェントを企業が管理・監査することを支援することを目的としている

GateNews1時間前

ソラナとGoogle CloudがPay.shを提供開始、AIエージェントがステーブルコインで安定して支払い可能に

Decrypt(5月6日)の報道によると、Solana財団はGoogle Cloudと提携してPay.shサービスを立ち上げ、AIエージェントがSolana上のステーブルコインを使って、従来の口座やサブスクリプションなしで、必要に応じてAPIアクセスの料金を支払えるようにする。エージェントはAPI呼び出しのたびに数分の1セントだけを支払えばよく、最低利用金額の要件もない。

MarketWhisper2時間前
コメント
0/400
コメントなし