GPT-5.5がコーディングの最前線に復帰、しかしOpenAIはOpus 4.7に敗れた後でベンチマークを切り替え

ゲートニュース 4月27日 — 半導体およびAI分析企業のSemiAnalysisは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を含むコーディングアシスタントの比較ベンチマークを公開した。主要な発見:GPT-5.5は、コーディングモデルにおいて、OpenAIが6か月ぶりに最先端へ戻ったことを示す。SemiAnalysisのエンジニアは、以前ほぼ独占的にClaudeに依存していたのに対し、現在はCodexとClaude Codeを交互に使っている。GPT-5.5は「Spud」とコードネームされた新しい事前学習アプローチに基づいており、GPT-4.5以来となるOpenAIの事前学習スケールの初めての拡張を表している。

実践的なテストでは、明確な役割分担が見えてきた。Claudeは新しいプロジェクトの計画と初期セットアップを担当し、Codexは推論を多く要するバグ修正に強い。Codexはデータ構造の理解と論理的推論がより強い一方で、曖昧なユーザー意図の推測には苦戦する。単一のダッシュボード課題では、Claudeは参照ページのレイアウトを自動的に再現したが、大量のデータを捏造していた。一方Codexはレイアウトは省略したものの、はるかに正確なデータを提示した。

分析は、ベンチマーク操作の詳細を明らかにしている。OpenAIは2月のブログ投稿で、コーディングベンチマークの新しい標準としてSWE-bench Proの採用を業界に促していた。しかし、GPT-5.5の発表は「Expert-SWE」という新しいベンチマークへ切り替わっている。その理由は細かな注記の中に埋もれているが、GPT-5.5はSWE-bench ProでOpus 4.7に追い抜かれ、Anthropicの未リリースであるMythos (77.8%)に対して大きく劣っていたためだ。

Opus 4.7については、Anthropicがリリースの1週間後にポストモーテム分析を公開し、3つのバグを認めている。これらはClaude Codeに存在し、3月から4月にかけて数週間持続し、ほぼ全ユーザーに影響した。複数のエンジニアがそれ以前にバージョン4.6でパフォーマンスが低下したと報告していたが、主観的な観測として退けられていた。さらに、Opus 4.7の新しいトークナイザーはトークン使用量を最大35%増やすと、Anthropic自身が公然と認めており、実質的に隠れた価格上昇を意味している。

DeepSeek V4は「最先端に追随はしているが、リードしてはいない」と評価され、クローズドソースのモデル群の中では最も低コストの選択肢として位置づけられた。分析ではまた、「Claudeは高難度の中国語ライティング課題においてDeepSeek V4 Proを引き続き上回っており」、さらに「Claudeは自国の言語で中国のモデルに勝った」とのコメントもあった。

記事は重要な概念を提示する。モデルの価格は「トークンあたりのコスト」ではなく「タスクあたりのコスト」で評価されるべきだ、というものだ。GPT-5.5の価格はGPT-5.4の2倍で、(input $5, output $30 per million tokens) だが、より少ないトークンで同じタスクを完了するため、実際のコストが必ずしも高いとは限らない。最初のSemiAnalysisのデータでは、Codexの入力対出力比が80:1で、Claude Codeの100:1より低い。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

トイレから調味料の業者まで:AIサプライチェーンの価値の波及効果が、どの企業を後押ししたのか?

人工知能の波がもたらす恩恵は継続して広がり、輝達から台積電などのテック大手までをも押し上げています。いま、生産用トイレを扱う日本企業と、グルタミン酸(味精)から出発した食品グループの双方が、静かにこのAIインフラ構築ブームの“見えにくい勝ち組”になっています。それらの台頭は、重要なトレンドを浮き彫りにしました。AIサプライチェーンの価値の波及効果は、すでに従来の製造業へ深く浸透しており、より多様な転換のビジネスチャンスを生み出しています。 トイレメーカーTOTO:陶瓷技術が思わぬ形でウエハー製造プロセス需要に合致 日本のバス・トイレ大手TOTOは、高品質なトイレタンク(馬桶)で世界的に知られ、陶瓷(陶瓷)製造に40年以上にわたり取り組んできました。しかし、一見するとテクノロジーと無関係に見えるこの伝統的な技術が、半導体製造プロセスの新たな舞台で活躍する道を見つけたのです。 TOTOは先日、自社の陶瓷(陶瓷)技術の専門性を活かし、チップ製造に用いられる靜電吸盤(Electrostatic Chuck)を生産すると発表しました。発表が出ると、株価は(途中)

ChainNewsAbmedia45分前

メディアテック、AIチップ拡大のために元TSMC幹部を採用

ロイターによると、台湾のチップ設計企業メディアテックは5月4日、旧台湾積体電路製造(TSMC)の幹部ドグラス・ユーを非常勤アドバイザーに任命した。 この動きは、メディアテックのAIチップ市場への拡大と、パッケージング技術の進展を支えるものだ。 高度

CryptoFrontier56分前

OpenAIはYubicoと提携し、カスタムのハードウェア・セキュリティキーを提供します

Yubicoによると、OpenAIはストックホルム拠点のセキュリティキー製造メーカーと提携し、Advanced Account Securityプログラムを通じてカスタムのYubiKeyを提供する。このプログラムは、フィッシングやアカウント乗っ取り攻撃のリスクがより高いユーザーを対象としている。 バンドルには、モバイルデバイス向けのYubiKey C NFCと、Y

GateNews1時間前

インド、AnthropicのMythos AIが100件中83件のテストケースで防御を突破したことを受けサイバーリスクを警告

The Economic Timesによると、インドのサイバーセキュリティ当局は最近、AnthropicのMythos AIが、数万件の脆弱性を見つけ、ソフトウェアのバグを数分で悪用可能な攻撃に変換できることを示した後、高い重大度の勧告を出しました。 パロアルトネットワークスのUnit 42と

GateNews2時間前

投資家の手元で1株が480株に増える、輝達の次の株式分割が行われる前に参入するチャンスは今なのか?

この記事では、NVIDIAが1999年に上場して以来、何度も株式分割を行ってきたことを振り返ります。これにより、初期の保有株が分割を通じて480株まで増加し、さらに2024年には10対1の株式分割で株価を約120米ドルに調整しました。世界的なAIインフラ需要に後押しされて、NVIDIAはデータセンターの中核的な供給企業となり、市場価値は5兆米ドルに迫っており、成長の勢いはいまだ強いとされています。アナリストは次の分割が株価と成長実績次第になると予測しています。現在の株価は約198米ドルで、成長が続けば、あるいは新たな参入機会が生まれれば、注目点になりますが、これは市場の観察にすぎず投資助言ではありません。

ChainNewsAbmedia2時間前

Google、VNGが5月4日にベトナムでApplied AIラボを立ち上げ

VNG株式会社、Google、VNG、およびベトナム国家大学ホーチミン市は、5月4日にSaigon AI Hubを通じてベトナムで応用AIラボを立ち上げた。Google LabsとAI Future Fundsは、選ばれたチームにGoogleの技術への早期アクセス、Googleによる技術サポート、そして

GateNews2時間前
コメント
0/400
コメントなし