SemiAnalysis実測:GPT-5.5が最前線に戻るも、OpenAIはひっそりとOpusに押し負けた成果を隠している

robot
概要作成中

動察 Beating 監測によると、半導体と AI 分析機関 SemiAnalysis はプログラミングアシスタントの横断評価を発表し、GPT-5.5、Opus 4.7、DeepSeek V4 をカバーしている。核心的な結論:GPT-5.5 は OpenAI が半年ぶりに最先端に復帰したプログラミングモデルであり、SemiAnalysis のエンジニアは Codex と Claude Code の間で切り替えを始めている。以前はほぼ全員が Claude のみを使用していた。GPT-5.5 はコード「Spud」の新しい事前学習に基づき、OpenAI が GPT-4.5 以来初めて事前学習規模を拡大したものである。

実測では役割分担が形成された:Claude は新規プロジェクトの計画と初期構築を担当し、Codex は推論集約型のバグ修正を行う。Codex はデータ構造理解と論理推論においてより強力だが、ユーザーの曖昧な意図を推測するのは苦手である。同じダッシュボードのタスクで、Claude は参考ページのレイアウトを自動的に再現したがデータを大量に捏造し、Codex はレイアウトをスキップしたがデータの正確さははるかに高かった。

この記事は、ベンチマークテストの操作の詳細を明らかにしている:OpenAI は今年2月にブログで、業界に対して新しいプログラミングベンチマークの標準として SWE-bench Pro の採用を呼びかけたが、GPT-5.5 の発表では「Expert-SWE」と呼ばれる新しいベンチマークに切り替えられた。理由は公告の最下部の小さな文字に隠されている:GPT-5.5 は SWE-bench Pro で Opus 4.7 に追い越されており、さらに遠く Anthropic の未公開の Mythos(77.8%)には及んでいない。

Opus 4.7 に関して、Anthropic はリリース後一週間で事後分析レポート(postmortem)を公開し、Claude Code に 3 月から 4 月にかけて3つのバグが存在し、数週間にわたりほぼすべてのユーザーに影響を与えたことを認めた。以前、多くのエンジニアは 4.6 の性能低下を指摘していたが、それは主観的な感覚とみなされていた。さらに、4.7 の新しいトークナイザはトークン使用量を最大35%増加させることになり、Anthropic 自身もこれを認めており、これは事実上の値上げに相当する。

DeepSeek V4 は「最先端に追随しているがリーディングではない」と評価され、クローズドソースモデルの最低コストの代替品となるだろう。記事はまた、「Claude は中国語の高難度タスクにおいても DeepSeek V4 Pro を上回っている」と述べ、「Claude は相手の言語を使って中国モデルに勝った」とコメントしている。

この記事は重要な概念を提起している:モデルの価格設定を評価する際には、「1タスクあたりのコスト」を見るべきであり、「1トークンあたりのコスト」ではない。GPT-5.5 の単価は GPT-5.4 の2倍(入力5ドル、出力30ドル/百万トークン)だが、より少ないトークンで同じタスクを完了するため、実際のコストは必ずしも高くない。SemiAnalysis の初期データによると、Codex の入力出力比は80:1であり、Claude Code の100:1 より低い。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン