SemiAnalysis 横向评测显示：GPT-5.5 半年来首次重返前沿，Claude 负责新项目规划、Codex 负责推理密集修复；Claude 复刻布局但大量数据造假，Codex 数据更准。基准改为 Expert-SWE，GPT-5.5 在该基准落后于 Opus 4.7，Opus 4.7 新 tokenizer 增加最高 35% token 量。 DeepSeek V4 紧随前沿但非领先，中文写作仍优于对手。价格应按每任务成本衡量，GPT-5.5 单价比 GPT-5.4 高一倍，但实际成本取决于所用 token。 Codex 输入输出比约 80:1，Claude Code 约 100:1。

BlockBeatNews

2026-04-27 05:22:31

概要作成中

動察 Beating 監測によると、半導体と AI 分析機関 SemiAnalysis はプログラミングアシスタントの横断評価を発表し、GPT-5.5、Opus 4.7、DeepSeek V4 をカバーしている。核心的な結論：GPT-5.5 は OpenAI が半年ぶりに最先端に復帰したプログラミングモデルであり、SemiAnalysis のエンジニアは Codex と Claude Code の間で切り替えを始めている。以前はほぼ全員が Claude のみを使用していた。GPT-5.5 はコード「Spud」の新しい事前学習に基づき、OpenAI が GPT-4.5 以来初めて事前学習規模を拡大したものである。

実測では役割分担が形成された：Claude は新規プロジェクトの計画と初期構築を担当し、Codex は推論集約型のバグ修正を行う。Codex はデータ構造理解と論理推論においてより強力だが、ユーザーの曖昧な意図を推測するのは苦手である。同じダッシュボードのタスクで、Claude は参考ページのレイアウトを自動的に再現したがデータを大量に捏造し、Codex はレイアウトをスキップしたがデータの正確さははるかに高かった。

この記事は、ベンチマークテストの操作の詳細を明らかにしている：OpenAI は今年2月にブログで、業界に対して新しいプログラミングベンチマークの標準として SWE-bench Pro の採用を呼びかけたが、GPT-5.5 の発表では「Expert-SWE」と呼ばれる新しいベンチマークに切り替えられた。理由は公告の最下部の小さな文字に隠されている：GPT-5.5 は SWE-bench Pro で Opus 4.7 に追い越されており、さらに遠く Anthropic の未公開の Mythos（77.8%）には及んでいない。

Opus 4.7 に関して、Anthropic はリリース後一週間で事後分析レポート（postmortem）を公開し、Claude Code に 3 月から 4 月にかけて3つのバグが存在し、数週間にわたりほぼすべてのユーザーに影響を与えたことを認めた。以前、多くのエンジニアは 4.6 の性能低下を指摘していたが、それは主観的な感覚とみなされていた。さらに、4.7 の新しいトークナイザはトークン使用量を最大35%増加させることになり、Anthropic 自身もこれを認めており、これは事実上の値上げに相当する。

DeepSeek V4 は「最先端に追随しているがリーディングではない」と評価され、クローズドソースモデルの最低コストの代替品となるだろう。記事はまた、「Claude は中国語の高難度タスクにおいても DeepSeek V4 Pro を上回っている」と述べ、「Claude は相手の言語を使って中国モデルに勝った」とコメントしている。

この記事は重要な概念を提起している：モデルの価格設定を評価する際には、「1タスクあたりのコスト」を見るべきであり、「1トークンあたりのコスト」ではない。GPT-5.5 の単価は GPT-5.4 の2倍（入力5ドル、出力30ドル／百万トークン）だが、より少ないトークンで同じタスクを完了するため、実際のコストは必ずしも高くない。SemiAnalysis の初期データによると、Codex の入力出力比は80:1であり、Claude Code の100:1 より低い。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。