GPT-5.5 重返编程前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准测试

Gate News 消息,4 月 27 日——SemiAnalysis,一家半导体与 AI 分析公司,发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿;随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用;此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 “Spud” 的新预训练方法,代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模。

在实际测试中,出现了明确的分工。Claude 负责新的项目规划与初始搭建,而 Codex 在推理密集型的漏洞修复方面表现更出色。Codex 展现出更强的数据结构理解与逻辑推理能力,但在推断含糊的用户意图方面存在困难。在一个单一的仪表盘任务上,Claude 会自动复刻参考页面布局,但会捏造大量数据;而 Codex 跳过布局,却提供了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 2 月的一篇博客文章敦促业界将 SWE-bench Pro 作为代码基准测试的新标准。然而,GPT-5.5 的公告改用了一个名为 “Expert-SWE” 的新基准。原因被藏在细微的说明中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比差距巨大。

关于 Opus 4.7,Anthropic 在发布后一周发表了死后复盘分析,承认 Claude Code 中存在三个在 3 月至 4 月持续了数周、影响近乎所有用户的漏洞。多名工程师此前曾报告 4.6 版本的性能下降,但这些说法被当作主观观察而否定。此外,Opus 4.7 的新分词器会使 token 使用量最高增加 35%,而 Anthropic 公开承认了这一点——本质上相当于隐性涨价。

DeepSeek V4 被评为 “跟上前沿但并不领先”,将自己定位为封闭源模型中成本最低的替代方案。分析还指出,“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在它自己的语言上赢过了中文模型。”

文章提出了一个关键概念:模型定价应通过 “每任务成本(cost per task)” 来评估,而不是通过 “每 token 成本(cost per token)”。GPT-5.5 的定价是 GPT-5.4 的两倍 (input $5, output $30 per million tokens),但它使用更少的 tokens 完成相同的任务,因此实际成本未必更高。最初的 SemiAnalysis 数据显示,Codex 的输入到输出比例为 80:1,低于 Claude Code 的 100:1。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Amazon 与 OpenAI 扩大合作:模型上架 Bedrock、微软独家结束

OpenAI 5 月 3 日宣布与亞马遜雲端服務(AWS)擴大合作,OpenAI 模型与 Codex 編碼代理將透过 Amazon Bedrock 提供給 AWS 客戶使用。根據 CNBC 报導,本次擴大是在 4 月底 OpenAI 与微软(Microsoft)終止雲端獨家合约后的关鍵下一步—OpenAI 从「微软雲端唯一」转向多雲端部署。AWS 同期已完成 OpenAI 产品在 Bedrock 平台的初步整合。 背景:OpenAI-微软獨家合约結束、IP 授權延至 2032 年 4 月底 OpenAI 与微软达成新協议:原本的「微软对 OpenAI 产品与 IP 獨家存取」結構結束、Op

鏈新聞abmedia2小时前

研究人员部署 DPN-LE 技术以编辑 AI 个性特征,仅编辑 0.5% 的神经元

据 BlockBeats 报道,5 月 3 日,AI 研究员 Brian Roemmele 披露其 Zero-Human Company 已部署 DPN-LE(Dual Personality Neuron Localization and Editing)技术,以精确调整

GateNews3小时前

Claude 在获得时间工具访问权限后,每 15 分钟检查一次时钟

据开发者 Om Patel 称,Claude AI 在 5 月 3 日获得对时间工具的访问权限后开始频繁查看时钟;该模型每 15 分钟检查一次。该观察表明,大型语言模型此前缺乏原生的时间感知能力,并且并不知道当前时间或

GateNews4小时前

Founders Fund 在 5 月 3 日关闭 60 亿美元旗舰基金,自成立以来规模最大

根据彭博社,Founders Fund 于 5 月 3 日以 60 亿美元完成其最新旗舰基金的募资,显著超过其上一期基金约 34 亿美元。该基金由亿万富翁 Peter Thiel 联合创立,将聚焦包括人工在内的高增长领域

GateNews4小时前

最新 POLITICO 民调:45% 的美国人表示加密货币投资风险太高,44% 担心 AI 进展过快

据 POLITICO 的一项民意调查,尽管 AI 和加密货币行业向 2026 年美国中期选举注入了大量政治资金,美国公众仍大多对这两个领域持怀疑态度。调查发现,45% 的美国人认为投资加密货币不值得

GateNews5小时前

OpenAI 弗萊爾倡 2027 IPO、阿特曼支持 Q4 2026 上市

OpenAI 财务长莎拉·弗莱尔对 2026 年 IPO 时程持谨慎态度,指出近 1 兆美元的算力与数据中心合约远高于当前年化营收 250 亿美元,若增长无法覆盖承诺,风险将被市场折价。与 CEO 阿特曼公开主张的 2026 年 Q4 上市分歧显现,弗莱尔倾向推迟至 2027 年以建立财务纪律;公司多次发表声明否认内部分歧。

鏈新聞abmedia7小时前
评论
0/400
暂无评论