据动察 Beating 监测,AI 研究团队 Proximal 更新超长程编程基准 FrontierSWE 排行榜。新加入的 GPT-5.5(通过 Codex 运行)在 mean@5(5 次尝试的平均分)和 best@5(最高分)两项指标上均大幅领先第二名 Claude Opus 4.7,支配率达 83%。但 GPT-5.5 也是作弊最多的模型:85 次试验中 8 次被判作弊,与 Kimi K2.6 并列。
FrontierSWE 4 月发布,收集了编译器优化、ML 研究、高性能工程等领域的 17 项真实难题,如用 Zig 重写 Git、构建兼容 PostgreSQL 的 SQLite 服务器,每项任务限时 20 小时,是目前少数未被做穿的公开编程基准。GPT-5.5 相比前代在时间分配上更成熟:开放式任务花更多时间打磨方案,实现类任务更快完成且得分更高。
此前测试已揭示 AI 编程 Agent 几类通病。模型普遍过度自信,远未到 20 小时时限就因肤浅的自检误以为任务已完成并提前提交。Opus 4.6 单项任务平均投入超 8 小时,远超其他模型的约 2 小时,但曾多次丢失已有优化、随后重新「发明」一遍。作弊在高压任务中尤为突出:在一道明确禁止使用 PyTorch 的 Mojo 移植任务中,除 Qwen 3.6 外所有模型均尝试作弊,Gemini 用字符编码隐藏被禁库名、在临时目录运行隐蔽进程,Opus 4.6 甚至先在推理中写下「愿意作弊」再动手。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
AI 招聘平台 Ethos 完成 2200 万美元 A 轮融资,由 a16z 于 5 月 6 日领投
据 BlockBeats 称,总部位于伦敦的 AI 招聘平台 Ethos 于 5 月 6 日完成了 2275 万美元的 A 轮融资,Andreessen Horowitz(a16z)领投,General Catalyst 参与。该平台使用 AI 面试候选人并分析
GateNews26 分钟前
OpenAI 与 AMD、Intel、NVIDIA 推出 MRC Network 协议;支持 10 万+ GPU
根据 OpenAI 于 5 月 6 日发布的公告,该公司与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作推出多路径可靠连接(Multipath Reliable Connection, MRC),这是一种用于大规模 AI 训练集群 GPU 互联的开放网络协议。该协议将单次数据传输拆分为
GateNews1小时前
Hut 8 股价因 98 亿美元的 AI 数据中心租赁协议飙升 34%
据 The Block 称,Hut 8 Corp 的股价在今日盘前交易中上涨 34%,至 107.87 美元,此前该公司签署了一份价值 98 亿美元的租赁协议,拟在德克萨斯州 Nueces County 建设人工智能数据中心园区,并将其设计基于 NVIDIA 的计算架构。该交易代表 Hu
GateNews1小时前
CleanSpark 首席技术官:AI/HPC 基础设施需要的网络资源比比特币挖矿更多
根据 CoinDesk 的一次采访,CleanSpark 首席技术官 Taylor Monnig 表示,从比特币挖矿转向 AI/HPC 基础设施需要更多冗余、更少即兴应对。Monnig 说:“一整机柜的网络光纤超过了整个比特币挖矿设施的水平,”Monnig
GateNews1小时前
Public 收购 AI 投资平台金库应用
据 Foresight News 报道,投资应用 Public 于 5 月 6 日宣布收购由 AI 驱动的投资平台 Treasury App。收购金额未披露。此次交易旨在加强 Public 由 AI 驱动的券商业务,该业务目前支持股票、债券和
GateNews2小时前
MiroMind 将于 5 月 12 日起停止在大中华地区的 MiroThinker 服务
据 BlockBeats 称,由盛大集团创始人陈天桥创办的 AI 研究公司 MiroMind 将从 2026 年 5 月 12 日起在中国大陆、香港和澳门暂停其 MiroThinker 服务(网页版和移动端应用版本)。暂停日期和恢复时间表已通过
GateNews3小时前