Anthropic 报告:AI 决策胜率升至 64%,代码优化 52 倍

Mythos Preview模型優化

Anthropic 于 6 月 4 日发布报告,揭示其 Mythos Preview 模型在辅助 AI 研究决策的测试中,在 64% 的情况下做出了优于人类研究员的决策,而同类测试在 2024 年的胜率仅为 22%。在优化小型 AI 模型训练代码的标准测试中,Mythos Preview 达到 52 倍速度提升。

研究决策测试的方法与数据

Anthropic 公开的测试设计:团队向 Claude 展示人类研究员即将做出错误研究方向判断的对话记录,并询问 AI「接下来应如何做」。Mythos Preview 在 64% 的情况下给出了优于人类研究员的回答,2024 年时同类测试的胜率为 22%。

Anthropic 在报告中说明,这一结果「暗示着 AI 已开始具备指导高级研究的能力」,但同时表示目前尚无法确定 Claude 是否具备自主选择「正确研究问题」的全局判断力。

Anthropic 报告中的代码效率数据

Anthropic 的代码效率相关指标:

内部工程师季度代码交付量:为 2021-2025 年平均水平的 8 倍

开放性代码问题成功率:在 6 个月内提升 50 个百分点,达到 76%

训练代码优化速度:Mythos Preview 达到 52 倍提升

比较基准:Claude Opus 4(2024 年 5 月)平均约 3 倍;熟练人类工程师通常需 4-8 小时实现约 4 倍

Anthropic 报告指出,部分内部工程师认为 Claude 的代码质量已逼近人类水平。

Anthropic 研究所:确认成立,研究 RSI 潜在影响

Anthropic 宣布将与外部利益相关方合作成立「Anthropic 研究所(Anthropic Institute)」,致力于研究强大 AI 系统的深远影响。

Anthropic 在报告中表示,AI 加速发展既有望为医学、科技与经济领域带来正面影响,也可能加剧 AI 对齐(Alignment)难题,并导致「失去控制(Loss of control)」的风险,Anthropic 称这一影响「值得更高度的重视」。

常见问题

Mythos Preview 决策胜率测试的具体设计是什么?

Anthropic 向 Claude 展示研究员即将走入错误研究方向的对话记录,并询问「接下来应如何做」,测试 AI 的研究判断力。Mythos Preview 在 64% 的情况下给出了优于人类研究员的回答,相比 2024 年同类测试 22% 的胜率,在两年内实现了爆发性增长。

Anthropic 报告中提到的「递归自我提升(RSI)」是什么?

递归自我提升(Recursive Self-Improvement)是指 AI 系统自主开发出比自身更强大的下一代 AI 的能力。Anthropic 在 2026 年 6 月 4 日的报告中表示,这一进程正以「超乎预期的速度」推进,同时坦言目前尚无法确定 Claude 是否具备自主选择「正确研究问题」的全局判断力。

Anthropic 研究所的定位和目标是什么?

Anthropic 宣布将与外部利益相关方合作成立 Anthropic 研究所,专门研究强大 AI 系统的深远影响。Anthropic 表示成立目的是确保人类能够为 AI 技术的未来做出审慎选择,具体研究范围和时程尚未完整披露。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论