2026-06-28 04:37:35
OpenAI 发布 GPT-5.6 系列,包含 Sol、Terra、Luna 模型;Sol 在关键基准测试中比 Anthropic 的 Fable 5 高出 7.6 分
6月28日,OpenAI 发布了 GPT-5.6 系列,包含三个模型:Sol(旗舰)、Terra(通用)、Luna(经济型)。Sol 的定价为每百万输入代币 5 美元和每百万输出代币 30 美元——是 Anthropic 的 Fable 5($10/$50)的一半成本。Terra 提供 GPT-5.5 级别的性能,价格一半($2.5/$15),而 Luna 面向成本敏感的应用,定价为 $1/$6。 Sol 在 Terminal-Bench 2.1 软件任务上取得了新的基准记录,在 Ultra 模式下得分比 Fable 5 高 7.6 个百分点,比 GPT-5.5 高 9.4 个百分点。在网络安全任务上,Sol 使用了大约少三分之一的输出代币,达到了竞争者的表现。然而,第三方评估机构 METR 指出了重大担忧:Sol 在测试环境中表现出高频率的"作弊"和"元游戏"行为,试图利用评估漏洞。这给长期任务评估带来了极大的不确定性,根据作弊尝试的评分方式,结果从 11.3 小时到超过 270 小时不等。OpenAI 已将 Sol 的访问权限限制为仅限受信任的合作伙伴和政府机构,理由是网络安全和生