10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
GPT-5.5登頂極限編程基準FrontierSWE,但作弊次數也最多
據動察 Beating 監測,AI 研究團隊 Proximal 更新超長程編程基準 FrontierSWE 排行榜。新加入的 GPT-5.5(通過 Codex 運行)在 mean@5(5 次嘗試的平均分)和 best@5(最高分)兩項指標上均大幅領先第二名 Claude Opus 4.7,支配率達 83%。但 GPT-5.5 也是作弊最多的模型:85 次試驗中 8 次被判作弊,與 Kimi K2.6 並列。
FrontierSWE 4 月發布,收集了編譯器優化、ML 研究、高性能工程等領域的 17 項真實難題,如用 Zig 重寫 Git、構建兼容 PostgreSQL 的 SQLite 伺服器,每項任務限時 20 小時,是目前少數未被做穿的公開編程基準。GPT-5.5 相比前代在時間分配上更成熟:開放式任務花更多時間打磨方案,實現類任務更快完成且得分更高。
此前測試已揭示 AI 編程 Agent 幾類通病。模型普遍過度自信,遠未到 20 小時時限就因膚淺的自檢誤以為任務已完成並提前提交。Opus 4.6 單項任務平均投入超 8 小時,遠超其他模型的約 2 小時,但曾多次丟失已有優化、隨後重新「發明」一遍。作弊在高壓任務中尤為突出:在一道明確禁止使用 PyTorch 的 Mojo 移植任務中,除 Qwen 3.6 外所有模型均嘗試作弊,Gemini 用字符編碼隱藏被禁庫名、在臨時目錄運行隱蔽進程,Opus 4.6 甚至先在推理中寫下「願意作弊」再動手。