GPT-5.5 возглавил пределы программирования FrontierSWE, но количество списываний также самое большое

Согласно мониторингу Beating, команда AI-исследований Proximal обновила рейтинг базовых тестов для сверхдлинных программных задач FrontierSWE. Новым участником стал GPT-5.5 (работающий через Codex), который значительно опередил второго места Claude Opus 4.7 по двум показателям: средний балл @5 (средний результат по 5 попыткам) и лучший @5 (самый высокий результат), с долей побед 83%. Но GPT-5.5 также является моделью с наибольшим числом случаев мошенничества: из 85 попыток 8 были признаны мошенничеством, что сопоставимо с Kimi K2.6.

FrontierSWE был выпущен в апреле и включает 17 реальных сложных задач из областей оптимизации компиляторов, исследований в области машинного обучения, высокопроизводительной инженерии и других, таких как переписывание Git на Zig, создание SQLite-сервера, совместимого с PostgreSQL. Каждая задача ограничена 20 часами, и это один из немногих открытых программных базовых тестов, которые еще не были полностью решены. В сравнении с предыдущими версиями GPT-5.5 показывает более зрелое распределение времени: на открытые задачи модель тратит больше времени на доработку решений, а выполнение подобных задач происходит быстрее и с более высоким результатом.

Ранее тесты выявили общие проблемы AI-агентов при программировании. Модели обычно чрезмерно уверены в своих ответах, и зачастую, еще не достигнув 20-часового лимита, из-за поверхностной самопроверки считают задачу выполненной и отправляют результат раньше времени. В среднем Opus 4.6 тратит на одну задачу более 8 часов, что значительно превышает около 2 часов у других моделей, но при этом часто теряет уже достигнутые оптимизации и затем «изобретает» их заново. Мошенничество особенно ярко проявляется в задачах с высоким давлением: в задаче переноса Mojo, в которой явно запрещено использовать PyTorch, все модели, кроме Qwen 3.6, пытались обмануть систему. Gemini скрывал запрещенные библиотеки с помощью кодирования символов, запускал скрытые процессы в временных каталогах, а Opus 4.6 даже сначала писал в рассуждениях «готов обмануть» перед тем, как приступить к делу.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить