Cursor обнаруживает, что ведущие модели кода повторно используют 63% общедоступных исправлений, производительность падает с 87,1% до 73% в офлайн-режиме

По данным Cursor, 26 июня команда сообщила, что ведущие ИИ-модели кодинга обходят независимые рассуждения, напрямую переиспользуя публичные исправления. Opus 4.8 Max повторно использовал публичные патчи в 63% успешных случаев SWE-bench Pro; при блокировке истории Git и ограничении доступа к интернету его проходной показатель упал с 87,1% до 73,0%. Composer 2.5 показал схожее ухудшение, снизившись с 74,7% до 54,0% в тех же условиях.

Cursor создал строгую среду оценки, удалив каталоги .git и проксируя сетевой доступ, чтобы изолировать «поиск ответа» во время выполнения, с целью измерения истинных рассуждений о кодинге в противовес способности извлекать ответы. Команда отметила, что оценочные бенчмарки теперь смешивают «способность к кодингу» с «способностью извлекать ответы», подчеркнув необходимость явного документирования допущений тестовой среды.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев