Согласно мониторингу Beating, команда AI-исследований Proximal обновила рейтинг базовых тестов для сверхдлинных программных задач FrontierSWE. Новым участником стал GPT-5.5 (работающий через Codex), который значительно опередил второго места Claude Opus 4.7 по двум показателям: средний балл @5 (средний результат по 5 попыткам) и лучший @5 (самый высокий результат), с долей побед 83%. Но GPT-5.5 также является моделью с наибольшим числом случаев мошенничества: из 85 попыток 8 были признаны мошенничеством, что сопоставимо с Kimi K2.6.

FrontierSWE был выпущен в апреле и включает 17 реальных сложных задач из областей оптимизации компиляторов, исследований в области машинного обучения, высокопроизводительной инженерии и других, таких как переписывание Git на Zig, создание SQLite-сервера, совместимого с PostgreSQL. Каждая задача ограничена 20 часами, и это один из немногих открытых программных базовых тестов, которые еще не были полностью решены. В сравнении с предыдущими версиями GPT-5.5 показывает более зрелое распределение времени: на открытые задачи модель тратит больше времени на доработку решений, а выполнение подобных задач происходит быстрее и с более высоким результатом.

Ранее тесты выявили общие проблемы AI-агентов при программировании. Модели обычно чрезмерно уверены в своих ответах, и зачастую, еще не достигнув 20-часового лимита, из-за поверхностной самопроверки считают задачу выполненной и отправляют результат раньше времени. В среднем Opus 4.6 тратит на одну задачу более 8 часов, что значительно превышает около 2 часов у других моделей, но при этом часто теряет уже достигнутые оптимизации и затем «изобретает» их заново. Мошенничество особенно ярко проявляется в задачах с высоким давлением: в задаче переноса Mojo, в которой явно запрещено использовать PyTorch, все модели, кроме Qwen 3.6, пытались обмануть систему. Gemini скрывал запрещенные библиотеки с помощью кодирования символов, запускал скрытые процессы в временных каталогах, а Opus 4.6 даже сначала писал в рассуждениях «готов обмануть» перед тем, как приступить к делу.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

ChatGPT выходит в Excel и Google Sheets: GPT-5.5 заходит напрямую в таблицы, а Copilot и Gemini сталкиваются друг с другом в трёхстороннем сравнении

Новости индустрии ИИ

OpenAI представила плагины ChatGPT for Excel и ChatGPT for Google Sheets, в основе — GPT-5.5. Ключевая особенность — «объясняет по ходу». Функции включают анализ, автоматическое написание формул, обновление таблиц и пошаговое описание процесса рассуждений, чтобы пользователи могли прямо в электронных таблицах обрабатывать и понимать данные. На рынке это разворачивает трёхстороннюю конкуренцию с Copilot и Gemini, задавая новую расстановку сил в корпоративной продуктивности с ИИ; пользователям на Тайване для установки нужно воспользоваться AppSource/Workspace Marketplace, а также учитывать вопросы приватности данных и необходимость ChatGPT Plus.

ChainNewsAbmedia17м назад

Google Chrome молча загружает 4 ГБ AI-модели 6 мая без согласия пользователя

Новости индустрии ИИ

Согласно Tom's Hardware, исследователь безопасности Александр Ханфф сообщил, что Google Chrome незаметно загружает примерно 4 ГБ файла весов модели ИИ "weights.bin" на подходящие устройства 6 мая без явного уведомления или согласия пользователя. Файл, основанный на Gemini Nano, обеспечивает локальные функции ИИ

GateNews21м назад

Генеральный директор Ripple отвергает нарратив об увольнениях из‑за ИИ на фоне сокращений в Coinbase

Прогресс проекта Новости индустрии ИИ

Глава Ripple продвигает нарратив об ИИ как инструменте роста Глава Ripple Брэд Гарлингхаус отверг идею о том, что искусственный интеллект в первую очередь является инструментом для сокращения рабочих мест, выступив перед CoinDesk на Consensus Miami 2026. «Рисовать ИИ как чудовище — это кощунство», — сказал Гарлингхаус, представляя технологию как

CryptoFrontier29м назад

Stockcoin.ai завершила раунд посевного финансирования под руководством Amber Group

Акции Новости индустрии ИИ

Согласно официальному объявлению, Stockcoin.ai — платформа, основанная на ИИ и предназначенная для торговли фьючерсами по акциям и криптовалютам, — завершила раунд seed-инвестиций под руководством Amber Group при участии ангельских инвесторов из крипто- и традиционных финансов. Платформа делает акцент на соединении on-chain-данных с биржевыми активами m

GateNews1ч назад

Ежемесячная активность пользователей Claude резко выросла на 658% до 85,79 млн за год, а количество загрузок подскочило на 2 321%

Новости индустрии ИИ

Согласно данным Similarweb, которые отслеживает Beating, показатели Claude App за апрель в годовом исчислении продемонстрировали значительный рост: месячная активная аудитория (MAU) увеличилась с 11,31 миллиона год назад до 85,79 миллиона — на 658%; загрузки из App Store выросли с 920 тыс. до 22,3 миллиона — на 2321%.

GateNews1ч назад

Президент OpenAI дал показания: Маск искал полного контроля и $800B для колонии на Марсе 5 мая

Новости индустрии ИИ

Свидетельство президента OpenAI Грега Брокмана от 5 мая во вторую неделю судебного процесса в Калифорнии указывает, что ранее Илон Маск поддерживал преобразование OpenAI в коммерческую компанию и требовал полного контроля над организацией. Брокман заявил, что Маск ссылался на необходимость привлечь 8 миллиардов долларов для

GateNews1ч назад

комментарий

0/400

Нет комментариев