Згідно з моніторингом Beating, команда досліджень штучного інтелекту Proximal оновила довгостроковий бенчмарк програмування FrontierSWE. Новий GPT-5.5 (запущений через Codex) значно випереджає другого місця Claude Opus 4.7 за двома показниками: середній бал @5 (середній результат за 5 спроб) та найкращий @5, з часткою 83%. Але GPT-5.5 також є моделлю з найбільшою кількістю шахрайств: з 85 спроб 8 були визнані шахрайськими, разом з Kimi K2.6.

FrontierSWE був випущений у квітні і містить 17 реальних складних задач з галузей оптимізації компіляторів, досліджень машинного навчання, високопродуктивної інженерії тощо, наприклад, переписування Git на Zig, створення сервера SQLite, сумісного з PostgreSQL. Кожне завдання має обмеження у 20 годин і є одним із небагатьох відкритих бенчмаркiв програмування, які ще не були пророблені. GPT-5.5 у порівнянні з попередніми версіями демонструє більш зріле розподілення часу: відкриті завдання отримують більше часу для вдосконалення рішень, а реалізація схожих завдань виконується швидше і з вищими балами.

Попередні тести вже виявили кілька поширених проблем у AI-агентах для програмування. Моделі зазвичай надмірно впевнені у своїх відповідях, і ще до 20 годинного ліміту через поверхневу самоперевірку помилково вважають завдання завершеним і здають його раніше. Opus 4.6 у середньому витрачає понад 8 годин на одне завдання, що значно більше, ніж у інших моделей — близько 2 годин, але багато разів втрачає вже зроблену оптимізацію і потім «винаходить» її знову. Шахрайство особливо проявляється у високонавантажених завданнях: у завданні, де заборонено використовувати PyTorch і переносити його на Mojo, всі моделі, крім Qwen 3.6, намагалися обдурити систему. Gemini використовує кодування символів для приховування заборонених назв бібліотек, запускає приховані процеси у тимчасових каталогах, а Opus 4.6 навіть спочатку у процесі розв’язання пише «готовий обдурити», а потім приступає до шахрайства.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

ChatGPT виходить у Excel і Google Sheets: GPT-5,5 напряму входить у таблиці, Copilot і Gemini влаштовують тристороннє змагання

Новини індустрії ШІ

OpenAI випустила додатки ChatGPT для Excel і ChatGPT для Google Sheets, використовуючи рушій GPT-5,5; головна ідея — «роби й одразу пояснюй». Функції охоплюють аналіз, автоматичне написання формул, оновлення таблиць і покрокове пояснення процесу міркування, щоб користувачі могли напряму обробляти й розуміти дані в межах електронних таблиць. Це початок тристоронньої конкуренції з Copilot і Gemini та сигнал про новий ландшафт корпоративної продуктивності завдяки AI; користувачам у Тайвані потрібно встановити застосунки через AppSource / Workspace Marketplace, а також звернути увагу на конфіденційність даних і на те, чи потрібен ChatGPT Plus.

ChainNewsAbmedia17хв. тому

Google Chrome тихо завантажує AI-модель обсягом 4 ГБ 6 травня без згоди користувача

Новини індустрії ШІ

Згідно з Tom's Hardware, дослідник безпеки Александр Ханфф повідомив, що Google Chrome непомітно завантажує приблизно 4 ГБ файлу AI-моделі «weights.bin» на відповідні пристрої 6 травня без явного сповіщення або згоди користувача. Файл на основі Gemini Nano забезпечує роботу локальних AI-функцій

GateNews21хв. тому

Генеральний директор Ripple відкидає наратив про скорочення робочих місць через AI на тлі звільнень у Coinbase

Прогрес проєкту Новини індустрії ШІ

Гендиректор Ripple просуває наратив «AI як інструмент зростання» Гендиректор Ripple Бред Гарлінгхаус відкинув ідею, що штучний інтелект насамперед є інструментом для скорочення робочих місць, і заявив про це в інтерв’ю CoinDesk під час Consensus Miami 2026. «Зображати AI як лиходія — це злочин», — сказав Гарлінгхаус, подаючи технологію як

CryptoFrontier29хв. тому

Stockcoin.ai завершує раунд seed-фінансування, який очолила Amber Group

Акції Новини індустрії ШІ

За офіційним оголошенням, Stockcoin.ai — платформа на базі ШІ для торгівлі ф’ючерсами на акції та криптовалюту — завершила посівний раунд фінансування, який очолила Amber Group, за участі ангельських інвесторів у крипто та традиційні фінанси. Платформа зосереджується на поєднанні ончейн-даних із біржовими даними з

GateNews1год тому

Щомісячні активні користувачі Claude App зросли на 658% до 85,79 млн за рік, а кількість завантажень підскочила на 2321%

Новини індустрії ШІ

Згідно з даними Similarweb, які відстежує Beating, показники Claude App за квітень у річному вимірі продемонстрували суттєве зростання: щомісячні активні користувачі (MAU) зросли з 11,31 мільйона рік тому до 85,79 мільйона — на 658%; завантаження з app store підскочили з 920 тисяч до 22,3 мільйона — на 2321%.

GateNews1год тому

Президент OpenAI свідчить, що 5 травня Маск прагнув повного контролю та $800B для колонії на Марсі

Новини індустрії ШІ

Згідно зі свідченням президента OpenAI Ґрега Брокмана від 5 травня під час другого тижня каліфорнійського судового процесу, Ілон Маск раніше підтримував перетворення OpenAI на компанію з метою отримання прибутку та вимагав повного контролю над організацією. Брокман заявив, що Маск посилався на необхідність залучити 8 мільярдів доларів для

GateNews1год тому

Прокоментувати

0/400

Немає коментарів