OpenAI 推 GPT-5.5:12M контекст, AA індекс на першому місці, Terminal-Bench 82.7% переписує агентський бенчмарк

OpenAI 於 4/23 正正式發布 GPT-5.5, 定定位 як головної моделі, орієнтованої на агентський (agentic) робочий процес та опрацювання корпоративних знань, а також синхронно з’являється в ChatGPT і Codex. Офіційна рекламна подача визначає це як «наша найрозумніша й найінтуїтивніша у використанні модель», а AA Intelligence Index, набравши 60 балів, виходить на перше місце, випереджаючи Claude Opus 4.7 та Gemini 3.1 Pro Preview відповідно на 3 бали.

Ключові дані огляд

Показник GPT-5.5 порівняно (GPT-5.4 або рівнозначні конкуруючі продукти) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0 (командний рядок робочі процеси) 82.7% GPT-5.4:75.1% Expert-SWE (внутрішнє програмне оцінювання OpenAI) 73.1% GPT-5.4:68.5% Контекстне вікно 1,200 万 tokens Значне покращення, здатне обробляти весь корпоративний програмний репозиторій або кілька годин відео Ціна (за мільйон token) Вхід 5 доларів, вихід 30 доларів Ціна в 2 рази вища, ніж GPT-5.4; але кількість токенів на виході зменшилась приблизно на 40%, а чиста вартість зросла приблизно на 20%

Позиціювання: розроблено для «Епохи агентів»

OpenAI описує GPT-5.5 як базову модель для агентського обчислення: вона може розуміти складні цілі, використовувати інструменти, самостійно перевіряти результати роботи та доводити багатокрокові завдання до завершення без потреби в тому, щоб людина втручалася на кожному етапі. За даними інтерв’ю TechCrunch, президент Greg Brockman назвав цю версію «великим кроком уперед до майбутнього обчислення, але це лише крок», і підкреслив, що вона «порівняно з 5.4 є швидшим і гострішим розумувачем, використовуючи менше token».

Головний науковець Jakub Pachocki зазначив, що «у короткостроковій перспективі ми бачимо дуже суттєве покращення»; керівник досліджень Mark Chen натомість наголосив, що цього разу версія принесла «значущі прориви» у робочих процесах наукових та технічних досліджень.

Обсяг постачання та багаторівнева сегментація версій

GPT-5.5:плюс, pro, business, enterprise користувачі в ChatGPT та Codex можуть використовувати

GPT-5.5 Pro:вища за рівнем версія міркувань, доступна Pro, Business, Enterprise користувачам у ChatGPT

Інтеграція Codex: синхронно доступна для інструментів програмних агентів OpenAI, посилюючи редагування кількох файлів, командний рядок і тестові цикли

Тези щодо кібербезпеки та оборони підвищуються синхронно

Член технічної команди Mia Glaese під час інтерв’ю TechCrunch заявила, що можливості GPT-5.5 у сфері кібербезпеки матимуть «істотний вплив на те, як OpenAI впроваджує моделі» та «спрямовує ресурси на цифровий оборонний захист». Цей меседж прямо перегукується з недавніми суперечками навколо Claude Mythos — «зброєподібної» моделі кібербезпеки в Anthropic. Раніше Altman у програмі《Core Memory》критикував «стратегію страхового маркетингу» Anthropic. На GPT-5.5 OpenAI більше акцентує на тезі «і напад, і оборона, і можна розгортати», прагнучи чіткіше відмежуватися від позиції Anthropic щодо обмеження доступу.

Зміни цінової стратегії

Ціна GPT-5.5 за кожен мільйон token подвоюється до 5 доларів за вхід і 30 доларів за вихід — це перше покоління в серії GPT-5, де одинична ціна суттєво зростає. Пояснення OpenAI таке: завдяки підвищеній ефективності в обчисленнях можна скоротити приблизно на 40% використання токенів на виході, тож типові рахунки за фактом приблизно на 20% вищі, ніж у GPT-5.4, а не просто в 2 рази. Для підприємств це зумовлює зміну міркування з «чи вигідна одинична ціна» на «у межах одного prompt: чи може GPT-5.5 виконувати більш складні завдання за меншої загальної кількості token».

Сигнали для індустрії

GPT-5.5 розширює розрив між OpenAI у Terminal-Bench та внутрішньою оцінкою SWE: ці два бенчмарки тестують агентське виконання командного рядка та фактичні завдання з інженерії програмного забезпечення. Для позитивного протистояння Codex і Claude Code це є більш прямим полем битви за результативність. Додавши синхронне відкриття контекстного вікна на 1,200 万 tokens, OpenAI одночасно посилює тиск на дві «стежки» — «повне опрацювання корпоративної бази знань» і «агентське виконання довгих завдань». Для Anthropic Claude Opus 4.7 відстає на 3 бали від лідера: 57 балів у AA індексі проти 60; а для користувачів Claude Code це дає додаткову причину спостерігати за прогресом наступного покоління (Opus 4.8 або нове покоління Claude).

Ця стаття, у якій OpenAI представляє GPT-5.5: 12M контекст, лідерство в AA індексі, Terminal-Bench 82.7% — переписано за агентським бенчмарком, вперше з’явилася на 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Meta розробляє AI-асистента Hatch для конкуренції з OpenClaw, до кінця червня завершить внутрішнє тестування

За повідомленням Financial Times від 5 травня, Meta розробляє AI-асистента (Hatch) для пересічних споживачів, натхненого OpenClaw від OpenAI. Компанія має намір до кінця червня завершити внутрішнє тестування; водночас Meta планує до четвертого кварталу цього року інтегрувати автономний агентний інструмент для покупок у свої сервіси Instagram.

MarketWhisper26хв. тому

Cloudflare: x402 може адресувати трафік нелюдського інтернету

Головний директор із стратегії Cloudflare заявив, що нині понад половину інтернет-трафіку становить не-людський трафік, підкресливши зміну динаміки Web, зумовлену AI-агентами. За словами керівника, x402 Foundation будує інфраструктуру, щоб підтримати «золоту епоху контенту» попри ці економічні

CryptoFrontier1год тому

Індійські кіберзахисні компанії використовують ШІ, щоб скоротити тестування вразливостей до годин

Індійські кібербезпекові компанії, зокрема Indusface та Astra Security, впроваджують AI-агенти, створені на базі великих мовних моделей, щоб прискорити тестування програмних вразливостей з днів або тижнів до годин, повідомляє The Economic Times. Зміни відображають зростання швидкості дій атакувальників і з’являючуся здатність AI-інструментів

CryptoFrontier2год тому

HINT (Hive Intelligence) за 24 години різко виріс на 60,25%

Gate News повідомлення, 6 травня, за даними котирувань Gate, станом на момент публікації HINT (Hive Intelligence) зараз торгується на рівні 0,001695 долара США; за 24 години виріс на 60,25%, досягав максимуму 0,0019 долара США, а мінімум опускався до 0,0010577 долара США; 24-годинний обсяг торгів склав 10,01 тис. доларів США. Поточна ринкова капіталізація — близько 78,14 тис. доларів США. Hive Intelligence — це базовий інфраструктурний рівень для агентів на базі штучного інтелекту, який надає уніфікований прикладний програмний інтерфейс для даних блокчейну в реальному часі. Він усуває розрізненість даних, даючи змогу агентам ШІ без зусиль виконувати запити й взаємодіяти з мережею в ланцюжку. Як інституційна інфраструктура крипторинку, Hive Intelligence надає доступ через MCP-ендпойнти, REST A

GateNews2год тому

Anthropic представила 10 фінансових AI-агентів, які інтегрують Microsoft 365 для легкого виконання фінансових операцій

Anthropic представила 10 шаблонів фінансових AI-агентів, які інтегрують партнерські дані Microsoft 365, Moody’s, D&B тощо, а також можуть використовуватися як плагіни або для автоматизованого планування. Шаблони поділяються на два типи — дослідження/клієнтські запити та фінансові операції — і охоплюють інвестстратегії, фінансові моделі, KYC та інше, включно із вбудованими Moody’s рейтинги. Claude Opus 4.7 посів перше місце в бенчмарку для фінансових агентів, що свідчить: під впливом опиняться як кадрові ресурси фінансової сфери, так і регуляторний ландшафт.

ChainNewsAbmedia2год тому

Nvidia та ServiceNow розширюють партнерство, представляють агент для робочого столу Project Arc

За даними Nvidia, цього тижня компанії розширили партнерство, щоб представити ServiceNow Project Arc — автономного агенту для робочого столу, захищеного Nvidia OpenShell і керованого ServiceNow AI Control Tower. Продукти призначені для того, щоб допомогти підприємствам керувати та аудитувати AI-агентів, розгорнутих у межах d

GateNews2год тому
Прокоментувати
0/400
Немає коментарів