OpenAI начала массовый выпуск GPT-5.4 — самой мощной модели на сегодняшний день — в четверг, поскольку компания пытается справиться с PR-кризисом, в результате которого около 2,5 миллиона пользователей предприняли действия против компании, отменяя подписки или делясь бойкотом в соцсетях. Так называемое движение QuitGPT взорвалось после того, как OpenAI объявила о сделке с Министерством обороны США всего через несколько часов после того, как Anthropic публично отказалась от того же контракта — что вызвало общественное осуждение со стороны президента Трампа и других государственных чиновников. Ключевая проблема Anthropic: Минобороны отказалось включать в контракт явные запреты на развертывание автономного оружия и массовое наблюдение за гражданами США.
Тем не менее, OpenAI заключила сделку. Генеральный директор Сэм Альтман, который отвечает на вопросы о разрыве между заявленной безопасностью компании и фактическим содержанием контракта, нуждается в возвращении этих пользователей. И вот GPT-5.4… всего через два дня после представления GPT-5.3.
Новая модель объединяет рассуждение, кодирование и агентные возможности в одном релизе. Также она обладает возможностью обработки контекста на миллион токенов, что дает пользователям больше свободы при работе с большими объемами информации за один сеанс. На бумаге показатели выглядят многообещающе. По тесту GDPval — оценке знаний в 44 профессиях — GPT-5.4 показывает или превосходит профессионалов в 83,0% случаев, что выше 70,9% у GPT-5.2. Самое большое улучшение — в использовании компьютеров: по OSWorld-Verified, измеряющему способность модели управлять рабочим столом по скриншотам и действиям мыши/клавиатуры, GPT-5.4 достигает 75,0% успеха против 47,3% у GPT-5.2 — и превышает человеческий порог в 72,4%. По тесту BrowseComp, оценивающему глубокие исследования в сети, модель показывает рост на 17 процентных пунктов по сравнению с GPT-5.2. Окно контекста на миллион токенов и функция перенаправления модели во время ответа — позволяющая пользователям корректировать модель, пока она еще думает — дополняют основные функции. Эта функция экономит время и ресурсы, избегая необходимости сбрасывать все ранее сгенерированные токены при обнаружении ошибки.
Кому будет полезен GPT 5.4? Важно отметить, что некоторые бенчмарки в основном сравнивают GPT-5.4 — и зачастую, при этом уровень рассуждения устанавливается на очень высокий уровень, который бесплатные и Plus-пользователи не могут использовать — с GPT-5.2, полностью пропуская GPT-5.3. Для пользователей, уже использующих GPT-5.3, некоторые улучшения могут казаться более постепенными, чем это видно на графиках.
У разработчиков больше оснований для умеренных ожиданий: по SWE-Bench Pro улучшение с GPT-5.3-Codex (56,8%) до GPT-5.4 (57,7%) практически незаметно. Модель также утверждает, что для выполнения задач требуется значительно меньше токенов по сравнению с GPT-5.2. «GPT‑5.4 — наша самая токен-эффективная модель рассуждения на сегодняшний день, использующая значительно меньше токенов для решения задач по сравнению с GPT‑5.2», — заявила OpenAI. Тем не менее, любое улучшение в этой области — это положительный момент для разработчиков, использующих модели OpenAI через API и платящих за каждый использованный токен. Модель с эффективной цепочкой рассуждений может давать те же результаты за меньшие деньги, чем модель, склонная переусердствовать в размышлениях, чтобы добиться правильного вывода. Еще один нюанс для тех, кто надеется сразу использовать новую модель: OpenAI заявила, что GPT-5.4 будет выпущена сегодня, но на момент написания статьи она еще не была доступна, вероятно, идет постепенное внедрение. Для большинства пользователей лучшая модель — GPT 5.3, которая подходит только для мгновенных ответов, то есть дает ответы, не требующие больших усилий. Пользователи, полагающиеся на мышление — термин OpenAI для расширенного цепочки рассуждений по сложным задачам — все еще используют GPT-5.2. Другими словами, те, кто скорее всего проверят пределы модели, получат ее последними.
Самые очевидные бенефициары — корпоративные пользователи, работающие с большим количеством документов. Внутренний тест моделирования таблиц показал результат GPT-5.4 — 87,3% против 68,4% у GPT-5.2. Юридическая фирма Harvey заявила, что получила 91% по своему тесту BigLaw Bench. Компания Mainstay, управляющая агентами на 30 000 порталах налогов на имущество, сообщила о 95% успешных первых попытках и сессиях, которые работают примерно в три раза быстрее и используют примерно на 70% меньше токенов. Это такой аргумент в пользу эффективности, который может заинтересовать корпоративные отделы закупок, — но для отдельного пользователя, задумывающегося о удалении аккаунта, это может быть сложнее убедить.