OpenAI запускает GPT-5.4 всего через 4 дня после последней версии, поскольку исход «QuitGPT» набирает обороты

Decrypt

Вкратце

  • OpenAI запустила GPT-5.4 на фоне растущей критики QuitGPT за контракт с Пентагоном на ИИ.
  • GPT-5.4 добавляет окно контекста на 1 миллион токенов, улучшенное рассуждение и агентные возможности.
  • Наибольшую пользу получают корпоративные пользователи, так как GPT-5.4 обеспечивает более быстрых ИИ-агентов с меньшим количеством токенов.

OpenAI начала массовый выпуск GPT-5.4 — самой мощной модели на сегодняшний день — в четверг, поскольку компания пытается справиться с PR-кризисом, в результате которого около 2,5 миллиона пользователей предприняли действия против компании, отменяя подписки или делясь бойкотом в соцсетях. Так называемое движение QuitGPT взорвалось после того, как OpenAI объявила о сделке с Министерством обороны США всего через несколько часов после того, как Anthropic публично отказалась от того же контракта — что вызвало общественное осуждение со стороны президента Трампа и других государственных чиновников. Ключевая проблема Anthropic: Минобороны отказалось включать в контракт явные запреты на развертывание автономного оружия и массовое наблюдение за гражданами США.

 Тем не менее, OpenAI заключила сделку. Генеральный директор Сэм Альтман, который отвечает на вопросы о разрыве между заявленной безопасностью компании и фактическим содержанием контракта, нуждается в возвращении этих пользователей. И вот GPT-5.4… всего через два дня после представления GPT-5.3.

Новая модель объединяет рассуждение, кодирование и агентные возможности в одном релизе. Также она обладает возможностью обработки контекста на миллион токенов, что дает пользователям больше свободы при работе с большими объемами информации за один сеанс. На бумаге показатели выглядят многообещающе. По тесту GDPval — оценке знаний в 44 профессиях — GPT-5.4 показывает или превосходит профессионалов в 83,0% случаев, что выше 70,9% у GPT-5.2. Самое большое улучшение — в использовании компьютеров: по OSWorld-Verified, измеряющему способность модели управлять рабочим столом по скриншотам и действиям мыши/клавиатуры, GPT-5.4 достигает 75,0% успеха против 47,3% у GPT-5.2 — и превышает человеческий порог в 72,4%. По тесту BrowseComp, оценивающему глубокие исследования в сети, модель показывает рост на 17 процентных пунктов по сравнению с GPT-5.2. Окно контекста на миллион токенов и функция перенаправления модели во время ответа — позволяющая пользователям корректировать модель, пока она еще думает — дополняют основные функции. Эта функция экономит время и ресурсы, избегая необходимости сбрасывать все ранее сгенерированные токены при обнаружении ошибки.

Кому будет полезен GPT 5.4? Важно отметить, что некоторые бенчмарки в основном сравнивают GPT-5.4 — и зачастую, при этом уровень рассуждения устанавливается на очень высокий уровень, который бесплатные и Plus-пользователи не могут использовать — с GPT-5.2, полностью пропуская GPT-5.3. Для пользователей, уже использующих GPT-5.3, некоторые улучшения могут казаться более постепенными, чем это видно на графиках.

У разработчиков больше оснований для умеренных ожиданий: по SWE-Bench Pro улучшение с GPT-5.3-Codex (56,8%) до GPT-5.4 (57,7%) практически незаметно. Модель также утверждает, что для выполнения задач требуется значительно меньше токенов по сравнению с GPT-5.2. «GPT‑5.4 — наша самая токен-эффективная модель рассуждения на сегодняшний день, использующая значительно меньше токенов для решения задач по сравнению с GPT‑5.2», — заявила OpenAI. Тем не менее, любое улучшение в этой области — это положительный момент для разработчиков, использующих модели OpenAI через API и платящих за каждый использованный токен. Модель с эффективной цепочкой рассуждений может давать те же результаты за меньшие деньги, чем модель, склонная переусердствовать в размышлениях, чтобы добиться правильного вывода. Еще один нюанс для тех, кто надеется сразу использовать новую модель: OpenAI заявила, что GPT-5.4 будет выпущена сегодня, но на момент написания статьи она еще не была доступна, вероятно, идет постепенное внедрение. Для большинства пользователей лучшая модель — GPT 5.3, которая подходит только для мгновенных ответов, то есть дает ответы, не требующие больших усилий. Пользователи, полагающиеся на мышление — термин OpenAI для расширенного цепочки рассуждений по сложным задачам — все еще используют GPT-5.2. Другими словами, те, кто скорее всего проверят пределы модели, получат ее последними.

Самые очевидные бенефициары — корпоративные пользователи, работающие с большим количеством документов. Внутренний тест моделирования таблиц показал результат GPT-5.4 — 87,3% против 68,4% у GPT-5.2. Юридическая фирма Harvey заявила, что получила 91% по своему тесту BigLaw Bench. Компания Mainstay, управляющая агентами на 30 000 порталах налогов на имущество, сообщила о 95% успешных первых попытках и сессиях, которые работают примерно в три раза быстрее и используют примерно на 70% меньше токенов. Это такой аргумент в пользу эффективности, который может заинтересовать корпоративные отделы закупок, — но для отдельного пользователя, задумывающегося о удалении аккаунта, это может быть сложнее убедить.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев