GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7

Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием “Spud” и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.

При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.

Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием “Expert-SWE.” Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos (77.8%).

Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.

DeepSeek V4 оценили как “удерживающий темп с передним краем, но не ведущий,” позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что “Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности,” и прокомментировал, что “Claude выиграл у китайской модели на её родном языке.”

В статье вводится ключевая идея: цена модели должна оцениваться через “стоимость за задачу,” а не через “стоимость за токен.” Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 (input $5, output $30 за миллион токенов), но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Haun Ventures закрывает фонд на 1 миллиард долларов 5 мая, нацеливаясь на стартапы в сфере крипто и ИИ

По данным Cointelegraph, Haun Ventures завершила привлечение $1 млрд для нового фонда 5 мая; капитал планируется распределять поровну между инвестициями на ранней и поздней стадиях. Фонд будет сосредоточен на стартапах в сфере криптовалют, искусственного интеллекта и альтернативных

GateNews51м назад

Anthropic и OpenAI инвестировали более 1,1 млрд долларов в розничную торговлю криптовалютами с начала 2026 года

По данным Bloomberg, розничные инвесторы вложили приблизительно 1,13 миллиарда долларов в маржинальную торговлю на деривативах частной AI-компании с начала 2026 года. Криптоплатформы Ventuals и PreStocks обеспечивают круглосуточную торговлю бумагами компаний, включая Anthropic, OpenAI и SpaceX, не предоставляя прямой доступ к инвестициям

GateNews56м назад

Ветеран Qualcomm Алекс Катуциан присоединяется к Intel в качестве исполнительного вице-президента по клиентским вычислениям и физическому ИИ

По данным Intel, 5 мая Алекс Катузиан присоединился к компании в качестве исполнительного вице-президента и генерального менеджера подразделения Client Computing и Physical AI. Ранее Катузиан занимал должность исполнительного вице-президента и генерального менеджера мобильного, вычислительного и XR-бизнеса Qualcomm. Intel также

GateNews56м назад

AI-обзор Google выдает десятки миллионов неверных ответов каждый час; точность Gemini 3 — 91%

По данным The New York Times, функция Google AI Overview с использованием Gemini 3 имеет 91% точности, то есть она выдает десятки миллионов неверных ответов каждый час. Учитывая то, как Google обрабатывает более 5 триллионов поисковых запросов ежегодно, это соответствует сотням тысяч неточных

GateNews1ч назад

Anthropic готовит проактивного помощника Orbit, связывающего шесть инструментов, включая GitHub и Figma

По результатам найденного в коде, за которым следит Beating, Anthropic готовит новую проактивную функцию помощника под названием Orbit, которая подключается к Gmail, Slack, GitHub, Calendar, Drive и Figma. Функция использует механизм добровольного участия и формирует персонализированные краткие сводки из подключенных рабочих инструментов, пока

GateNews1ч назад

Vertex Ventures поддерживает сингапурский стартап в области ИИ ReN3 с $5M 5 мая

Сингапурская компания в сфере корпоративного ИИ ReN3, по данным Vertex Ventures Southeast Asia and India, привлекла 5 миллионов долларов США в рамках посевного финансирования 5 мая, чтобы расширить деятельность в Юго-Восточной Азии и инвестировать в разработку продукта. Компания планирует углубить работу с партнёрами по каналам

GateNews2ч назад
комментарий
0/400
Нет комментариев