Мне показалась очень интересной история NVIDIA с Groq. В основном, то, что объяснил Хуан Ренсюнь, теперь имеет очень стратегический смысл.



Всё началось потому, что рынок инференса изменился. Раньше все сосредотачивались только на одном: увеличении пропускной способности, обработке большего количества запросов одновременно. Но потом люди поняли, что на практике всё не так просто. Некоторые пользователи готовы платить больше за более быстрые ответы, независимо от общего объема.

Это примерно так: у вас есть две одинаковые модели, одна отвечает за 50мс, другая — за 500мс. Если вы инженер, разрабатывающий приложение в реальном времени, сколько бы вы заплатили больше за ту, что в 10 раз быстрее? Вот именно, рынок с низкой задержкой полностью отличается от рынка с высокой пропускной способностью.

Здесь и вступает Groq. Их архитектура LPU специально ориентирована на низкую детерминированную задержку. Пока GPU NVIDIA доминируют в области массовой пропускной способности, Groq заполняет совершенно другую нишу. Когда вы смотрите на Groq 3 LPU, выпущенный в марте, сделанный по 4 нм технологическому процессу Samsung, его способность инференса на мегаватт в триллионных моделях в 35 раз лучше, чем у Blackwell NVL72. Это не мало.

Что говорит Хуан, по сути, — NVIDIA поняла, что инференс — это не один рынок, а два совершенно разных сегмента с полностью разными динамиками ценообразования. Можно иметь меньшую пропускную способность, но если цена за токен значительно выше, это выгодно. Это как расширение границ Парето на рынке.

Это был очень продуманный ход NVIDIA, на самом деле. Они заметили пробел и пошли за ним. Джонатан Росс и команда Groq продолжают работать независимо, но теперь с полной поддержкой NVIDIA. Кажется, наконец-то кто-то задумывается о инференсе более сложным образом.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить