Nvidia інтегрує технологію LPU (language processing unit) та багатолінійний чип для виведення ставок від OpenAI, а також переносить основне поле бою конкуренції обчислювальної потужності ШІ з навчання на інференцію. Дослідження Шеньвань Хун’юаня вважають, щоКлючовим словом індустрії обчислювальної енергетики у 2026 році буде міркування, і загальне споживання токенів та технічна парадигма будуть глибоко перебудовані навколо цієї теми.
28 лютого, за даними Wall Street Journal, Nvidia планує випустити новий інференційний чип, який інтегрує технологію «мовного процесора» (LPU) Groq на конференції розробників GTC наступного місяця.Генеральний директор Nvidia Дженсен Хуанг назвав її абсолютно новою системою, «якої світ ще не бачив».。 OpenAI погодилася стати одним із найбільших клієнтів процесора та придбати у Nvidia масштабні «спеціалізовані інференційні потужності».
Тим часом минулого місяця OpenAI уклала багатомільярдне партнерство у сфері обчислень зі стартапом Cerebras, який заявив, що їхні інференційні чипи перевершили графічні процесори Nvidia (графічні процесори). Ця низка тенденцій показує, щоГіганти штучного інтелекту переходять від гонки озброєнь до багатолінійної схеми обчислювальної потужності для виведення.
У звіті Шеньвань Хун’юань зазначалося,В епоху токенової економіки потужність інференційних обчислювальних потужностей відкриває чотири основні тенденціїПо-перше, кількість сценаріїв розгортання чисто CPU (центрального процесорного блоку) збільшилася, а попит на недорогі інференції прискорив зниження обчислювальної потужності; по-друге, зростання спеціалізованих архітектур, таких як LPU, що кидає виклик домінуванню GPU у процесі виведення; По-третє, вітчипах обчислювальної потужності прискорили прориви, і тенденція диверсифікації ланцюгів постачання очевидна; По-четверте, структура попиту на виведення обчислювальної потужності змінилася з «єдиного навчання» на «масове споживання токенів», а ефективність витрат стала ключовим конкурентним фактором.
У звіті йшлося,Виробники, які можуть надати достатню та економічно вигідну інференцію, отримають найбільшу вигоду, а спільний прорив процесорів, LPU та вітчизняних чипів є основними підказками цього етапу змін схем обчислювальної потужності.
Попит на виведення вибухнув, а споживання токенів досягло рекордного рівня
Дослідження Шеньвань Хун’юаня вважають, щоЗа безперервним зростанням попиту стоять дві структурні рушійні сили: по-перше, монетизація великих моделей прискорилася, і такі моделі, як Claude, почали залучатися до сфери застосування та випускати різноманітні галузеві плагіни;По-друге, реалізація агентів була прискорена, і такі продукти, як openclaw і Qianwen Agent, позначають те, що агенти входять у реальні робочі та виробничі сценарії, і кожен виклик моделі та виконання завдань агента потребують значної підтримки обчислювальної потужності виведення.
За даними, наведеними дослідженням Shenwan Hongyuan Research, обсяг виведення провідних вітчизняних великих моделей значно зріс під час Весняного фестивалю: пропускна здатність Doubao у новорічну ніч досягла 63,3 мільярда токенів, щомісячна активна кількість користувачів Yuanbao — 114 мільйонів, а кількість учасників активності Qianwen «Spring Festival Free Order» перевищила 120 мільйонів.
Дані від OpenRouter, глобальної платформи агрегації API моделей ШІ, ще раз підкреслюють масштаб цієї тенденції. За тиждень з 9 по 15 лютого китайська модель вперше перевершила американську модель у 2,94 трильйона токенів, набравши 4,12 трильйона токенів; у тиждень з 16 по 22 лютого кількість китайських модельних дзвінків ще більше зросла до 5,16 трильйона токенів, що на 127% більше за три тижні, а Китай зайняв чотири з п’яти провідних моделей світу.
LPU став новачком, і навчальні та інференційні чипи диференційовані
Nvidia витратила 20 мільярдів доларів на ліцензування основної технології Groq і залучила виконавчу команду, включно з засновником Джонатаном Россом, у рамках угоди про «найм ядра». Дослідження Шеньвань Хун’юаня вважають, щоЦя угода офіційно визнає важливість фішок чистого розуму провідними гравцями.
**Архітектурна різниця між LPU та традиційними GPU є фундаментальною причиною, чому вони мають переваги в ефективності у сценаріях виведення.**Інференція ШІ поділяється на два етапи: попереднє заповнення та декодування, а процес декодування великих моделей особливо повільний, тоді як LPU спеціально оптимізований для двох основних вузьких місць виведення — затримки та пропускної здатності пам’яті. За попередніми повідомленнями Wall Street News, майбутні нові продукти Nvidia можуть включати архітектуру наступного покоління Feynman, або впроваджувати ширшу схему інтеграції SRAM, або навіть глибоко інтегрувати LPU через технологію 3D-стекування.
Shenwan Hongyuan Research оцінює, що в майбутньому чіпи на базі ШІ сформуватимуть чітку модель технічного підрозділу:Навчальна частина продовжує використовувати комбінацію GPU-HBM, тоді як інференція розвивається у схему комбінації ASIC+LPU-SRAM+SSD. Оскільки попит на обчислювальну потужність переходить від навчання до інференції, виробники, зосереджуючись на інференційних чипах, відкриватимуть можливості для розробки.
Система виведення була комплексно вдосконалена, а вимоги до процесора та мережі одночасно зросли
Від одного чипа до рівня системи інновації є ще одним важливим виміром цього етапу підвищення обчислювальної потужності з інференцією. Shenwan Hongyuan Research зазначила, що зі зміною сценарію застосування з чат-бота на агента,Вимоги до затримки, пропускної здатності та глибини мислення в обчислювальних системах зросли одночасно, сприяючи розвитку архітектури системи до мереж рівня 3.
Перший шар — це шар швидкої реакції, забезпечений чистим інференційним чипом, оснащеним SRAM для наднизької затримки зворотного зв’язку;Другий рівень — це рівень повільного мислення, використовуючи кластери обчислювальної потужності надвеликої пропускної здатності для обробки складного логічного виведення, попит на багатоядерні та багатопотокові процесори на цьому рівні значно зросте;Третій шар — це шар пам’яті, що відповідає системі ContextMemory System, випущеній NVIDIA, довготривалій пам’яті та кешу KV SSD-накопичувачів, керованих DPU Bluefield4.
Nvidia також коригує свою стратегію на апаратному рівні. Попередня стандартна практика об’єднання процесорів Vera з GPU Rubin виявилася надто дорогою для конкретних навантажень агентів ШІ. Nvidia оголосила цього місяця, що розширила партнерство з Meta Platforms, щоб завершити своє перше масштабне впровадження чистого процесора для підтримки AI-агентів Meta, орієнтованих на рекламу, що свідчить про те, що компанія виходить за межі моделі продажу одного GPU.
Прориви у вітчизняній обчислювальній потужності прискорилися
Дослідження Шеньвань Хун’юаня вважають, щоТехнологічне оновлення домашніх інференційних чипів заслуговує на нього увагу., і ринкові очікування погані.
На технічному рівні,Нове покоління вітчипів інференції досягло низки фундаментальних покращень: Додано підтримку низькоточних форматів даних, таких як FP8/MXFP8/MXFP4, з обчислювальною потужністю відповідно 1P і 2P. Значно підвищити векторну обчислювальну потужність і впровадити нову ізоморфну конструкцію, що підтримує моделі подвійного програмування SIMD/SIMT. Пропускна здатність міжз’єднання у 2,5 раза більша, ніж у попереднього покоління, досягаючи 2 ТБ/с.
Особливо варто відзначити, що розділення PD досягається на рівні чипа: за допомогою самостійно розробленої HBM з двома різними специфікаціями вона є PR-версією для сценаріїв попереднього заповнення та рекомендацій, а також DT-версією для декодування та навчальних сценаріїв. Серед них версія PR використовує недорогий HBM, що може суттєво знизити інвестиційні витрати на етап попереднього заповнення інференції, і очікується запуск у першому кварталі 2026 року.
На рівні ланцюга постачання прогрес вітчизняних виробників пакування та тестування є доказом. Згідно з першим раундом запиту та відповіді провідної компанії з пакування та тестування, доходи бізнесу з упаковки 2.5D переважно надходять від високопродуктивних сервісів упаковки обчислювальних чипів, які швидко зросли з 50 мільйонів юанів у 2022 році до 1,82 мільярда юанів у 2024 році.Це підтверджує, що потужності постачання вітчипів обчислювальної потужності продовжують зростати, а процес локалізації ланцюга постачання прискорюється.
Попередження про ризики та застереження
Ринок ризикований, і інвестиції мають бути обережними. Ця стаття не є особистою інвестиційною консультацією і не враховує конкретні інвестиційні цілі, фінансову ситуацію чи потреби окремих користувачів. Користувачам слід врахувати, чи відповідають будь-які думки, думки чи висновки, викладені в цій статті, їхнім конкретним обставинам. Інвестуйте відповідно на власний ризик.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
За кулісами "таємничого чіпа" NVIDIA — ера дедукції відкриває "чотири нові тенденції у обчислювальній потужності"
Nvidia інтегрує технологію LPU (language processing unit) та багатолінійний чип для виведення ставок від OpenAI, а також переносить основне поле бою конкуренції обчислювальної потужності ШІ з навчання на інференцію. Дослідження Шеньвань Хун’юаня вважають, щоКлючовим словом індустрії обчислювальної енергетики у 2026 році буде міркування, і загальне споживання токенів та технічна парадигма будуть глибоко перебудовані навколо цієї теми.
28 лютого, за даними Wall Street Journal, Nvidia планує випустити новий інференційний чип, який інтегрує технологію «мовного процесора» (LPU) Groq на конференції розробників GTC наступного місяця.Генеральний директор Nvidia Дженсен Хуанг назвав її абсолютно новою системою, «якої світ ще не бачив».。 OpenAI погодилася стати одним із найбільших клієнтів процесора та придбати у Nvidia масштабні «спеціалізовані інференційні потужності».
Тим часом минулого місяця OpenAI уклала багатомільярдне партнерство у сфері обчислень зі стартапом Cerebras, який заявив, що їхні інференційні чипи перевершили графічні процесори Nvidia (графічні процесори). Ця низка тенденцій показує, щоГіганти штучного інтелекту переходять від гонки озброєнь до багатолінійної схеми обчислювальної потужності для виведення.
У звіті Шеньвань Хун’юань зазначалося,В епоху токенової економіки потужність інференційних обчислювальних потужностей відкриває чотири основні тенденціїПо-перше, кількість сценаріїв розгортання чисто CPU (центрального процесорного блоку) збільшилася, а попит на недорогі інференції прискорив зниження обчислювальної потужності; по-друге, зростання спеціалізованих архітектур, таких як LPU, що кидає виклик домінуванню GPU у процесі виведення; По-третє, вітчипах обчислювальної потужності прискорили прориви, і тенденція диверсифікації ланцюгів постачання очевидна; По-четверте, структура попиту на виведення обчислювальної потужності змінилася з «єдиного навчання» на «масове споживання токенів», а ефективність витрат стала ключовим конкурентним фактором.
У звіті йшлося,Виробники, які можуть надати достатню та економічно вигідну інференцію, отримають найбільшу вигоду, а спільний прорив процесорів, LPU та вітчизняних чипів є основними підказками цього етапу змін схем обчислювальної потужності.
Попит на виведення вибухнув, а споживання токенів досягло рекордного рівня
Дослідження Шеньвань Хун’юаня вважають, щоЗа безперервним зростанням попиту стоять дві структурні рушійні сили: по-перше, монетизація великих моделей прискорилася, і такі моделі, як Claude, почали залучатися до сфери застосування та випускати різноманітні галузеві плагіни;По-друге, реалізація агентів була прискорена, і такі продукти, як openclaw і Qianwen Agent, позначають те, що агенти входять у реальні робочі та виробничі сценарії, і кожен виклик моделі та виконання завдань агента потребують значної підтримки обчислювальної потужності виведення.
За даними, наведеними дослідженням Shenwan Hongyuan Research, обсяг виведення провідних вітчизняних великих моделей значно зріс під час Весняного фестивалю: пропускна здатність Doubao у новорічну ніч досягла 63,3 мільярда токенів, щомісячна активна кількість користувачів Yuanbao — 114 мільйонів, а кількість учасників активності Qianwen «Spring Festival Free Order» перевищила 120 мільйонів.
Дані від OpenRouter, глобальної платформи агрегації API моделей ШІ, ще раз підкреслюють масштаб цієї тенденції. За тиждень з 9 по 15 лютого китайська модель вперше перевершила американську модель у 2,94 трильйона токенів, набравши 4,12 трильйона токенів; у тиждень з 16 по 22 лютого кількість китайських модельних дзвінків ще більше зросла до 5,16 трильйона токенів, що на 127% більше за три тижні, а Китай зайняв чотири з п’яти провідних моделей світу.
LPU став новачком, і навчальні та інференційні чипи диференційовані
Nvidia витратила 20 мільярдів доларів на ліцензування основної технології Groq і залучила виконавчу команду, включно з засновником Джонатаном Россом, у рамках угоди про «найм ядра». Дослідження Шеньвань Хун’юаня вважають, щоЦя угода офіційно визнає важливість фішок чистого розуму провідними гравцями.
**Архітектурна різниця між LPU та традиційними GPU є фундаментальною причиною, чому вони мають переваги в ефективності у сценаріях виведення.**Інференція ШІ поділяється на два етапи: попереднє заповнення та декодування, а процес декодування великих моделей особливо повільний, тоді як LPU спеціально оптимізований для двох основних вузьких місць виведення — затримки та пропускної здатності пам’яті. За попередніми повідомленнями Wall Street News, майбутні нові продукти Nvidia можуть включати архітектуру наступного покоління Feynman, або впроваджувати ширшу схему інтеграції SRAM, або навіть глибоко інтегрувати LPU через технологію 3D-стекування.
Shenwan Hongyuan Research оцінює, що в майбутньому чіпи на базі ШІ сформуватимуть чітку модель технічного підрозділу:Навчальна частина продовжує використовувати комбінацію GPU-HBM, тоді як інференція розвивається у схему комбінації ASIC+LPU-SRAM+SSD. Оскільки попит на обчислювальну потужність переходить від навчання до інференції, виробники, зосереджуючись на інференційних чипах, відкриватимуть можливості для розробки.
Система виведення була комплексно вдосконалена, а вимоги до процесора та мережі одночасно зросли
Від одного чипа до рівня системи інновації є ще одним важливим виміром цього етапу підвищення обчислювальної потужності з інференцією. Shenwan Hongyuan Research зазначила, що зі зміною сценарію застосування з чат-бота на агента,Вимоги до затримки, пропускної здатності та глибини мислення в обчислювальних системах зросли одночасно, сприяючи розвитку архітектури системи до мереж рівня 3.
Перший шар — це шар швидкої реакції, забезпечений чистим інференційним чипом, оснащеним SRAM для наднизької затримки зворотного зв’язку;Другий рівень — це рівень повільного мислення, використовуючи кластери обчислювальної потужності надвеликої пропускної здатності для обробки складного логічного виведення, попит на багатоядерні та багатопотокові процесори на цьому рівні значно зросте;Третій шар — це шар пам’яті, що відповідає системі ContextMemory System, випущеній NVIDIA, довготривалій пам’яті та кешу KV SSD-накопичувачів, керованих DPU Bluefield4.
Nvidia також коригує свою стратегію на апаратному рівні. Попередня стандартна практика об’єднання процесорів Vera з GPU Rubin виявилася надто дорогою для конкретних навантажень агентів ШІ. Nvidia оголосила цього місяця, що розширила партнерство з Meta Platforms, щоб завершити своє перше масштабне впровадження чистого процесора для підтримки AI-агентів Meta, орієнтованих на рекламу, що свідчить про те, що компанія виходить за межі моделі продажу одного GPU.
Прориви у вітчизняній обчислювальній потужності прискорилися
Дослідження Шеньвань Хун’юаня вважають, щоТехнологічне оновлення домашніх інференційних чипів заслуговує на нього увагу., і ринкові очікування погані.
На технічному рівні,Нове покоління вітчипів інференції досягло низки фундаментальних покращень: Додано підтримку низькоточних форматів даних, таких як FP8/MXFP8/MXFP4, з обчислювальною потужністю відповідно 1P і 2P. Значно підвищити векторну обчислювальну потужність і впровадити нову ізоморфну конструкцію, що підтримує моделі подвійного програмування SIMD/SIMT. Пропускна здатність міжз’єднання у 2,5 раза більша, ніж у попереднього покоління, досягаючи 2 ТБ/с.
Особливо варто відзначити, що розділення PD досягається на рівні чипа: за допомогою самостійно розробленої HBM з двома різними специфікаціями вона є PR-версією для сценаріїв попереднього заповнення та рекомендацій, а також DT-версією для декодування та навчальних сценаріїв. Серед них версія PR використовує недорогий HBM, що може суттєво знизити інвестиційні витрати на етап попереднього заповнення інференції, і очікується запуск у першому кварталі 2026 року.
На рівні ланцюга постачання прогрес вітчизняних виробників пакування та тестування є доказом. Згідно з першим раундом запиту та відповіді провідної компанії з пакування та тестування, доходи бізнесу з упаковки 2.5D переважно надходять від високопродуктивних сервісів упаковки обчислювальних чипів, які швидко зросли з 50 мільйонів юанів у 2022 році до 1,82 мільярда юанів у 2024 році.Це підтверджує, що потужності постачання вітчипів обчислювальної потужності продовжують зростати, а процес локалізації ланцюга постачання прискорюється.
Попередження про ризики та застереження