За Beating, Sapient Intelligence оприлюднила з відкритим кодом HRM-Text — текстову генеративну модель із 1 мільярдом параметрів на основі архітектури своєї моделі ієрархічного міркування (HRM). Використовуючи лише 40 мільярдів структурованих токенів, модель потребує лише 46 годин навчання на двох серверах з 8 GPU H100, а вартість обчислень становить приблизно $1 472 для версії 1B і $800 для варіанта 0,6B; це дає скорочення попереднього навчання в 130–600 разів порівняно зі стандартними моделями.

Підвищення ефективності досягається завдяки двочастотному рекурентному дизайну з окремими швидкими та повільними модулями Transformer, які чергуються над тим самим входом і обмінюються інформацією через додавання станів. Повний інженерний фреймворк, включно з екстракцією даних і розподіленим навчанням PyTorch, також було відкрито. Зауважте, що оприлюднені ваги призначені лише для неузгодженого попереднього навчання; модель підтримує задачі з доповненням префіксів, але не може працювати як розмовний асистент.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-19 06:46

Звіт SHED Федеральної резервної системи за 2025 рік: 25% працівників використовують ШІ, використання криптовалют зростає до 10%

05-19 06:45

SemiAnalysis тестує AI-агенти: 20 годин роботи коштують лише $21,33, окупність сягає 93,8x

05-19 00:42

Salesforce витратить $300M на токени Anthropic у 2026 році для розробки AI-кодування

05-18 21:11

GPT-5 досяг 62,7% точності на інцидентах у продакшені, але не дотягує до 72,7% експертного базового рівня

05-18 02:55

Моделі ШІ Китаю генерують на 1,81x більше викликів, ніж у США; попередній перегляд Tencent Hy3 зростає на 210% і лідирує

Поглиблений аналіз