За Beating, Sapient Intelligence оприлюднила з відкритим кодом HRM-Text — текстову генеративну модель із 1 мільярдом параметрів на основі архітектури своєї моделі ієрархічного міркування (HRM). Використовуючи лише 40 мільярдів структурованих токенів, модель потребує лише 46 годин навчання на двох серверах з 8 GPU H100, а вартість обчислень становить приблизно $1 472 для версії 1B і $800 для варіанта 0,6B; це дає скорочення попереднього навчання в 130–600 разів порівняно зі стандартними моделями.
Підвищення ефективності досягається завдяки двочастотному рекурентному дизайну з окремими швидкими та повільними модулями Transformer, які чергуються над тим самим входом і обмінюються інформацією через додавання станів. Повний інженерний фреймворк, включно з екстракцією даних і розподіленим навчанням PyTorch, також було відкрито. Зауважте, що оприлюднені ваги призначені лише для неузгодженого попереднього навчання; модель підтримує задачі з доповненням префіксів, але не може працювати як розмовний асистент.
Пов’язані новини