Sapient відкриває вихідний код моделі HRM-Text з 1 млрд параметрів; досягає вартості навчання $1,472 за 46 годин

За Beating, Sapient Intelligence оприлюднила з відкритим кодом HRM-Text — текстову генеративну модель із 1 мільярдом параметрів на основі архітектури своєї моделі ієрархічного міркування (HRM). Використовуючи лише 40 мільярдів структурованих токенів, модель потребує лише 46 годин навчання на двох серверах з 8 GPU H100, а вартість обчислень становить приблизно $1 472 для версії 1B і $800 для варіанта 0,6B; це дає скорочення попереднього навчання в 130–600 разів порівняно зі стандартними моделями.

Підвищення ефективності досягається завдяки двочастотному рекурентному дизайну з окремими швидкими та повільними модулями Transformer, які чергуються над тим самим входом і обмінюються інформацією через додавання станів. Повний інженерний фреймворк, включно з екстракцією даних і розподіленим навчанням PyTorch, також було відкрито. Зауважте, що оприлюднені ваги призначені лише для неузгодженого попереднього навчання; модель підтримує задачі з доповненням префіксів, але не може працювати як розмовний асистент.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів