بحسب Beating، قامت Sapient Intelligence بإتاحة برنامج مفتوح المصدر لنظام HRM-Text، وهو نموذج لتوليد النصوص يتضمن مليار معلمة. يعتمد ذلك على بنية نموذج الاستدلال الهرمي (HRM). وباستخدام 40 مليار رمز (token) مُهيكل فقط، يحتاج النموذج إلى 46 ساعة تدريب فحسب على خادميْن مزودين بـ 8 وحدات GPU من نوع H100، مع كلفة حوسبة تبلغ نحو 1,472 دولاراً لإصدار 1B و800 دولار لإصدار 0.6B؛ ويمثل ذلك خفضاً بمقدار 130–600 مرة في حوسبة ما قبل التدريب مقارنةً بالنماذج القياسية.
تأتي مكاسب الكفاءة من تصميم تراجعي ثنائي المقياس الزمني (dual-timescale) مع وحدات Transformer سريعة وبطيئة منفصلة تتناوبان عبر نفس المدخل وتتبَادل المعلومات عبر إضافة الحالة (state addition). كما تم إتاحة إطار هندسي كامل، بما في ذلك استخراج البيانات وتدريب PyTorch الموزع، كمصدر مفتوح. يُرجى ملاحظة أن الأوزان المُفرج عنها غير مُواءمة ومخصصة لما قبل التدريب فقط؛ إذ يدعم النموذج مهام إكمال البادئات، لكنه لا يمكنه العمل كمساعد محادثة.
أخبار ذات صلة