Menurut Beating, Sapient Intelligence telah merilis open-source HRM-Text, sebuah model generasi teks dengan 1 miliar parameter berbasis arsitektur hierarchical reasoning model (HRM). Dengan hanya 40 miliar token terstruktur, model ini membutuhkan waktu pelatihan 46 jam saja menggunakan dua server H100 berjumlah 8 GPU, dengan biaya komputasi sekitar $1.472 untuk versi 1B dan $800 untuk varian 0,6B; ini mewakili penurunan komputasi pra-pelatihan sebesar 130–600 kali dibanding model standar.
Peningkatan efisiensi berasal dari desain rekuren dual-timescale dengan modul Transformer cepat dan lambat yang terpisah, yang bergantian memproses input yang sama serta bertukar informasi melalui penambahan state. Kerangka kerja rekayasa lengkap, termasuk ekstraksi data dan pelatihan PyTorch terdistribusi, juga telah dirilis open-source. Perlu dicatat bahwa bobot yang dirilis hanya untuk pra-pelatihan yang tidak ter-alignment; model mendukung tugas prefix completion, tetapi tidak dapat berfungsi sebagai asisten percakapan.
Berita Terkait