Sapient Membuka Sumber Model HRM-Text Berparameter 1 miliar; Mencapai Biaya Pelatihan $1.472 dalam 46 Jam

Menurut Beating, Sapient Intelligence telah merilis open-source HRM-Text, sebuah model generasi teks dengan 1 miliar parameter berbasis arsitektur hierarchical reasoning model (HRM). Dengan hanya 40 miliar token terstruktur, model ini membutuhkan waktu pelatihan 46 jam saja menggunakan dua server H100 berjumlah 8 GPU, dengan biaya komputasi sekitar $1.472 untuk versi 1B dan $800 untuk varian 0,6B; ini mewakili penurunan komputasi pra-pelatihan sebesar 130–600 kali dibanding model standar.

Peningkatan efisiensi berasal dari desain rekuren dual-timescale dengan modul Transformer cepat dan lambat yang terpisah, yang bergantian memproses input yang sama serta bertukar informasi melalui penambahan state. Kerangka kerja rekayasa lengkap, termasuk ekstraksi data dan pelatihan PyTorch terdistribusi, juga telah dirilis open-source. Perlu dicatat bahwa bobot yang dirilis hanya untuk pra-pelatihan yang tidak ter-alignment; model mendukung tugas prefix completion, tetapi tidak dapat berfungsi sebagai asisten percakapan.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar