จาก Beating, Sapient Intelligence ได้เปิดซอร์ส HRM-Text ซึ่งเป็นโมเดลสร้างข้อความที่มีพารามิเตอร์ 1 พันล้านตัว โดยอิงจากสถาปัตยกรรม hierarchical reasoning model (HRM) ใช้เพียงโทเคนแบบมีโครงสร้าง 40 พันล้านโทเคน ก็เพียงพอสำหรับการฝึก 46 ชั่วโมง บนเซิร์ฟเวอร์ 2 เครื่องที่ติดตั้ง GPU H100 จำนวน 8 ตัวต่อเครื่อง โดยมีต้นทุนการคำนวณประมาณ 1,472 ดอลลาร์สำหรับเวอร์ชัน 1B และ 800 ดอลลาร์สำหรับเวอร์ชัน 0.6B ซึ่งคิดเป็นการลดการคำนวณสำหรับการพรีเทรนได้ 130–600 เท่า เมื่อเทียบกับโมเดลมาตรฐาน
ความล้ำหน้าด้านประสิทธิภาพมาจากการออกแบบแบบ recurrent ที่มีสองไทม์สเกล (dual-timescale) โดยมีโมดูล Transformer เร็วและช้าซึ่งสลับกันทำงานบนอินพุตชุดเดียวกัน และแลกเปลี่ยนข้อมูลผ่านการบวกสถานะ (state addition) นอกจากนี้ กรอบงานด้านวิศวกรรมทั้งหมด รวมถึงการดึงข้อมูลและการฝึกแบบกระจายด้วย PyTorch ก็ถูกเปิดซอร์สเช่นกัน
โปรดทราบว่าน้ำหนักที่ปล่อยออกมาเป็น unaligned สำหรับการพรีเทรนเท่านั้น โมเดลรองรับงานแบบ prefix completion ได้ แต่ไม่สามารถทำงานเป็นผู้ช่วยสนทนาได้
news.related.news