Sapient เผยแพร่โค้ดโอเพนซอร์สโมเดล HRM-Text ขนาด 1B พารามิเตอร์; ทำต้นทุนการฝึก $1,472 ใน 46 ชั่วโมง

จาก Beating, Sapient Intelligence ได้เปิดซอร์ส HRM-Text ซึ่งเป็นโมเดลสร้างข้อความที่มีพารามิเตอร์ 1 พันล้านตัว โดยอิงจากสถาปัตยกรรม hierarchical reasoning model (HRM) ใช้เพียงโทเคนแบบมีโครงสร้าง 40 พันล้านโทเคน ก็เพียงพอสำหรับการฝึก 46 ชั่วโมง บนเซิร์ฟเวอร์ 2 เครื่องที่ติดตั้ง GPU H100 จำนวน 8 ตัวต่อเครื่อง โดยมีต้นทุนการคำนวณประมาณ 1,472 ดอลลาร์สำหรับเวอร์ชัน 1B และ 800 ดอลลาร์สำหรับเวอร์ชัน 0.6B ซึ่งคิดเป็นการลดการคำนวณสำหรับการพรีเทรนได้ 130–600 เท่า เมื่อเทียบกับโมเดลมาตรฐาน

ความล้ำหน้าด้านประสิทธิภาพมาจากการออกแบบแบบ recurrent ที่มีสองไทม์สเกล (dual-timescale) โดยมีโมดูล Transformer เร็วและช้าซึ่งสลับกันทำงานบนอินพุตชุดเดียวกัน และแลกเปลี่ยนข้อมูลผ่านการบวกสถานะ (state addition) นอกจากนี้ กรอบงานด้านวิศวกรรมทั้งหมด รวมถึงการดึงข้อมูลและการฝึกแบบกระจายด้วย PyTorch ก็ถูกเปิดซอร์สเช่นกัน

โปรดทราบว่าน้ำหนักที่ปล่อยออกมาเป็น unaligned สำหรับการพรีเทรนเท่านั้น โมเดลรองรับงานแบบ prefix completion ได้ แต่ไม่สามารถทำงานเป็นผู้ช่วยสนทนาได้

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น