จาก Beating, Sapient Intelligence ได้เปิดซอร์ส HRM-Text ซึ่งเป็นโมเดลสร้างข้อความที่มีพารามิเตอร์ 1 พันล้านตัว โดยอิงจากสถาปัตยกรรม hierarchical reasoning model (HRM) ใช้เพียงโทเคนแบบมีโครงสร้าง 40 พันล้านโทเคน ก็เพียงพอสำหรับการฝึก 46 ชั่วโมง บนเซิร์ฟเวอร์ 2 เครื่องที่ติดตั้ง GPU H100 จำนวน 8 ตัวต่อเครื่อง โดยมีต้นทุนการคำนวณประมาณ 1,472 ดอลลาร์สำหรับเวอร์ชัน 1B และ 800 ดอลลาร์สำหรับเวอร์ชัน 0.6B ซึ่งคิดเป็นการลดการคำนวณสำหรับการพรีเทรนได้ 130–600 เท่า เมื่อเทียบกับโมเดลมาตรฐาน

ความล้ำหน้าด้านประสิทธิภาพมาจากการออกแบบแบบ recurrent ที่มีสองไทม์สเกล (dual-timescale) โดยมีโมดูล Transformer เร็วและช้าซึ่งสลับกันทำงานบนอินพุตชุดเดียวกัน และแลกเปลี่ยนข้อมูลผ่านการบวกสถานะ (state addition) นอกจากนี้ กรอบงานด้านวิศวกรรมทั้งหมด รวมถึงการดึงข้อมูลและการฝึกแบบกระจายด้วย PyTorch ก็ถูกเปิดซอร์สเช่นกัน

โปรดทราบว่าน้ำหนักที่ปล่อยออกมาเป็น unaligned สำหรับการพรีเทรนเท่านั้น โมเดลรองรับงานแบบ prefix completion ได้ แต่ไม่สามารถทำงานเป็นผู้ช่วยสนทนาได้

news.view.source

news.article.disclaimer

news.related.news

1 ชั่วโมง ที่แล้ว

รายงาน SHED ปี 2025 ของธนาคารกลางสหรัฐ: 25% ของแรงงานใช้ AI ขณะที่การใช้คริปโตเพิ่มขึ้นเป็น 10%

1 ชั่วโมง ที่แล้ว

SemiAnalysis ทดสอบ AI Agents: ใช้เวลาทำงาน 20 ชั่วโมง ต้นทุนแค่ $21.33 ส่วนผลตอบแทน (ROI) แตะ 93.8x

7 ชั่วโมง ที่แล้ว

Salesforce จะใช้ $300M ดอลลาร์สหรัฐกับโทเค็นของ Anthropic ในปี 2026 เพื่อการพัฒนาโค้ดด้วย AI

11 ชั่วโมง ที่แล้ว

GPT-5 ทำความแม่นยำได้ 62.7% ในเหตุขัดข้องระดับการใช้งานจริง แต่ยังต่ำกว่าเกณฑ์ฐานของผู้เชี่ยวชาญที่ 72.7%