Nous Research เปิดซอร์ส Lighthouse Attention พร้อมความเร็วเพิ่มขึ้น 17 เท่า บน B200 สำหรับคอนเทนต์ 512K

ตาม Beating ทาง Nous Research ได้เปิดซอร์ส Lighthouse Attention ซึ่งเป็นกลไกการฝึกสำหรับบริบทข้อมูลยาว (long-context) ที่ทำความเร็วเพิ่มขึ้น 17 เท่า สำหรับการประมวลผลข้อความยาว 512K บน GPU B200 ตัวเดียว และเร่งความเร็วการฝึกแบบ end-to-end ได้ 1.4–1.7 เท่า เมื่อความยาว 98K เทคนิคนี้ใช้แนวทางแบบหยาบไปละเอียด (coarse-to-fine): เริ่มจากการสแกนสรุปที่ถูกบีบอัดในระดับต่าง ๆ เพื่อระบุส่วนหลัก จากนั้นจึงส่งข้อความที่คัดกรองแล้วไปให้ FlashAttention เพื่อประมวลผล ในการทดสอบกับโมเดลพารามิเตอร์ 5.3 พันล้านที่ฝึกบน 50 พันล้านโทเค็น แนวทางดังกล่าวไม่เพียงแต่ลดเวลาการฝึกเท่านั้น แต่ยังทำผลงานได้เทียบหรือสูงกว่าค่าพื้นฐานของการฝึกแบบใช้ความสนใจทั้งหมด (fully-attention-based training)

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น