ตาม Beating ทาง Nous Research ได้เปิดซอร์ส Lighthouse Attention ซึ่งเป็นกลไกการฝึกสำหรับบริบทข้อมูลยาว (long-context) ที่ทำความเร็วเพิ่มขึ้น 17 เท่า สำหรับการประมวลผลข้อความยาว 512K บน GPU B200 ตัวเดียว และเร่งความเร็วการฝึกแบบ end-to-end ได้ 1.4–1.7 เท่า เมื่อความยาว 98K เทคนิคนี้ใช้แนวทางแบบหยาบไปละเอียด (coarse-to-fine): เริ่มจากการสแกนสรุปที่ถูกบีบอัดในระดับต่าง ๆ เพื่อระบุส่วนหลัก จากนั้นจึงส่งข้อความที่คัดกรองแล้วไปให้ FlashAttention เพื่อประมวลผล ในการทดสอบกับโมเดลพารามิเตอร์ 5.3 พันล้านที่ฝึกบน 50 พันล้านโทเค็น แนวทางดังกล่าวไม่เพียงแต่ลดเวลาการฝึกเท่านั้น แต่ยังทำผลงานได้เทียบหรือสูงกว่าค่าพื้นฐานของการฝึกแบบใช้ความสนใจทั้งหมด (fully-attention-based training)
news.related.news
OpenAI เพิ่มการตรวจจับบทสนทนา “วิกฤต” ของ ChatGPT เพื่อยกระดับความสามารถในการเตือนความเสี่ยงความรุนแรงต่อตนเอง
Bittensor TAO พุ่งขึ้นเหนือ $300 ขณะที่ดีมานด์คริปโทที่เกี่ยวกับ AI เพิ่มสูงขึ้น
ผู้เชี่ยวชาญกล่าวว่า Zk Proofs มอบความได้เปรียบให้ DePIN ขณะที่ความต้องการความน่าเชื่อถือจาก AI เพิ่มสูงขึ้น