Tilde Research พบว่า Muon Optimizer ทำให้เซลล์ประสาทตาย 25%; Aurora Alternative ให้ประสิทธิภาพการใช้ข้อมูลเพิ่มขึ้น 100 เท่า

ตามรายงานของ Tilde Research ตัวเพิ่มประสิทธิภาพ (optimizer) Muon ที่นำมาใช้โดยโมเดล AI ชั้นนำ รวมถึง DeepSeek V4 และ Kimi K2.5 มีข้อบกพร่องแอบแฝง: ทำให้เซลล์ประสาท (neurons) ในเลเยอร์ MLP มากกว่า 25% ตายถาวรในช่วงการฝึกระยะเริ่มต้น ทีมได้ออกแบบ Aurora ซึ่งเป็น optimizer ทางเลือก และเผยแพร่เป็นโอเพนซอร์ส โมเดลพารามิเตอร์ 1.1B ที่ฝึกด้วยเพียง 100B tokens ให้ผลเทียบเท่ากับ Qwen3-1.7B ที่ฝึกบน 36T tokens ในเกณฑ์ทดสอบความเข้าใจภาษาอย่าง HellaSwag และ Winogrande แสดงให้เห็นการปรับปรุงประสิทธิภาพด้านข้อมูลราว 100 เท่า Aurora เพิ่มภาระการคำนวณ 6% เมื่อเทียบกับ Muon และสามารถใช้ทดแทนโดยตรงได้

news.article.disclaimer

btc.bar.articles

ศึก Anthropic Code Mode กับ MCP Vs CLI: เครื่องมือคุม Runtime และลด tokens จาก 150K เหลือ 2K

ตลอดทั้งปี 2025 ชุมชนวิศวกรรม AI ถกเถียงไม่จบในประเด็นว่า “MCP vs CLI” แบบไหนเหมาะกับการเรียกใช้งานเครื่องมือของ Agent มากกว่าจนกระทั่งงานวิจัยของ Anthropic ที่ตีพิมพ์ในเดือนพฤศจิกายน 2025 เรื่อง “Code execution with MCP” ได้กำหนดนิยามปัญหาขึ้นใหม่จากหลักการพื้นฐานที่สุด akshay\pachaar 5/10 สรุปไว้ใน thread ว่า ปัญหาไม่ได้อยู่ที่ “ตัวโปรโตคอล” เอง แต่คือ “นิสัยเก่าๆ ที่ยัดคำอธิบายเครื่องมือทั้งหมดเข้าไปใน context ตั้งแต่เริ่ม session” โดยวิธีของ Anthropic คือให้โมเดลเขียนโค้ดเพื่อเรียกเครื่องมือ

ChainNewsAbmedia23 นาที ที่แล้ว

ByteDance วางแผนเพิ่มงบลงทุนโครงสร้างพื้นฐานด้าน AI 25% เป็น 200 พันล้านหยวนในปีนี้

อ้างอิงจาก ChainCatcher โดยอ้างถึง Golden Data ระบุว่า ByteDance วางแผนเพิ่มงบลงทุนโครงสร้างพื้นฐานด้าน AI 25% เป็น 200 พันล้านหยวนในปีนี้ โดยได้รับแรงหนุนจากต้นทุนชิปหน่วยความจำที่สูงขึ้นและการพัฒนาเทคโนโลยีปัญญาประดิษฐ์ที่เร่งตัวขึ้น

GateNews1 ชั่วโมง ที่แล้ว

แพลตฟอร์ม AI ระดับองค์กรปิดรอบระดมทุนซีรีส์ $16M โดยมี a16z เป็นผู้นำ

ตามรายงานของ Odaily แพลตฟอร์ม AI ระดับองค์กร Pit ประกาศการปิดรอบระดมทุนมูลค่า 16 ล้านดอลลาร์ โดยมี a16z เป็นผู้นำ และได้รับการมีส่วนร่วมจาก Lakestar รวมถึงผู้บริหารจาก OpenAI, Anthropic, Google, Deel และ Revolut Pit วางตัวเองเป็น "AI product team as a service" โดยมีเป้าหมายเพื่อทดแทนสเปรดชีตแบบเดิมและระบบ SaaS ที่แข็งตัว

GateNews1 ชั่วโมง ที่แล้ว

Google ทดลองการสอบคัดเลือกที่เปิดโอกาสให้วิศวกรใช้เครื่องมือ AI

ตามรายงานของ The Chosun Daily กูเกิลกำลังทดลองใช้การสอบคัดเลือกงานที่อนุญาตให้ผู้สมัครวิศวกรซอฟต์แวร์ชาวสหรัฐใช้เครื่องมือ AI ได้ในตำแหน่งงานระดับเริ่มต้นและระดับกลางที่คัดเลือกมา แบบทดสอบนี้รวมถึงงานด้านความเข้าใจโค้ด โดยให้ผู้สมัครตรวจสอบโค้ดที่มีอยู่ แก้ไขบั๊ก และปรับปรุงประสิทธิภาพ ผู้สัมภาษณ์จะประเมินว่าผู้สมัคร “พรอมป์” ให้ AI อย่างไร ตรวจสอบผลลัพธ์ที่ได้ แก้ไขผลลัพธ์ และดีบักโค้ด โดยไม่ใช่ประเมินเพียงความสามารถในการเขียนโค้ดตั้งแต่เริ่มต้นเท่านั้น

GateNews3 ชั่วโมง ที่แล้ว

OpenAI ยุติ API การปรับแต่งโมเดล (Fine-tuning) ตั้งแต่มีผลทันที ผู้ใช้งานเดิมยังเข้าถึงได้จนถึงวันที่ 6 มกราคม 2027

ตามประกาศอย่างเป็นทางการของ OpenAI ที่ Beating เฝ้าติดตาม บริษัทจะยุติการให้บริการ Fine-tuning API แบบให้ผู้พัฒนาดำเนินการเอง (self-serve) ตั้งแต่ทันที ผู้ใช้รายใหม่ไม่สามารถสร้างงาน Fine-tuning ได้อีก ขณะที่ผู้ใช้งานที่ใช้งานอยู่แล้วสามารถเข้าถึงบริการได้จนถึงวันที่ 6 มกราคม 2027 โมเดลที่ถูก Fine-tuning แล้วจะมีบริการการอินเฟอเรนซ์ผูกกับวงจรชีวิตของโมเดลพื้นฐาน และจะยุติเมื่อโมเดลพื้นฐานถูกปลดออก OpenAI ระบุว่าโมเดลพื้นฐานรุ่นใหม่ เช่น GPT-5.5 ตอนนี้มีพลังเพียงพอในการปฏิบัติตามคำสั่งและรูปแบบ (

GateNews3 ชั่วโมง ที่แล้ว

Sakana AI และ Nvidia ทำได้เร็วกว่าการอินเฟอเรนซ์ H100 ถึง 30% ด้วยการข้ามการคำนวณที่ไม่ถูกต้อง 80%

Sakana AI และ Nvidia ได้เปิดซอร์ส TwELL ซึ่งเป็นรูปแบบข้อมูลแบบเบาบางที่ช่วยให้ GPU H100 ข้ามการคำนวณที่ไม่ถูกต้องไปถึง 80% ในโมเดลภาษาขนาดใหญ่โดยไม่ลดทอนความแม่นยำ โซลูชันนี้ช่วยให้การอนุมานเร็วขึ้นได้ถึง 30% และการฝึกเร็วขึ้น 24% บน H100 พร้อมทั้งลดการใช้หน่วยความจำสูงสุด ระหว่างการทดสอบกับโมเดลพารามิเตอร์ 1.5 พันล้าน วิธีดังกล่าวทำให้จำนวนประสาทที่ทำงานอยู่ลดลงต่ำกว่า 2% ด้วยการทำให้สม่ำเสมอแบบเบา (lightweight regularization) ระหว่างการฝึก โดยไม่พบการเสื่อมของประสิทธิภาพในงานปลายน้ำ 7 งาน

GateNews4 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น