ซีอีโอของ MiniMax Intelligence อย่าง Li Dahai ระบุในงานประชุม 2026 Beijing Zhiyuan Conference ว่า เทคโนโลยีเอเจนจำเป็นต้องมีแนวทางที่รอบคอบ แม้จะมีความก้าวหน้าอย่างรวดเร็ว โดยเมื่อพูดคุยกับ Pengpai News และสื่ออื่นๆ Li อธิบายว่า ความคาดหวังของสาธารณชนต่อเอเจนที่ให้ผลลัพธ์ปราศจากข้อผิดพลาด (zero-error) สูงเกินกว่าสิ่งที่เส้นพัฒนาทางเทคนิคในปัจจุบันจะส่งมอบได้ เนื่องจากเทคโนโลยียังต้องใช้เวลาเพื่อพัฒนาให้เติบโตเต็มที่ เขาระบุว่า 2025 คือปีแรกของเอเจน พร้อมคาดการณ์การเติบโตอย่างรุนแรงที่จะส่งผลกระทบอย่างลึกซึ้งต่อสังคมมนุษย์ แต่เขาย้ำถึงความจำเป็นในการประเมินอย่างนิ่งสงบต่อขีดความสามารถทางเทคนิคในปัจจุบันของสายงาน AI agent
Li Dahai ยอมรับว่าการผสานระหว่างโมเดลขนาดใหญ่และเทคโนโลยีเอเจนกำลังพัฒนาอย่างรวดเร็ว โดยบางสถานการณ์ได้เข้าสู่การใช้งานในโลกจริงแล้ว เมื่อพูดถึงข้อจำกัดของเอเจน Li กล่าวอย่างตรงไปตรงมาว่า: "ปัญหาเกิดขึ้นทุกที่" เขาขยายความว่า "วิวัฒนาการของเทคโนโลยีโมเดลและ Agent เร็วมาก" โดยอธิบายว่า "บางทีวันนี้งานบางส่วนมีอัตราความผิดพลาด 10% และเดือนหน้าอัตราความผิดพลาดลดลงเหลือ 1% — การพัฒนาอย่างรวดเร็วได้กลายเป็นกระแสหลัก"
Li Dahai ท้าทายโดยตรงความเชื่อที่แพร่หลายในอุตสาหกรรมที่ว่า "การทำโมเดลขนาดเล็กที่ดีต้องมาจากการกลั่น (distillation) จากโมเดลพื้นฐานขนาดใหญ่พิเศษ" โดยเรียกสิ่งนี้ว่า "ความเข้าใจผิดเชิงรับรู้" เขาอธิบายว่า: "เบื้องหลังการกลั่นมีสมมติฐานเฉพาะอย่างมาก นั่นคือ ตัววัตถุของการกลั่นเองต้องเป็นโมเดลที่ดี การกลั่นโดยแก่นแท้คือ: สำหรับบริษัทที่ไม่มีความสามารถในการพัฒนาโมเดลพื้นฐานของตนเอง แต่ต้องการทำให้แอปพลิเคชันไปถึงจุดใช้งานจริง พวกเขาจะยึดใช้โมเดลพื้นฐานขนาดเล็กที่มีอยู่แล้ว และได้ความสามารถสำหรับสถานการณ์เฉพาะผ่านการ fine-tuning ในกระบวนการนี้ พวกเขาอาจใช้โมเดลขนาดใหญ่อื่นๆ เพื่อสังเคราะห์ข้อมูล ทำให้โมเดลขนาดเล็กได้รับความสามารถที่สอดคล้องกัน" Li ระบุว่าสิ่งนี้คือกรอบแนวคิดสำหรับการฝึกโมเดลขนาดใหญ่ทั้งหมด ไม่ได้จำกัดเฉพาะโมเดลขนาดเล็กเท่านั้น
Li Dahai เปิดเผยว่า: "ตั้งแต่ปีนี้ เมื่อทั้งอุตสาหกรรมได้เปลี่ยนการอินเฟอเรนซ์ไปยังชิปภายในประเทศแล้ว เราก็ทยอยย้ายงานฝึกไปยังชิปภายในประเทศและคลัสเตอร์ในประเทศเช่นกัน" เขาชี้ให้เห็นทางเลือกแบบขนาน 2 แนวทางในการยกระดับระบบนิเวศพลังประมวลผลในประเทศ: แนวทางแรกคือการปรับปรุงแบบไล่จากล่างขึ้นบน (bottom-up refinement) โดยบริษัทโมเดลขนาดใหญ่จะค่อยๆ พัฒนาระบบนิเวศผ่านแนวปฏิบัติการฝึกของตนเอง "เหมือนการทำให้หินแผ่นเปียกทีละน้อย ซึ่งต้องใช้เวลา" อีกแนวทางคือการวางแผนจากบนลงล่าง (top-down planning) ซึ่งยกตัวอย่างจากความร่วมมือเชิงลึกของ MiniMax กับ Zhiyuan Research Institute ในระบบนิเวศซอฟต์แวร์ FlagOS โดยบริษัทโมเดลขนาดใหญ่และบริษัทชิปสร้างความร่วมมือเชิงลึกและเดินหน้าไปพร้อมกันภายใต้การวางแผน Li Yuxuan หัวหน้าฝ่าย AIInfra ของ MiniMax Intelligence ระบุว่า อินเฟอเรนซ์จริงๆ ต้องการความแม่นยำสูงกว่าการฝึก และเทคโนโลยีการสเกลโมเดลที่ MiniMax เสนอได้กลายเป็นความก้าวหน้าสำคัญ: ทำให้เกิดผลของการทำนายโมเดลขนาดใหญ่ด้วยโมเดลขนาดเล็กมากๆ พร้อมทำการประเมินเชิงลึกบนชิปในประเทศ จัดให้รายละเอียดการทดลองสอดคล้องกับผู้ผลิตต่างประเทศ และยืนยันว่าความแม่นยำในการฝึกนำไปใช้งานได้ MiniMax เปิดเผยว่าทำการฝึกแบบ quantization-aware ที่มีความกว้างบิตต่ำมากบนแพลตฟอร์มของ Huawei ได้ถึง 95% ของประสิทธิภาพของการฝึกแบบปกติ Li Dahai อธิบายว่า การสูญเสีย 5% มาจากภาระของ quantizer เอง และผ่านความร่วมมือเชิงลึกกับ Huawei ทำให้ภาระนี้ถูกปรับให้เหลือน้อยที่สุด
MiniMax Intelligence ประกาศว่า MiniCPM Small Cannon รุ่นที่ 5 เวอร์ชัน 1B ทำคะแนนได้ 17.9 ในการประเมินที่ได้รับการยอมรับอย่างเป็นทางการของ ArtificialAnalysis (AA) นักวิจัยจากชุมชนโอเพนซอร์สเทียบเคียงและพบว่า GPT-4o (จำนวนพารามิเตอร์ 200B) ซึ่งเปิดตัวในเดือนพฤษภาคม 2024 ได้ 18.3-18.6 ในการประเมินประเภทเดียวกัน โดยมีความต่างเพียง 0.4-0.7 คะแนนระหว่างทั้งสองโมเดล Li Dahai ระบุว่า: "ในปี 2024 เราคาดการณ์ว่าเมื่อสิ้นปี 2026 ระดับสติปัญญาของโมเดลฝั่งขอบ (edge models) จะไปถึงระดับ GPT-4 จากข้อมูลปัจจุบัน เป้าหมายนี้สำเร็จล่วงหน้ากำหนด"
ในช่วงสัปดาห์ "MiniMax Open Source Week" ที่ผ่านมา MiniMax Intelligence ได้เปิดตัวโมเดลขนาดใหญ่ออนไลน์สำหรับฝั่งขอบ 2 รุ่น ได้แก่ MiniCPM5-1B และ BitCPM-CANN MiniCPM5-1B ได้ยกระดับขีดจำกัดบนของความหนาแน่นด้านสติปัญญาของโมเดลอีกครั้ง: ด้วยสเกลพารามิเตอร์เพียง 1B มันแซงโมเดลทั้งหมดที่ต่ำกว่า 2B ในลีดเดอร์บอร์ด AA-Index ที่เป็นที่ยอมรับในระดับนานาชาติ เมื่อเทียบกับ Qwen3.5-2B ที่เปิดตัวมาก่อน 3 เดือน MiniCPM5-1B ไม่เพียงแต่ทำผลงานได้ดีกว่า แต่ยังลดพารามิเตอร์ลงครึ่งหนึ่งอีกด้วย
โมเดล MiniCPM5-1B ได้รับการ pre-train ด้วยเฟรมเวิร์กฝึก AI ที่ MiniMax Intelligence พัฒนาขึ้นเอง ForgeTrain ซึ่งเป็นเฟรมเวิร์ก pre-training ของ large model ระดับโปรดักชันแห่งแรกของโลกที่เขียนด้วย AI ทั้งหมด โดยไม่มีการมีส่วนร่วมของโปรแกรมเมอร์มนุษย์ การฝึกทำได้เร็วกว่า NVIDIA Megatron 10%
Li Dahai กล่าวอะไรเกี่ยวกับข้อจำกัดของเทคโนโลยีเอเจนในงาน 2026 Beijing Zhiyuan Conference?
Li Dahai ระบุว่า ความคาดหวังของสาธารณชนต่อเอเจนที่ปราศจากข้อผิดพลาด (zero-error) สูงเกินกว่าสิ่งที่เส้นพัฒนาทางเทคนิคในปัจจุบันจะส่งมอบได้ และเทคโนโลยียังต้องใช้เวลาเพื่อพัฒนาให้เติบโตเต็มที่ เขาอธิบายข้อจำกัดของเอเจนในปัจจุบันว่า "ปัญหาเกิดขึ้นทุกที่" แต่ย้ำว่าอัตราความผิดพลาดกำลังลดลงอย่างรวดเร็ว — จาก 10% เหลือ 1% ภายในเดือนเดียวในบางกรณี
ประสิทธิภาพของ MiniCPM-5 1B เทียบกับ GPT-4o บนบenchmark ของ ArtificialAnalysis เป็นอย่างไร?
MiniCPM-5 1B (พารามิเตอร์ 1B) ได้ 17.9 ในการประเมิน ArtificialAnalysis ขณะที่ GPT-4o (พารามิเตอร์ 200B เปิดตัวในเดือนพฤษภาคม 2024) ได้ 18.3-18.6 ในการประเมินเดียวกัน ทำให้ความต่างระหว่างทั้งสองโมเดลเหลือเพียง 0.4-0.7 คะแนน
ForgeTrain คืออะไร และเทียบกับ NVIDIA Megatron อย่างไร?
ForgeTrain คือเฟรมเวิร์กฝึก AI ที่ MiniMax Intelligence พัฒนาขึ้นเอง ซึ่งเป็นเฟรมเวิร์ก pre-training ของ large model ระดับโปรดักชันแห่งแรกของโลกที่เขียนด้วย AI ทั้งหมดและไม่มีการมีส่วนร่วมของโปรแกรมเมอร์มนุษย์ มันฝึกได้เร็วกว่า NVIDIA Megatron 10%
news.related.news
ซีอีโอไมโครซอฟต์: กำแพงเมือง AI คือการเรียนรู้แบบลูปปิด และองค์กรไม่สามารถมอบหมายการเรียนรู้ออกไปให้ผู้อื่นได้
ผู้บริหารสูงสุดของ SpaceX ออกมายืนยันว่า “การควบรวมกิจการของ Tesla” มีความเป็นไปได้ โดยมุ่งบูรณาการศูนย์ข้อมูลด้าน AI และธุรกิจชิปเข้าด้วยกัน
ผู้ร่วมก่อตั้ง Animoca อย่าง Siu กล่าวว่า ความคิดสร้างสรรค์จะเป็นทักษะที่เป็นที่ต้องการมากที่สุดในยุค AI
ChatGPT Pro มอบมูลค่า AI 14,000 ดอลลาร์ ในการทดสอบการสมัครใช้งาน Semianalysis
Ripple, MetaMask, Mastercard สร้างโครงสร้างพื้นฐานสำหรับการชำระเงินด้วย AI Agent