ข้อความจาก Gate News วันที่ 22 เมษายน — นักศึกษาปริญญาเอกจากมหาวิทยาลัยพรินซ์ตันอย่าง Yifan Zhang เปิดเผยข้อมูลจำเพาะทางเทคนิคทั้งหมดของ DeepSeek V4 บน X หลังจากมีการนำเสนอแบบตัวอย่างเมื่อวันที่ 19 เมษายน โดย V4 มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และมีรุ่นที่มีน้ำหนักเบาอย่าง V4-Lite ที่มีพารามิเตอร์ 285 พันล้านตัว

โมเดลใช้กลไกความสนใจ DSA2 ซึ่งผสานความสนใจแบบ DSA รุ่นก่อนหน้าของ DeepSeek (DeepSeek Sparse Attention) จาก V3.2 และ NSA (Native Sparse Attention) ที่มี head embedding ขนาด 512 มิติ เข้ากับ Sparse Multi-Query Attention (MQA) และ Sliding Window Attention (SWA) ชั้น MoE (Mixture of Experts) มีผู้เชี่ยวชาญ 384 คน โดยมีผู้เชี่ยวชาญที่ถูกเปิดใช้งาน 6 คนต่อการส่งผ่านไปข้างหน้า และใช้ Fused MoE Mega-Kernel การเชื่อมต่อแบบ Residual ใช้สถาปัตยกรรม Hyper-Connections

มีการเปิดเผยรายละเอียดการฝึกอย่างที่ไม่เคยเปิดเผยมาก่อน ได้แก่การใช้ตัวเพิ่มประสิทธิภาพ Muon (applying Newton-Schulz orthogonalization to momentum updates) สำหรับการอัปเดตโมเมนตัม, หน้าต่างบริบทสำหรับการพรีเทรน 32K โทเค็น และ GRPO (Group Relative Policy Optimization) พร้อมการแก้ไขด้วย KL divergence ระหว่างการเรียนรู้แบบเสริมแรง หน้าต่างบริบทสุดท้ายขยายไปถึง 1 ล้านโทเค็น โมเดลเป็นแบบข้อความเท่านั้น

Zhang ไม่ได้ทำงานให้ DeepSeek และบริษัทไม่ได้ให้ความคิดเห็นอย่างเป็นทางการต่อข้อมูลที่ถูกเปิดเผย

news.view.source

news.article.disclaimer

news.related.news

04-22 11:23

Tencent และ Alibaba เจรจาการลงทุนใน DeepSeek โดยมูลค่าประเมินเกิน $200 พันล้าน

04-22 10:01

Vitalik: โซลูชันการเข้ารหัสหลังยุคควอนตัมมีความสมบูรณ์แล้ว; Ethereum ตั้งเป้าต้านทั้งภัยคุกคามจากควอนตัมและ AI

04-22 08:01

อาจารย์จาก Tsinghua ไต้ จี้เฟิง เปิดตัว Naive.ai และระดมทุน ~$300M ที่มูลค่า $800M

04-22 04:09

GPT-5.5 ปรากฏในตัวเลือก OpenAI Codex แต่ส่งข้อผิดพลาด 400 ปัจจุบันยังไม่พร้อมใช้งาน