ข้อความจาก Gate News วันที่ 22 เมษายน — นักศึกษาปริญญาเอกจากมหาวิทยาลัยพรินซ์ตันอย่าง Yifan Zhang เปิดเผยข้อมูลจำเพาะทางเทคนิคทั้งหมดของ DeepSeek V4 บน X หลังจากมีการนำเสนอแบบตัวอย่างเมื่อวันที่ 19 เมษายน โดย V4 มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และมีรุ่นที่มีน้ำหนักเบาอย่าง V4-Lite ที่มีพารามิเตอร์ 285 พันล้านตัว
โมเดลใช้กลไกความสนใจ DSA2 ซึ่งผสานความสนใจแบบ DSA รุ่นก่อนหน้าของ DeepSeek (DeepSeek Sparse Attention) จาก V3.2 และ NSA (Native Sparse Attention) ที่มี head embedding ขนาด 512 มิติ เข้ากับ Sparse Multi-Query Attention (MQA) และ Sliding Window Attention (SWA) ชั้น MoE (Mixture of Experts) มีผู้เชี่ยวชาญ 384 คน โดยมีผู้เชี่ยวชาญที่ถูกเปิดใช้งาน 6 คนต่อการส่งผ่านไปข้างหน้า และใช้ Fused MoE Mega-Kernel การเชื่อมต่อแบบ Residual ใช้สถาปัตยกรรม Hyper-Connections
มีการเปิดเผยรายละเอียดการฝึกอย่างที่ไม่เคยเปิดเผยมาก่อน ได้แก่การใช้ตัวเพิ่มประสิทธิภาพ Muon (applying Newton-Schulz orthogonalization to momentum updates) สำหรับการอัปเดตโมเมนตัม, หน้าต่างบริบทสำหรับการพรีเทรน 32K โทเค็น และ GRPO (Group Relative Policy Optimization) พร้อมการแก้ไขด้วย KL divergence ระหว่างการเรียนรู้แบบเสริมแรง หน้าต่างบริบทสุดท้ายขยายไปถึง 1 ล้านโทเค็น โมเดลเป็นแบบข้อความเท่านั้น
Zhang ไม่ได้ทำงานให้ DeepSeek และบริษัทไม่ได้ให้ความคิดเห็นอย่างเป็นทางการต่อข้อมูลที่ถูกเปิดเผย