Yifan Zhang เปิดเผย DeepSeek V4 แบบครบถ้วน: 1.6T พารามิเตอร์, 384 ผู้เชี่ยวชาญพร้อม 6 การทำงานต่อการเปิดใช้งาน

ข้อความจาก Gate News วันที่ 22 เมษายน — นักศึกษาปริญญาเอกจากมหาวิทยาลัยพรินซ์ตันอย่าง Yifan Zhang เปิดเผยข้อมูลจำเพาะทางเทคนิคทั้งหมดของ DeepSeek V4 บน X หลังจากมีการนำเสนอแบบตัวอย่างเมื่อวันที่ 19 เมษายน โดย V4 มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และมีรุ่นที่มีน้ำหนักเบาอย่าง V4-Lite ที่มีพารามิเตอร์ 285 พันล้านตัว

โมเดลใช้กลไกความสนใจ DSA2 ซึ่งผสานความสนใจแบบ DSA รุ่นก่อนหน้าของ DeepSeek (DeepSeek Sparse Attention) จาก V3.2 และ NSA (Native Sparse Attention) ที่มี head embedding ขนาด 512 มิติ เข้ากับ Sparse Multi-Query Attention (MQA) และ Sliding Window Attention (SWA) ชั้น MoE (Mixture of Experts) มีผู้เชี่ยวชาญ 384 คน โดยมีผู้เชี่ยวชาญที่ถูกเปิดใช้งาน 6 คนต่อการส่งผ่านไปข้างหน้า และใช้ Fused MoE Mega-Kernel การเชื่อมต่อแบบ Residual ใช้สถาปัตยกรรม Hyper-Connections

มีการเปิดเผยรายละเอียดการฝึกอย่างที่ไม่เคยเปิดเผยมาก่อน ได้แก่การใช้ตัวเพิ่มประสิทธิภาพ Muon (applying Newton-Schulz orthogonalization to momentum updates) สำหรับการอัปเดตโมเมนตัม, หน้าต่างบริบทสำหรับการพรีเทรน 32K โทเค็น และ GRPO (Group Relative Policy Optimization) พร้อมการแก้ไขด้วย KL divergence ระหว่างการเรียนรู้แบบเสริมแรง หน้าต่างบริบทสุดท้ายขยายไปถึง 1 ล้านโทเค็น โมเดลเป็นแบบข้อความเท่านั้น

Zhang ไม่ได้ทำงานให้ DeepSeek และบริษัทไม่ได้ให้ความคิดเห็นอย่างเป็นทางการต่อข้อมูลที่ถูกเปิดเผย

news.article.disclaimer

btc.bar.articles

นักการเมืองจากโคโลราโดเสนอร่างกฎหมาย AI ฉบับแทนที่เพื่อรับมือข้อกังวลของอุตสาหกรรม

สมาชิกรัฐสภาโคโลราโดกำลังดำเนินการเพื่อยกเลิกและแทนที่กฎหมายปัญญาประดิษฐ์ (AI) ของรัฐประจำปี 2024 อย่าง SB24-205 ด้วยกฎใหม่ที่ทำให้ขอบเขตการกำกับดูแล AI แคบลง ขณะเดียวกันก็จัดการกับความกังวลของภาคอุตสาหกรรมเกี่ยวกับภาระด้านการปฏิบัติตาม กฎหมายเสนอฉบับใหม่ SB26-189 จะกำกับดูแลระบบ AI ที่ถูกใช้ใน

CryptoFrontier3 ชั่วโมง ที่แล้ว

R0AR ก้าวสู่รอบชิงชนะเลิศของ Consensus 2026 PitchFest ก่อนจะพลาดท็อป 20 อย่างหวุดหวิด

ตามรายงานของ MetaversePost, R0AR ได้ผ่านเข้าสู่รอบคัดเลือกรอบสุดท้ายของ CoinDesk's Consensus 2026 PitchFest ในวันที่ 4 พฤษภาคม โดยพลาดโอกาสเข้ารอบท็อป 20 สตาร์ทอัปสำหรับการนำเสนอสดอย่างหวุดหวิด ผู้สร้างสรรค์นวัตกรรมด้าน Web3 และ AI รายนี้ถูกประเมินร่วมกับสตาร์ทอัปที่มีศักยภาพสูงทั่วโลกในหนึ่งในมุมมองของอุตสาหกรรมที่

GateNews6 ชั่วโมง ที่แล้ว

มัสก์เรียกร้องข้อตกลงมูลค่า 150 พันล้านดอลลาร์จาก OpenAI ก่อนการพิจารณาคดี ขณะที่การเจรจาข้อตกลงล้มเหลว

ตามเอกสารยื่นต่อศาล อีลอน มัสก์ ติดต่อเกร็ก บร็อคแมน ประธานของ OpenAI เมื่อวันที่ 26 เมษายน ซึ่งเป็นเวลาสองวันก่อนที่การพิจารณาคดีของทั้งคู่จะเริ่มขึ้นในศาลรัฐบาลกลางเขตโอ๊คแลนด์ เพื่อหารือเรื่องการยุติข้อพิพาท เมื่อบร็อคแมนเสนอให้ทั้งสองฝ่ายยกเลิกคำกล่าวอ้างของตน มัสก์ตอบกลับด้วยคำข่มขู่ โดยบอกบร็อคแมนว่า: "ภายในสิ้น

GateNews6 ชั่วโมง ที่แล้ว

Cursor ยอมรับข้อเสนอซื้อกิจการของ SpaceX มูลค่า 60 พันล้านดอลลาร์ แต่ไม่จับมือกับ xAI สำหรับโมเดลการเขียนโค้ด

ตามรายงานของ The Information, Cursor ได้ตอบรับข้อเสนอซื้อกิจการแบบมีเงื่อนไขมูลค่า 60 พันล้านดอลลาร์จาก SpaceX แล้ว แม้ว่าดีลยังไม่ได้ข้อสรุปในตอนนี้ บริษัทในขณะนี้ยังไม่มีแผนที่จะร่วมมือกับหน่วย AI ของ SpaceX อย่าง xAI ในการพัฒนาโมเดลด้านการเขียนโค้ด โดยแทนที่จะเป็นเช่นนั้น Cursor กำลังมุ่งเน้นไปที่การปรับปรุงประสิทธิภาพของมัน

GateNews7 ชั่วโมง ที่แล้ว

Haun Ventures ปิดกองทุนมูลค่า 1 พันล้านดอลลาร์ในวันที่ 4 พฤษภาคม โดยแบ่งเงินลงทุนระหว่างกลุ่มคริปโตก่อนเข้าสู่ตลาดและระยะหลังของการลงทุน

ตามรายงานของ Bloomberg Haun Ventures ได้ปิดดีลระดมทุน 1 พันล้านดอลลาร์สหรัฐ เมื่อวันที่ 4 พฤษภาคม โดยจัดสรร 500 ล้านดอลลาร์สหรัฐ สำหรับการลงทุนระยะเริ่มต้น และ 500 ล้านดอลลาร์สหรัฐ สำหรับการลงทุนระยะปลาย กองทุนจะนำเงินไปลงทุนในอีก 2 ถึง 3 ปีข้างหน้า โดยมุ่งเป้าไปที่สตาร์ทอัพด้านสกุลเงินดิจิทัลและบล็อกเชน ขณะเดียวกันจะขยาย

GateNews7 ชั่วโมง ที่แล้ว

OpenAI ระดมทุน $4 พันล้านดอลลาร์สำหรับบริษัทร่วมทุนด้านการปรับใช้ มูลค่า 10 พันล้านดอลลาร์

ตามรายงานของ BlockBeats เมื่อวันที่ 4 พฤษภาคม OpenAI ระดมทุนได้มากกว่า $4 พันล้านดอลลาร์ เพื่อจัดตั้งบริษัทร่วมทุนแห่งใหม่ โดยมุ่งเน้นการช่วยเหลือองค์กรต่างๆ ในการนำซอฟต์แวร์ปัญญาประดิษฐ์ของบริษัทไปปรับใช้ การร่วมทุนดังกล่าวมีชื่อว่า The Deployment Company และได้รับการสนับสนุนจากนักลงทุน 19 ราย รวมถึง TPG Inc., Brookfield Asset Management,

GateNews8 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น