DeepSeek เปิดตัว V4 เวอร์ชันตัวอย่างแบบโอเพนซอร์ส โดยได้คะแนนด้านเทคนิค 3206 ซึ่งเหนือกว่า GPT-5.4

MarketWhisper

DeepSeek V4開源預覽版

DeepSeek เมื่อวันที่ 24 เมษายน ได้เปิดตัวชุดตัวอย่าง V4 อย่างเป็นทางการ ภายใต้สัญญาอนุญาต MIT ที่เปิดซอร์ส โดยน้ำหนักของโมเดลได้ถูกอัปโหลดขึ้นใช้งานบน Hugging Face และ ModelScope แล้ว ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro-Max (โหมดความสามารถในการอนุมานสูงสุด) ได้ 3206 คะแนนบนเกณฑ์มาตรฐาน Codeforces โดยทำได้ดีกว่า GPT-5.4

สเปกสถาปัตยกรรมของโมเดล MoE 2 แบบ

ตามรายงานทางเทคนิคของ DeepSeek V4 ชุด V4 ประกอบด้วยโมเดลแบบผสมผู้เชี่ยวชาญ (MoE) จำนวน 2 รุ่น:

V4-Pro: พารามิเตอร์รวม 1.6T ต่อ 1 โทเค็นเปิดใช้งาน 49B รองรับบริบท 1M token

V4-Flash: พารามิเตอร์รวม 284B ต่อ 1 โทเค็นเปิดใช้งาน 13B รองรับบริบท 1M token เช่นกัน

ตามรายงานทางเทคนิค ภายใต้บริบท 1M การอนุมาน FLOPs ต่อ 1 โทเค็นของ V4-Pro มีเพียง 27% ของ V3.2 และ KV cache ลดลงเหลือ 10% ของ V3.2 ซึ่งส่วนใหญ่เกิดจากการอัปเกรดสถาปัตยกรรมของกลไก attention แบบผสม (การบีบอัดความสนใจแบบพร่าบาง CSA + การบีบอัดความสนใจอย่างหนัก HCA) ขนาดข้อมูลสำหรับการพรีเทรนมีมากกว่า 32T token; ตัวอัปเดตของตัวเพิ่มประสิทธิภาพ (optimizer) เปลี่ยนเป็น Muon

แนวทางหลังการฝึกอบรม: การสตรีมไลน์การสอนแบบออนไลน์ (online) เพื่อแทนที่การเสริมแรงแบบผสม

ตามรายงานทางเทคนิคของ DeepSeek V4 การอัปเดตหลักของการฝึกหลังการฝึก (post-training) ของ V4 อยู่ที่การแทนที่ขั้นตอนการผสมการเรียนรู้แบบเสริมแรง (mixed RL) ของ V3.2 อย่างสิ้นเชิงด้วยการสอนแบบออน-พอลิซี่สตรีม (On-Policy Distillation, OPD) กระบวนการใหม่แบ่งเป็น 2 ขั้นตอน: ขั้นแรก ฝึกผู้เชี่ยวชาญรายโดเมนแยกกันสำหรับสาขาต่างๆ เช่น คณิตศาสตร์ โค้ด Agent และการติดตามคำสั่ง ฯลฯ (SFT + GRPO การเรียนรู้แบบเสริมแรง); จากนั้น ใช้ OPD จากครูหลายคน (multi-teacher) เพื่อกลั่นความสามารถของผู้เชี่ยวชาญมากกว่า 10 คนให้เป็นโมเดลเดียว โดยใช้การจัดแนวด้วย logit เพื่อหลีกเลี่ยงความขัดแย้งของความสามารถที่พบบ่อยในวิธีการแบบดั้งเดิม

รายงานยังได้แนะนำโมเดลรางวัลแบบสร้าง (Generative Reward Model, GRM) เพื่อจัดการงานที่ยากต่อการตรวจสอบด้วยกฎ โดยใช้ข้อมูลการติดฉลากจากมนุษย์ที่มีจำนวนเล็กน้อยและหลากหลายในการฝึก เพื่อให้โมเดลสามารถรับทั้งบทบาทในการสร้างและการประเมิน

ผลการทดสอบมาตรฐาน: การเขียนโค้ดนำหน้า แต่การคิดเชิงความรู้ยังมีช่องว่าง

ตามรายงานทางเทคนิคของ DeepSeek V4 ผลการเปรียบเทียบของ V4-Pro-Max กับ Opus 4.6 Max, GPT-5.4 xHigh และ Gemini 3.1 Pro High (ไม่รวม GPT-5.5 และ Opus 4.7 ที่เปิดตัวเมื่อไม่นานมานี้):

Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ สูงสุดในทั้งสนาม

LiveCodeBench:93.5 → สูงสุดในทั้งสนาม

SWE Verified:80.6 โดยตามหลัง Opus 4.6 ที่ 80.8 อยู่ 0.2 จุดเปอร์เซ็นต์

GPQA Diamond:90.1 โดยตามหลัง Gemini 3.1 Pro ที่ 94.3

SimpleQA-Verified:57.9 โดยตามหลัง Gemini 3.1 Pro ที่ 75.6

HLE:37.7 โดยตามหลัง Gemini 3.1 Pro ที่ 44.4

รายงานทางเทคนิคยังชี้ด้วยว่า การเปรียบเทียบข้างต้นไม่รวม GPT-5.5 และ Opus 4.7 ที่เปิดตัวล่าสุด และความแตกต่างระหว่าง V4 กับโมเดลปิดซอร์สเจนเนอเรชันล่าสุด ยังต้องรอการตรวจสอบด้วยการประเมินจากบุคคลที่สาม

คำถามที่พบบ่อย

เงื่อนไขลิขสิทธิ์แบบเปิดซอร์สของ DeepSeek V4 รุ่นตัวอย่างคืออะไร และสามารถรับได้ที่ไหน?

ตามประกาศอย่างเป็นทางการของ DeepSeek วันที่ 24 เมษายน V4 ถูกเปิดซอร์สภายใต้สัญญาอนุญาต MIT โดยน้ำหนักโมเดลได้ขึ้นให้ใช้งานแล้วบน Hugging Face และ ModelScope เหมาะสำหรับทั้งการใช้งานเชิงพาณิชย์และเชิงวิชาการ

ความแตกต่างของขนาดพารามิเตอร์ระหว่าง DeepSeek V4-Pro และ V4-Flash คืออะไร?

ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro มีพารามิเตอร์รวม 1.6T ต่อ 1 โทเค็นเปิดใช้งาน 49B; V4-Flash มีพารามิเตอร์รวม 284B ต่อ 1 โทเค็นเปิดใช้งาน 13B โมเดลทั้งสองรองรับบริบท 1M token

ผลการเปรียบเทียบเชิงมาตรฐานของ DeepSeek V4-Pro-Max กับ GPT-5.4 และ Gemini 3.1 Pro เป็นอย่างไร?

ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro-Max ทำผลงานเหนือ GPT-5.4 และ Gemini 3.1 Pro ในเกณฑ์มาตรฐาน Codeforces (3206 คะแนน) และ LiveCodeBench (93.5) แต่ยังตามหลัง Gemini 3.1 Pro ในเกณฑ์มาตรฐานที่เน้นความหนาแน่นของความรู้ (GPQA Diamond, SimpleQA-Verified, HLE); ชุดการเปรียบเทียบไม่รวม GPT-5.5 และ Opus 4.7

news.article.disclaimer
btc.bar.articles

Tencent เปิดซอร์ส Hy3 เวอร์ชันพรีวิว โดยการทดสอบเกณฑ์มาตรฐานของโค้ดทำได้ดีขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า

Market Whisper04-24 05:14

OpenAI เปิดตัว GPT-5.5: บริบท 12M, ดัชนี AA ขึ้นอันดับหนึ่ง, และ Terminal-Bench 82.7% ปรับปรุงมาตรฐานพร็อกซีใหม่

ChainNewsAbmedia04-23 19:45

Google Jules เปิดรายชื่อผู้สมัครเวอร์ชันใหม่ที่เปิดตัวอีกครั้ง และปรับตำแหน่งใหม่ให้เป็นแพลตฟอร์มสำหรับการพัฒนาผลิตภัณฑ์แบบครบวงจรจากต้นทางถึงปลายทาง

Market Whisper04-23 06:13

เปิด OpenAI สำหรับ ChatGPT Workspace Agents: ขับเคลื่อนด้วย Codex, แชร์ร่วมกันในทีม, บูรณาการกับ Slack

ChainNewsAbmedia04-23 02:55

DeepSeek อยู่ระหว่างการเจรจาการระดมทุนรอบแรกจากนักลงทุนภายนอก มูลค่า 20 พันล้านดอลลาร์สหรัฐ: การประเมินมูลค่า AI ของจีนทำสถิติสูงสุดใหม่

ChainNewsAbmedia04-22 13:13
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น