Google DeepMind ได้เปิดตัวและทำให้ DiffusionGemma พร้อมใช้งานแบบโอเพนซอร์สอย่างเป็นทางการในวันที่ 10 มิถุนายน โดยถือเป็นสมาชิกใหม่ของตระกูลโมเดลโอเพนซอร์ส Gemma 4 DiffusionGemma ใช้สถาปัตยกรรมการสร้างข้อความแบบการแพร่ (diffusion) ผสานการออกแบบแบบผสมผู้เชี่ยวชาญ (MoE) ในบรรดาแบบทดสอบมาตรฐานที่ได้มีการเปิดเผยออกมาแล้ว คะแนนของ DiffusionGemma ล้วนต่ำกว่ามาตรฐาน Gemma 4

ข้อมูลทดสอบความเร็วอย่างเป็นทางการและข้อกำหนดฮาร์ดแวร์

ตามตัวเลขที่ Google ประกาศยืนยัน:

การทดสอบความเร็ว (Google อย่างเป็นทางการ ไม่ใช่การยืนยันโดยบุคคลที่สาม)

Nvidia RTX 5090 (ระดับผู้บริโภค)：ประมาณ 700 token/วินาที

Nvidia H100 (ระดับศูนย์ข้อมูล)：ทะลุ 1,000 token/วินาที

อัตราทวีคูณที่ประเมินเอง：ประมาณ 4 เท่าเมื่อเทียบกับโมเดล Gemma แบบออโตเรเกรสซีฟในขนาดเดียวกัน

สถาปัตยกรรมและพารามิเตอร์

จำนวนพารามิเตอร์ทั้งหมด：260 ล้านล้าน? ไม่; 260 億（26B） → 260 ล้าน (26B)

จำนวนพารามิเตอร์ที่ใช้งานในการอนุมาน：38 億（3.8B） → 3.8 พันล้าน (3.8B)

ความต้องการ VRAM：สามารถรันได้บนการ์ดจอระดับสูงที่มี VRAM 18GB (โดยเฉพาะเวอร์ชันที่ทำการควอนไทซ์)

จำนวนงานแบบขนานสูงสุด：รองรับการประมวลผลพร้อมกันได้สูงสุดทีละ 256 token

ใบอนุญาต：Apache 2.0

กลไกการสร้าง: ความแตกต่างสำคัญระหว่างการแพร่และออโตเรเกรสซีฟ

โมเดลออโตเรเกรสซีฟมาตรฐานสร้างแบบทีละโทเคนตามลำดับ โดย token แต่ละตัวต้องอาศัยผลคำนวณจาก token ก่อนหน้า คอขวดอยู่ที่แบนด์วิดท์หน่วยความจำ—ทุกครั้งที่สร้าง token จะต้องอ่านน้ำหนักโมเดลจากหน่วยความจำหนึ่งครั้ง

กระบวนการของ DiffusionGemma แตกต่างออกไป โดยจะปู token สำหรับการทดแทนลงในพื้นที่เอาต์พุตทั้งหมดก่อน แล้วค่อยทำการดีนอยส์หลายรอบ โดยแต่ละรอบทำให้ token ในทุกตำแหน่งอัปเดตพร้อมกันและปรับแก้ซึ่งกันและกัน จนเนื้อหาทั้งก้อนค่อย ๆ บรรจบเป็นเอาต์พุตสุดท้าย วิธีคำนวณที่เน้นความเข้มของพลังประมวลผลและการทำงานแบบขนานเช่นนี้ ทำให้คอขวดเปลี่ยนจากแบนด์วิดท์หน่วยความจำไปสู่พลังประมวลผลของ GPU ทำให้ใช้ความสามารถด้านขนานของ GPU สมัยใหม่ได้เต็มที่มากขึ้น

Google ยกตัวอย่างในเอกสารอย่างเป็นทางการว่า DiffusionGemma มีข้อได้เปรียบเชิงโครงสร้างในงานตรรกะเชิงไม่เชิงเส้นประเภทปริศนา Sudoku เพราะคำตอบที่ถูกต้องของงานลักษณะนี้มักเกี่ยวข้องกับความสัมพันธ์พึ่งพาระหว่างตำแหน่งที่ซับซ้อน ขณะที่วิธีการสร้างแบบเชิงเส้นของออโตเรเกรสซีฟถูกจำกัดโดยธรรมชาติ

ผลการทดสอบมาตรฐาน: คะแนนทุกแบบทดสอบที่เปิดเผยล้วนต่ำกว่า Gemma 4

ในการเผยแพร่ข้อมูล Google ยืนยันว่า ในบรรดาแบบทดสอบมาตรฐานสาธารณะที่ได้เปิดเผยออกมาแล้วทั้งหมด คะแนนของ DiffusionGemma ล้วนต่ำกว่า Gemma 4 มาตรฐาน นั่นหมายความว่า การเร่งความเร็ว 4 เท่าแลกมากับการลดลงอย่างเป็นระบบของคุณภาพการสร้าง BlockTempo ระบุว่า ข้อแลกเปลี่ยนนี้มีความหมายไม่เหมือนกันอย่างสิ้นเชิงสำหรับสถานการณ์การใช้งานต่าง ๆ: สำหรับงานที่ไวต่อความหน่วงหรือจำเป็นต้องสร้างเอาต์พุตจำนวนมาก ความได้เปรียบด้านความเร็วเป็นสิ่งที่ใช้งานได้จริง แต่สำหรับงานที่ต้องการคุณภาพสูง Gemma 4 มาตรฐานยังเชื่อถือได้มากกว่าในปัจจุบัน

Google ระบุสถานการณ์ที่เหมาะกับการใช้งานของ DiffusionGemma ไว้ เช่น การแก้ไขในบรรทัด (in-line editing), การสร้างลำดับโมเลกุล, การวาดภาพเชิงคณิตศาสตร์ และงานเชิงไม่เชิงเส้นที่เกี่ยวข้องกับความสัมพันธ์พึ่งพาด้านตรรกะที่ซับซ้อน

คำถามที่พบบ่อย

DiffusionGemma และโมเดลภาษาออโตเรเกรสซีฟมาตรฐาน ต่างกันอย่างไรในเชิงแก่นของกลไกการสร้าง?

โมเดลออโตเรเกรสซีฟมาตรฐานสร้างแบบเชิงเส้นทีละโทเคน โดย token แต่ละตัวอาศัยผลจาก token ก่อนหน้า DiffusionGemma จะปู token สำหรับการทดแทนลงในพื้นที่เอาต์พุตทั้งหมดก่อน แล้วทำการดีนอยส์หลายรอบ โดยแต่ละรอบให้ทุกตำแหน่งอัปเดตพร้อมกัน จากนั้นจึงค่อยส่งออกทั้งช่วงที่ร่างเสร็จในครั้งเดียว ทำให้ตรรกะการสร้างมีความใกล้เคียงกับวิธีการสร้างภาพของ Stable Diffusion มากขึ้น

DiffusionGemma รันได้ในเครื่องบนฮาร์ดแวร์แบบใดบ้าง?

ตามคำอธิบายของ Google DiffusionGemma สามารถรันได้บนการ์ดจอระดับไฮเอนด์ที่มี VRAM 18GB โดยเวอร์ชันที่ทำการควอนไทซ์ยิ่งเป็นเช่นนั้น จากการทดสอบของ Google แสดงว่า Nvidia RTX 5090 ระดับผู้บริโภคทำได้ราว 700 token ต่อวินาที แต่ตัวเลขดังกล่าวเป็นการประเมินเองของ Google ไม่ใช่การยืนยันอิสระโดยบุคคลที่สาม

ตัวเลขความเร็วของ DiffusionGemma ผ่านการยืนยันโดยบุคคลที่สามแล้วหรือยัง?

ยังไม่ผ่าน BlockTempo ระบุชัดเจนว่า ตัวเลขการทดสอบความเร็วทั้งหมดมาจากการทดสอบของ Google เอง ไม่ใช่การยืนยันอิสระโดยบุคคลที่สาม และในสถานการณ์ที่แตกต่างกัน รวมถึงความยาวของการสร้างที่ต่างกัน อัตราทวีคูณที่เกิดขึ้นจริงอาจต่างจากตัวเลขทางการ

news.article.disclaimer

news.related.news

9 ชั่วโมง ที่แล้ว

0G Labs ประกาศความร่วมมือกับ MiniMax ในวันที่ 11 มิถุนายน เพื่อให้นำโมเดล AI ไปใช้งานบนเชน

12 ชั่วโมง ที่แล้ว

Google เปิดซอร์สโมเดล DiffusionGemma: ทำได้มากกว่า 1,000 โทเค็นต่อวินาทีบน H100 เพิ่มความเร็ว 4 เท่า

06-10 03:41

Google เปิดตัว Gemini 3.5 Live Translate รองรับการแปลคำพูดแบบเรียลไทม์กว่า 70 ภาษา

btc.bar.articles

Google DeepMind เปิดตัว DiffusionGemma พร้อมเพิ่มความเร็ว 4 เท่า สำหรับ AI ในเครื่อง

Oliver Grant17 ชั่วโมง ที่แล้ว

Claude Fable 5 เพิ่มกลไกตรวจจับการกลั่น โดยอัตราการทริกเกอร์ต่ำกว่า 5%