Google ประกาศเปิดตัวผลิตภัณฑ์แรกของตระกูล Gemini Omni ที่งาน Google I/O 2026 เมื่อวันที่ 19 พฤษภาคม นั่นคือ Gemini Omni Flash และเมื่อวันที่ 22 พฤษภาคม ได้เผยแพร่รายละเอียดทางเทคนิคอย่างเป็นทางการบนเว็บไซต์ โดยชุดแพลตฟอร์มที่ผสานรวมระยะแรกประกอบด้วยแอป Gemini, Google Flow และ YouTube Shorts

ฟีเจอร์หลักของ Gemini Omni Flash ที่ยืนยันแล้ว

การแก้ไขวิดีโอแบบโต้ตอบ：ผู้ใช้แก้ไขวิดีโอผ่านคำสั่งด้วยภาษาธรรมชาติ โดยแต่ละคำสั่งจะสะสมและทำงานต่อจากคำสั่งก่อนหน้า โมเดลยังคงความสอดคล้องของบทบาท ความน่าเชื่อถือของผลทางกายภาพ และความจำของฉาก รองรับการเปลี่ยนฉากหลัง สไตล์ มุม หรือรายละเอียดเฉพาะเจาะจง โดยไม่ต้องสร้างทั้งช่วงวิดีโอใหม่

การจำลองเอนจินฟิสิกส์ขั้นสูง：ความเข้าใจเชิงลึกของ Omni เกี่ยวกับแรงโน้มถ่วง โมเมนตัม และพลศาสตร์ของไหลช่วยยกระดับความสมจริงของฉาก ช่วยให้ผู้ใช้สร้างเอฟเฟกต์ทางกายภาพที่แม่นยำยิ่งขึ้น เช่น ฉากแบบไดนามิกอย่างการชนของวัตถุ การไหลของของเหลว และปฏิกิริยาลูกโซ่

การสร้างด้วยอินพุตมัลติมีดียาวแบบหลายรูปแบบ：Omni สามารถประมวลผลอินพุตแบบใดก็ได้ที่นำมาผสมกัน (ภาพ, ข้อความ, ชิ้นส่วนวิดีโอ, เสียง) เป็นคำสั่งเดียวเพื่อสร้างผลลัพธ์ที่สอดคล้องกัน ในระยะแรก รองรับอินพุตเสียงแบบอ้างอิงด้วยคำพูด ส่วนประเภทอินพุตเสียงอื่น ๆ จะมีการเปิดตัวในภายหลัง

การบูรณาการความรู้และการแปลงแนวคิดเป็นภาพ：Omni นำความรู้เกี่ยวกับประวัติศาสตร์ วิทยาศาสตร์ และบริบททางวัฒนธรรมจาก Gemini มาต่อยอด โดยก้าวข้ามการจับคู่แพตเทิร์นอย่างเดียว และสามารถทำการอนุมานเชิงเหตุผลตามความเข้าใจจากคลังความรู้โลกจริงที่เรียนรู้จาก Gemini รวมถึงการสร้างเนื้อหาเชิงอธิบายจากคำสั้น ๆ เช่น การอธิบายแนวคิดวิทยาศาสตร์ที่ซับซ้อนอย่างการพับตัวของโปรตีนด้วยแอนิเมชันดินน้ำมัน

ฟังก์ชันตัวละครเสมือนดิจิทัล (Avatar)：ผู้ใช้สามารถสร้างเวอร์ชันดิจิทัลที่รวมเสียงของตนเอง แล้วสร้างวิดีโอที่ทั้งหน้าตาและเสียงคล้ายกับตัวจริงอย่างมาก ฟังก์ชันแก้ไขเสียงและคำพูดยังคงอยู่ในช่วงทดสอบ ยังไม่เปิดให้ผู้ใช้ทั้งหมดในตอนนี้

SynthID ลายน้ำ: กลไกความโปร่งใสของเนื้อหา AI ที่ยืนยันแล้ว

วิดีโอทั้งหมดที่สร้างผ่าน Gemini Omni จะฝัง SynthID ลายน้ำดิจิทัลโดยอัตโนมัติ ซึ่งเป็นเทคโนโลยีลายน้ำแบบมองไม่เห็นที่พัฒนาโดย Google DeepMind โดยหลังการฝังจะไม่ส่งผลกระทบต่อคุณภาพภาพของวิดีโอ ผู้ใช้สามารถตรวจสอบได้ว่าวิดีโอนั้นถูกสร้างโดย Gemini Omni หรือไม่ ผ่าน 3 ช่องทางที่ยืนยันแล้ว ได้แก่ แอป Gemini, Gemini ในเบราว์เซอร์ Chrome และ Google Search Google ระบุว่าเครื่องมือยืนยันของ SynthID มีเป้าหมายเพื่อช่วยให้ผู้ใช้เข้าใจวิธีการสร้างและแก้ไขเนื้อหาบนอินเทอร์เน็ต ซึ่งเป็นส่วนหนึ่งของนโยบายการพัฒนา AI อย่างรับผิดชอบของบริษัท

ช่องทางการเข้าถึงและไทม์ไลน์การเปิดตัวที่ยืนยันแล้ว

พร้อมใช้งานทันที：สมาชิกแบบชำระเงินของ Google AI Plus, Pro และ Ultra ผ่านแอป Gemini และ Google Flow

ภายในสัปดาห์นี้：ผู้ใช้ YouTube Shorts และผู้ใช้แอป YouTube Create มีให้ฟรี

ภายในไม่กี่สัปดาห์：นักพัฒนาและลูกค้าองค์กร ผ่าน Gemini API และ Agent Platform API

คำถามที่พบบ่อย

ความหมายเชิง “world model” ใน Gemini Omni Flash ต่างจากโมเดลสร้างวิดีโอทั่วไปอย่างไรในเชิงเทคนิค？

Google กำหนดให้ Gemini Omni เป็น “world model” ซึ่งหมายถึงว่าโมเดลไม่ได้ทำหน้าที่เพียงแมปการสร้างจากอินพุตไปสู่เอาต์พุตเท่านั้น แต่ยังมีความสามารถในการอนุมานเชิงเหตุผลจากความรู้โลกจริงที่ประกอบด้วยกฎทางฟิสิกส์ บริบททางวัฒนธรรม ความรู้ด้านประวัติศาสตร์และวิทยาศาสตร์ ซึ่งอิงจากการฝึกของ Gemini ด้วย เช่น การคาดการณ์พฤติกรรมถัดไปของวัตถุในฉาก การนำผลลัพธ์ของเอนจินฟิสิกส์แบบความเป็นจริงไปใช้ และการแปลงคำบรรยายให้กลายเป็นเนื้อหาภาพที่มีความหมายเชิงภาษา นี่แตกต่างจากโมเดลการแพร่กระจายวิดีโอที่ออกแบบโดยอาศัยการจับคู่แพตเทิร์นล้วน ๆ ซึ่งมีความแตกต่างในระดับโครงสร้างของเป้าหมายการออกแบบ

ลายน้ำ SynthID สามารถลบหรือหลีกเลี่ยงได้หรือไม่？

คำอธิบายอย่างเป็นทางการของ Google ยืนยันว่า SynthID เป็นลายน้ำแบบมองไม่เห็น (ไม่กระทบต่อเนื้อหาภาพของวิดีโอ) และฝังอยู่ในโครงสร้างดิจิทัลของวิดีโอ ซึ่งสามารถตรวจสอบได้ด้วยเครื่องมือยืนยันอย่างเป็นทางการของ Google Google ยังไม่ได้เปิดเผยในเอกสารทางการถึงวิธีการนำเทคโนโลยีลายน้ำไปใช้งานแบบละเอียด และในขณะนี้ยังไม่มีบันทึกการประเมินทางเทคนิคอิสระแบบสาธารณะเกี่ยวกับความน่าเชื่อถือและความทนต่อการดัดแปลงของ SynthID

ตอนนี้ Gemini Omni Flash รองรับรูปแบบอินพุตใดบ้าง และในอนาคตจะขยายไปสู่ประเภทเอาต์พุตแบบใด？

อินพุตที่ยืนยันแล้วรองรับ: ข้อความ, ภาพนิ่ง, ชิ้นส่วนวิดีโอ และอินพุตเสียง (ระยะแรก) Google ระบุในบล็อกอย่างเป็นทางการว่า อินพุตเสียงประเภทอื่น ๆ “จะมาในเร็ว ๆ นี้” เพื่อเป็นส่วนเสริม สำหรับเอาต์พุต ในตอนนี้ Omni Flash โฟกัสที่การสร้างวิดีโอเท่านั้น โดย Google ระบุว่าในอนาคตจะรองรับโหมดการส่งออกทั้งภาพและเสียงในตระกูล Omni แต่ไทม์ไลน์การเปิดตัวที่แน่ชัดยังไม่ได้รับการยืนยันในประกาศครั้งนี้

news.article.disclaimer

news.related.news

40 นาที ที่แล้ว

Citi ยังคงให้ Alphabet เป็นตัวเลือกอันดับ 1 พร้อมตั้งเป้าราคาที่ 447 ดอลลาร์ หลังงาน Google I/O 2026

19 ชั่วโมง ที่แล้ว

CapCut ประกาศเป็นพาร์ทเนอร์กับ Google Gemini เพื่อเปิดใช้งานการตัดต่อวิดีโอโดยตรงในแชต

20 ชั่วโมง ที่แล้ว

นักพัฒนา Theo เปิดโปงความขัดแย้งของ AI จาก Google: ทีมดั้งเดิมของ Gemini CLI ถูกกันออกไป ขณะที่ Antigravity ลอกเลียนแบบ Codex UI

btc.bar.articles

Ripple Prime ผสานรวมกับ EDX ทำให้สถาบันเข้าถึงทั้งสปอตและฟิวเจอร์สระยะยาวได้แบบครบวงจร

Market Whisper55 นาที ที่แล้ว

Zero Network ประกาศทยอยปิดตัว เข้าร่วมคลื่นปิดโปรโตคอลของ Layer 2