
Google ประกาศเปิดตัวผลิตภัณฑ์แรกของตระกูล Gemini Omni ที่งาน Google I/O 2026 เมื่อวันที่ 19 พฤษภาคม นั่นคือ Gemini Omni Flash และเมื่อวันที่ 22 พฤษภาคม ได้เผยแพร่รายละเอียดทางเทคนิคอย่างเป็นทางการบนเว็บไซต์ โดยชุดแพลตฟอร์มที่ผสานรวมระยะแรกประกอบด้วยแอป Gemini, Google Flow และ YouTube Shorts
การแก้ไขวิดีโอแบบโต้ตอบ:ผู้ใช้แก้ไขวิดีโอผ่านคำสั่งด้วยภาษาธรรมชาติ โดยแต่ละคำสั่งจะสะสมและทำงานต่อจากคำสั่งก่อนหน้า โมเดลยังคงความสอดคล้องของบทบาท ความน่าเชื่อถือของผลทางกายภาพ และความจำของฉาก รองรับการเปลี่ยนฉากหลัง สไตล์ มุม หรือรายละเอียดเฉพาะเจาะจง โดยไม่ต้องสร้างทั้งช่วงวิดีโอใหม่
การจำลองเอนจินฟิสิกส์ขั้นสูง:ความเข้าใจเชิงลึกของ Omni เกี่ยวกับแรงโน้มถ่วง โมเมนตัม และพลศาสตร์ของไหลช่วยยกระดับความสมจริงของฉาก ช่วยให้ผู้ใช้สร้างเอฟเฟกต์ทางกายภาพที่แม่นยำยิ่งขึ้น เช่น ฉากแบบไดนามิกอย่างการชนของวัตถุ การไหลของของเหลว และปฏิกิริยาลูกโซ่
การสร้างด้วยอินพุตมัลติมีดียาวแบบหลายรูปแบบ:Omni สามารถประมวลผลอินพุตแบบใดก็ได้ที่นำมาผสมกัน (ภาพ, ข้อความ, ชิ้นส่วนวิดีโอ, เสียง) เป็นคำสั่งเดียวเพื่อสร้างผลลัพธ์ที่สอดคล้องกัน ในระยะแรก รองรับอินพุตเสียงแบบอ้างอิงด้วยคำพูด ส่วนประเภทอินพุตเสียงอื่น ๆ จะมีการเปิดตัวในภายหลัง
การบูรณาการความรู้และการแปลงแนวคิดเป็นภาพ:Omni นำความรู้เกี่ยวกับประวัติศาสตร์ วิทยาศาสตร์ และบริบททางวัฒนธรรมจาก Gemini มาต่อยอด โดยก้าวข้ามการจับคู่แพตเทิร์นอย่างเดียว และสามารถทำการอนุมานเชิงเหตุผลตามความเข้าใจจากคลังความรู้โลกจริงที่เรียนรู้จาก Gemini รวมถึงการสร้างเนื้อหาเชิงอธิบายจากคำสั้น ๆ เช่น การอธิบายแนวคิดวิทยาศาสตร์ที่ซับซ้อนอย่างการพับตัวของโปรตีนด้วยแอนิเมชันดินน้ำมัน
ฟังก์ชันตัวละครเสมือนดิจิทัล (Avatar):ผู้ใช้สามารถสร้างเวอร์ชันดิจิทัลที่รวมเสียงของตนเอง แล้วสร้างวิดีโอที่ทั้งหน้าตาและเสียงคล้ายกับตัวจริงอย่างมาก ฟังก์ชันแก้ไขเสียงและคำพูดยังคงอยู่ในช่วงทดสอบ ยังไม่เปิดให้ผู้ใช้ทั้งหมดในตอนนี้
วิดีโอทั้งหมดที่สร้างผ่าน Gemini Omni จะฝัง SynthID ลายน้ำดิจิทัลโดยอัตโนมัติ ซึ่งเป็นเทคโนโลยีลายน้ำแบบมองไม่เห็นที่พัฒนาโดย Google DeepMind โดยหลังการฝังจะไม่ส่งผลกระทบต่อคุณภาพภาพของวิดีโอ ผู้ใช้สามารถตรวจสอบได้ว่าวิดีโอนั้นถูกสร้างโดย Gemini Omni หรือไม่ ผ่าน 3 ช่องทางที่ยืนยันแล้ว ได้แก่ แอป Gemini, Gemini ในเบราว์เซอร์ Chrome และ Google Search Google ระบุว่าเครื่องมือยืนยันของ SynthID มีเป้าหมายเพื่อช่วยให้ผู้ใช้เข้าใจวิธีการสร้างและแก้ไขเนื้อหาบนอินเทอร์เน็ต ซึ่งเป็นส่วนหนึ่งของนโยบายการพัฒนา AI อย่างรับผิดชอบของบริษัท
พร้อมใช้งานทันที:สมาชิกแบบชำระเงินของ Google AI Plus, Pro และ Ultra ผ่านแอป Gemini และ Google Flow
ภายในสัปดาห์นี้:ผู้ใช้ YouTube Shorts และผู้ใช้แอป YouTube Create มีให้ฟรี
ภายในไม่กี่สัปดาห์:นักพัฒนาและลูกค้าองค์กร ผ่าน Gemini API และ Agent Platform API
Google กำหนดให้ Gemini Omni เป็น “world model” ซึ่งหมายถึงว่าโมเดลไม่ได้ทำหน้าที่เพียงแมปการสร้างจากอินพุตไปสู่เอาต์พุตเท่านั้น แต่ยังมีความสามารถในการอนุมานเชิงเหตุผลจากความรู้โลกจริงที่ประกอบด้วยกฎทางฟิสิกส์ บริบททางวัฒนธรรม ความรู้ด้านประวัติศาสตร์และวิทยาศาสตร์ ซึ่งอิงจากการฝึกของ Gemini ด้วย เช่น การคาดการณ์พฤติกรรมถัดไปของวัตถุในฉาก การนำผลลัพธ์ของเอนจินฟิสิกส์แบบความเป็นจริงไปใช้ และการแปลงคำบรรยายให้กลายเป็นเนื้อหาภาพที่มีความหมายเชิงภาษา นี่แตกต่างจากโมเดลการแพร่กระจายวิดีโอที่ออกแบบโดยอาศัยการจับคู่แพตเทิร์นล้วน ๆ ซึ่งมีความแตกต่างในระดับโครงสร้างของเป้าหมายการออกแบบ
คำอธิบายอย่างเป็นทางการของ Google ยืนยันว่า SynthID เป็นลายน้ำแบบมองไม่เห็น (ไม่กระทบต่อเนื้อหาภาพของวิดีโอ) และฝังอยู่ในโครงสร้างดิจิทัลของวิดีโอ ซึ่งสามารถตรวจสอบได้ด้วยเครื่องมือยืนยันอย่างเป็นทางการของ Google Google ยังไม่ได้เปิดเผยในเอกสารทางการถึงวิธีการนำเทคโนโลยีลายน้ำไปใช้งานแบบละเอียด และในขณะนี้ยังไม่มีบันทึกการประเมินทางเทคนิคอิสระแบบสาธารณะเกี่ยวกับความน่าเชื่อถือและความทนต่อการดัดแปลงของ SynthID
อินพุตที่ยืนยันแล้วรองรับ: ข้อความ, ภาพนิ่ง, ชิ้นส่วนวิดีโอ และอินพุตเสียง (ระยะแรก) Google ระบุในบล็อกอย่างเป็นทางการว่า อินพุตเสียงประเภทอื่น ๆ “จะมาในเร็ว ๆ นี้” เพื่อเป็นส่วนเสริม สำหรับเอาต์พุต ในตอนนี้ Omni Flash โฟกัสที่การสร้างวิดีโอเท่านั้น โดย Google ระบุว่าในอนาคตจะรองรับโหมดการส่งออกทั้งภาพและเสียงในตระกูล Omni แต่ไทม์ไลน์การเปิดตัวที่แน่ชัดยังไม่ได้รับการยืนยันในประกาศครั้งนี้
news.related.news
Ripple Prime ผสานรวมกับ EDX ทำให้สถาบันเข้าถึงทั้งสปอตและฟิวเจอร์สระยะยาวได้แบบครบวงจร
Zero Network ประกาศทยอยปิดตัว เข้าร่วมคลื่นปิดโปรโตคอลของ Layer 2
Alibaba Cloud หันไปใช้ Agentic AI โดยรายได้จากโทเคนพุ่ง 15 เท่าใน 5 เดือน
Google Pics 物件分割让 AI 图像精确可控,夏季向 AI Pro 开放
Google เพิ่ม Daily Brief และ Spark ในแอป Gemini