
Google vào ngày 19 tháng 5 đã công bố ra mắt dòng Gemini Omni tại Google I/O 2026, sản phẩm đầu tiên là Gemini Omni Flash. Đến ngày 22 tháng 5, hãng chính thức phát hành tài liệu kỹ thuật trên trang web chính thức; đợt tích hợp đầu tiên bao gồm Gemini ứng dụng, Google Flow và YouTube Shorts.
Các tính năng cốt lõi của Gemini Omni Flash đã được xác nhận
Chỉnh sửa video theo hội thoại: Người dùng chỉnh sửa video bằng lệnh chỉ dẫn ngôn ngữ tự nhiên, mỗi lệnh được thực thi dựa trên cơ sở của lệnh trước đó; mô hình giữ tính nhất quán vai trò, hiệu ứng vật lý đáng tin cậy và ghi nhớ bối cảnh, hỗ trợ thay đổi nền, phong cách, góc hoặc các chi tiết cụ thể mà không cần tạo lại toàn bộ đoạn.
Mô phỏng vật lý nâng cao: Sự hiểu trực quan của Omni về trọng lực, động năng và động lực học chất lỏng giúp tăng độ chân thực của bối cảnh, cho phép người dùng tạo ra các hiệu ứng vật lý chính xác hơn như các tình huống động có va chạm vật thể, dòng chảy của chất lỏng và phản ứng dây chuyền.
Tạo nội dung với đầu vào đa phương thức: Omni có thể xử lý mọi tổ hợp đầu vào (hình ảnh, văn bản, đoạn video, âm thanh) như một lệnh duy nhất để tạo ra nội dung đầu ra thống nhất; ở giai đoạn đầu, đầu vào âm thanh hỗ trợ trích dẫn bằng giọng nói, các dạng đầu vào âm thanh khác sẽ được phát hành trong thời gian tới.
Tích hợp kiến thức và trực quan hóa khái niệm: Omni kế thừa kiến thức của Gemini về bối cảnh lịch sử, khoa học và văn hóa, vượt xa việc chỉ khớp mẫu; có thể tạo nội dung mang tính giải thích dựa trên những gợi ý ngắn, chẳng hạn dùng hoạt hình đất sét để giải thích các khái niệm khoa học phức tạp như quá trình gấp protein.
Tính năng hình đại diện kỹ thuật số (Avatar): Người dùng có thể tạo một phiên bản kỹ thuật số của chính mình có chứa giọng nói, tạo ra các video có cả ngoại hình lẫn giọng nói giống với bản thân; các tính năng chỉnh sửa âm thanh và giọng nói vẫn đang trong giai đoạn thử nghiệm, chưa mở cho tất cả người dùng.
SynthID watermark: Cơ chế minh bạch nội dung AI đã được xác nhận
Tất cả các video được tạo thông qua Gemini Omni đều tự động nhúng SynthID watermark kỹ thuật số, đây là công nghệ watermark vô hình do Google DeepMind phát triển. Sau khi nhúng, nó không ảnh hưởng đến chất lượng hình ảnh của video. Người dùng có thể kiểm tra liệu video có được tạo bởi Gemini Omni hay không thông qua ba kênh đã được xác nhận: Gemini ứng dụng, Gemini trong trình duyệt Chrome và Google Tìm kiếm. Google cho biết công cụ xác thực của SynthID được thiết kế nhằm giúp người dùng hiểu cách nội dung trên mạng được tạo và chỉnh sửa, là một phần trong chính sách phát triển AI có trách nhiệm của hãng.
Các kênh truy cập đã được xác nhận và lộ trình ra mắt
Sẵn sàng ngay: Người dùng đăng ký trả phí Google AI Plus, Pro và Ultra, thông qua Gemini ứng dụng và Google Flow
Trong tuần này: Người dùng YouTube Shorts và YouTube Create, được cung cấp miễn phí
Trong vài tuần tới: Nhà phát triển và khách hàng doanh nghiệp, thông qua Gemini API và Agent Platform API
Câu hỏi thường gặp
“Mô hình thế giới” trong Gemini Omni Flash khác biệt về mặt kỹ thuật như thế nào so với mô hình tạo video thông thường?
Google định vị Gemini Omni là “mô hình thế giới”, nghĩa là mô hình không chỉ thực hiện ánh xạ tạo sinh từ đầu vào ra đầu ra, mà còn có khả năng suy luận nhân quả dựa trên cơ sở kiến thức thế giới thực được huấn luyện từ Gemini (bao gồm các quy luật vật lý, bối cảnh văn hóa, kiến thức lịch sử và khoa học). Ví dụ như dự đoán hành vi tiếp theo của các vật thể trong cảnh, áp dụng hiệu ứng của công cụ vật lý thế giới thực, và chuyển mô tả ngôn ngữ thành nội dung hình ảnh có ý nghĩa ngữ nghĩa. Điều này khác biệt về mặt định vị ở cấp độ kiến trúc so với mô hình khuếch tán tạo video thuần túy dựa trên khớp mẫu.
SynthID watermark có thể bị gỡ bỏ hoặc vượt qua không?
Thông báo chính thức của Google xác nhận SynthID watermark là vô hình (không ảnh hưởng đến nội dung hình ảnh của video), được nhúng trong cấu trúc kỹ thuật số của video và có thể được xác minh bằng công cụ xác thực chính thức của Google. Google chưa công bố trong tài liệu chính thức về phương thức triển khai kỹ thuật cụ thể của watermark; hiện chưa có hồ sơ đánh giá kỹ thuật độc lập công khai về độ tin cậy và khả năng chống sửa đổi của SynthID.
Gemini Omni Flash hiện hỗ trợ những định dạng đầu vào nào và sẽ mở rộng những loại đầu ra nào trong tương lai?
Đầu vào đã được xác nhận hỗ trợ: văn bản, hình ảnh tĩnh, đoạn video, âm thanh giọng nói (ban đầu). Trên blog chính thức, Google xác nhận rằng các loại đầu vào âm thanh khác “sẽ sớm” được bổ sung. Về đầu ra, phiên bản Omni Flash hiện tập trung vào đầu ra dạng video; Google cho biết trong tương lai sẽ hỗ trợ chế độ đầu ra hình ảnh và âm thanh trong dòng Omni, nhưng lộ trình cụ thể chưa được xác nhận trong thông báo lần này.