
Google 19 травня на Google I/O 2026 оголосила про вихід першого продукту серії Gemini Omni — Gemini Omni Flash, а 22 травня на офіційному сайті офіційно опублікувала технічний опис; перша інтеграція платформи включає Gemini застосунок, Google Flow і YouTube Shorts.
已確認的 Gemini Omni Flash 的 основні функції
Діалогове редагування відео: користувач редагує відео за допомогою команд природною мовою; кожна команда виконується сукупно, спираючись на попередню. Модель зберігає узгодженість ролей, надійні фізичні ефекти та пам’ять про сцену; підтримуються зміни фону, стилю, кута або конкретних деталей без потреби перегенерувати весь фрагмент.
Розширене моделювання фізичного рушія: Omni посилює інтуїтивне розуміння гравітації, кінетичної енергії та гідродинаміки, підвищуючи правдоподібність сцен. Це дозволяє створювати точніші фізичні ефекти, зокрема динамічні сцени на кшталт зіткнень об’єктів, течії рідин і ланцюгових реакцій.
Мультимодальне введення для генерації: Omni може обробляти будь-яку комбінацію введень (зображення, текст, фрагменти відео, аудіо) як одну команду й генерувати єдиний узгоджений результат. На початковому етапі підтримується аудіовведення із голосовими посиланнями; інші типи аудіовведень буде додано згодом.
Інтеграція знань і візуалізація концепцій: Omni спирається на знання Gemini щодо історії, науки та культурного контексту, виходячи за межі простого зіставлення шаблонів. Вона може за короткими підказками генерувати пояснювальний контент — наприклад, пояснювати складні наукові концепції на кшталт згортання білків через глиняну анімацію.
Функція цифрових віртуальних образів (Avatar): користувачі можуть створити цифрову версію, що містить власний голос, та генерувати відео, де зовнішність і голос максимально схожі з ними. Функції редагування аудіо та голосу все ще тестуються й наразі не доступні для всіх користувачів.
SynthID водяний знак: підтверджений механізм прозорості для контенту з AI
Усі відео, створені через Gemini Omni, автоматично вбудовують SynthID цифровий водяний знак — технологію невидимих водяних знаків, розроблену Google DeepMind. Вбудування не впливає на візуальну якість відео. Користувачі можуть перевірити, чи створено відео Gemini Omni, через три підтверджені канали: Gemini застосунок, Gemini у Chrome та Google Пошук. Google зазначає, що інструмент перевірки SynthID призначений допомогти користувачам зрозуміти, як створюється та редагується контент в інтернеті; це є частиною її політики відповідального розроблення AI.
Підтверджені канали доступу та таймлайн релізу
Негайно доступно: платні передплатники Google AI Plus, Pro та Ultra — через Gemini застосунок і Google Flow
Протягом цього тижня: користувачі YouTube Shorts і YouTube Create застосунку — безкоштовно надається
За кілька тижнів: розробники та корпоративні клієнти — через Gemini API та Agent Platform API
Поширені запитання
Технічна різниця між «моделлю світу» в Gemini Omni Flash і звичайними моделями генерації відео?
Google позиціонує Gemini Omni як «модель світу», що означає: модель не лише виконує генеративне відображення від входу до виходу, а й має здатність виконувати причинні висновки на основі реальної світової бази знань, навченої на Gemini (включно з фізичними закономірностями, культурним контекстом, історичними та науковими знаннями). Наприклад, модель може прогнозувати, як об’єкти поводитимуться далі в сцені, відтворювати ефекти реальних фізичних рушіїв і перетворювати мовні описи на візуальний контент із семантичним значенням. Це відрізняється від відеодифузійних моделей, які працюють виключно за принципом зіставлення шаблонів, у тому числі на рівні цілей проєктування та архітектурного позиціонування.
Чи можна видалити або обійти SynthID водяний знак?
Офіційні пояснення Google підтверджують, що SynthID водяний знак є невидимим (не впливає на візуальний контент відео), вбудовується в цифрову структуру відео та може бути перевірений через офіційні інструменти верифікації Google. Google не розкриває в офіційній документації конкретний спосіб технічної реалізації водяного знаку; незалежних технічних оцінок надійності та стійкості до втручань щодо SynthID наразі немає у відкритому доступі.
Які формати введення підтримує Gemini Omni Flash наразі та які типи виведення буде розширено в майбутньому?
Підтримувані введення підтверджено: текст, статичні зображення, фрагменти відео, голосове аудіо (на старті). У офіційному блозі Google підтвердили, що інші типи аудіовведення «найближчим часом» буде додано як доповнення. Щодо виведення: нинішня версія Omni Flash фокусується на генерації відео; Google зазначає, що в майбутньому в серії Omni підтримуватимуться режими виведення зображень і аудіо, однак конкретний таймлайн релізу не підтверджено в цьому оголошенні.