Google が Gemini Omni Flash を公開:対話式の動画編集で、YouTube Shorts と Google Flow を統合

GOOGLX-0.13%

Gemini Omni Flash

Google は 5 月 19 日に Google I/O 2026 で Gemini Omni シリーズの初の製品である Gemini Omni Flash を発表し、5 月 22 日に公式サイトで技術概要を正式に公開しました。最初に統合されるプラットフォームには、Gemini アプリ、Google Flow、YouTube Shorts が含まれます。

Gemini Omni Flash の確認済みコア機能

対話型の動画編集:ユーザーは自然言語の指示で動画を編集し、各指示は前の指示の内容を基に累積して実行されます。モデルは役割の一貫性、信頼性のある物理効果、シーンの記憶を維持し、背景、スタイル、角度、または具体的な詳細の変更が可能で、動画全体の再生成は不要です。

高度な物理エンジンによるシミュレーション:Omni は重力、運動エネルギー、流体力学に対する直感的な理解を強化することで、シーンの現実味を高めます。物体の衝突、液体の流れ、連鎖反応など、より正確な物理効果を伴う動的シーンを作成できます。

マルチモーダル入力からの生成:Omni は任意の入力の組み合わせ(画像、テキスト、動画の断片、音声)を単一の指示として処理し、統一された出力コンテンツを生成します。初期段階では音声入力で音声参照に対応し、その他の音声入力タイプは今後提供されます。

知識の統合と概念のビジュアル化:Omni は、歴史、科学、文化的背景に関する知識について Gemini が持つアプローチを取り入れ、単なるパターン照合を超えます。短いプロンプトに基づいて、たとえば粘土アニメでタンパク質のフォールディングのような複雑な科学概念を説明するなど、解説的な内容を生成できます。

デジタルバーチャル人物(Avatar)機能:ユーザーは自分の声を含むデジタル版を作成でき、見た目と声が本人に似た動画を生成します。音声・ボイス編集機能は依然としてテスト段階で、すべてのユーザーに向けてはまだ公開されていません。

SynthID ウォーターマーク:確認済みの AI コンテンツ透明性メカニズム

Gemini Omni で作成したすべての動画には、自動的に SynthID のデジタル・ウォーターマークが埋め込まれます。これは Google DeepMind が開発した不可視ウォーターマーク技術で、埋め込んでも動画の視覚品質には影響しません。ユーザーは、Gemini Omni によって生成された動画かどうかを確認するために、3 つの確認済みチャネルで検証できます。Gemini アプリ、Chrome ブラウザ内の Gemini、Google 検索です。Google は、SynthID の検証ツールは、ネット上のコンテンツがどのように作成・編集されたかをユーザーが理解するためのものであり、責任ある AI 開発ポリシーの一部だと述べています。

確認済みのアクセス経路と提供スケジュール

すぐに利用可能:Google AI Plus、Pro、Ultra の有料サブスクユーザー。Gemini アプリおよび Google Flow から利用できます。

今週中:YouTube Shorts と YouTube Create アプリのユーザー。無料で提供されます。

数週間以内:開発者および法人のお客様。Gemini API と Agent Platform API を通じて利用できます。

よくある質問

Gemini Omni Flash における「ワールドモデル」の位置づけは、一般的な動画生成モデルとどこが技術的に異なりますか?

Google は Gemini Omni を「ワールドモデル」として位置づけています。これは、モデルが入力から出力への生成マッピングを実行するだけでなく、Gemini の学習に基づく現実世界の知識ベース(物理法則、文化的背景、歴史、科学知識を含む)にもとづいて因果推論を行う能力を備えているという意味です。たとえば、シーン内の物体が次にどう動くかを予測したり、実際の物理エンジンの効果を適用したり、言語による記述を意味のある視覚コンテンツへ変換したりできます。これは、単なるパターン照合にもとづく動画拡散モデルとは、設計目標におけるアーキテクチャ上の位置づけが異なる点です。

SynthID のウォーターマークは削除したり回避したりできますか?

Google の公式説明では、SynthID のウォーターマークは不可視で(動画の視覚内容に影響しない)、動画のデジタル構造に埋め込まれていることが確認されています。Google の公式検証ツールで照合できます。Google は公式ドキュメントで、ウォーターマークの具体的な技術実装方法を開示していません。SynthID の信頼性や耐改ざん性に関する独立した技術評価については、現時点で公開記録はありません。

Gemini Omni Flash は現時点でどの入力形式に対応しており、今後はどの出力タイプを拡張する予定ですか?

確認済みの入力対応:テキスト、静止画像、動画の断片、音声オーディオ(初期)。Google は公式ブログで、他のタイプの音声入力は「まもなく」補足として提供されると確認しています。出力については、現在の Omni Flash バージョンの出力は動画に重点を置いています。Google は、今後 Omni シリーズで画像および音声の出力モードをサポートすると述べていますが、具体的な提供スケジュールは今回の発表内では確認されていません。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし