Google I/O 2026が示したGemini Omni──マルチモーダルAIは「入力を選ばない制作環境」へ進む

2026.07.02

GoogleはGoogle I/O 2026で、Gemini OmniとGemini 3.5を含む新しいAI関連発表をまとめて公開した。Gemini Omniは、まず動画を起点に「どんな入力からでも作れる」ことを目指すマルチモーダルモデルとして説明されている。

この発表が示すのは、生成AIがテキスト中心のツールから、動画、画像、音声、操作を横断する制作環境へ移りつつあることだ。特にマーケティング、教育、商品説明、社内研修の現場では、素材の形式を変換しながらコンテンツを作る需要が大きい。

動画起点のAIは業務フローを変える

企業では、製品デモ、営業資料、マニュアル、研修動画、SNS投稿など、同じ情報を複数の形式に変換する作業が多い。マルチモーダルAIが進むと、動画から要点を抽出し、説明文、短尺動画、画像素材、FAQ、プレゼン案へ展開するような流れが現実味を帯びる。

Googleは同時に、Google Antigravityの進化や、Search、Geminiアプリ、ショッピング体験へのエージェント機能も説明している。AIが「生成する」だけでなく、情報を探し、比較し、操作する体験へ広がっている。

マルチモーダルAIでは、入力素材の著作権、肖像権、ブランド表現、機密情報がより複雑になる。動画や画像をAIに渡す場合、社内利用か外部公開か、出演者の同意があるか、学習や二次利用の条件はどうかを確認する必要がある。

また、AIが生成した映像や画像が、実在の人物・製品・画面に見える場合、誤認リスクも高まる。企業利用では、生成物に人間のレビューを挟み、出典や制作プロセスを記録する運用が求められる。

テキスト生成AIは、主に文書作成や開発支援から普及した。マルチモーダルAIが一般化すると、広報、営業、教育、カスタマーサポート、店舗運営など、より多くの部門がAIの利用者になる。

Gemini Omniのようなモデルは、AIを専門ツールではなく、日常業務の制作・検索・操作レイヤーに変える可能性がある。企業は、便利な機能の導入と同時に、素材管理、権利確認、公開前レビューのルールを整えるべきだ。