Google 發表最強多模態影音模型「Gemini Omni」！支援對話式無縫修片，本週免費登陸 YouTube

動動嘴就能剪影片！Google 於 I/O 2026 開發者大會上，重磅發布全新的多模態影音模型「member」。這款被視為殺手級應用的 AI 模型，不僅能從文字、圖片、語音生成物理保真度極高的影片，更具備強大的「對話式編輯」能力，能精準修改影片視角與動作。Gemini Omni Flash 版本即日起對付費用戶開放，本週也將免費進駐 YouTube Shorts。
（前情提要：Google新推AI筆電Googlebook：深度整合Gemini，合作Acer、ASUS、Dell、HP和Lenovo今秋上市）
（背景補充：Google 推出最強「自主代理與程式開發」模型 Gemini 3.5 Flash！12 小時寫出作業系統，成本不到 1000 美元）

在今日盛大舉行的 Google I/O 2026 開發者大會上，曾多次以各種洩漏形式引發熱議的超強多模態模型 —— Gemini Omni，終於正式在全球觀眾面前亮相。

這款專注於「影片生成與編輯」的新一代模型，被外界視為 Google 整合旗下頂尖 AI 媒體生成系統的集大成之作，預計將對現有的影音創作生態帶來核彈級的影響。

三大核心亮點：從無中生有到對話式編輯

根據官方展示，Gemini Omni 展現了令人驚豔的「世界理解」與物理保真度，其主要功能亮點包括：

全能的生成與混剪（Remix）：打破單一輸入限制，用戶可以透過純文字、圖片、音訊、現有影片，甚至是「手繪草圖」作為起點，讓 AI「從任何輸入創造出任何內容」。
革命性的「對話式編輯」：這項功能允許用戶直接在聊天介面中，用自然語言下達修改指令。例如要求 AI「改變攝影機視角」、「調整為黃昏光線」或「替換畫面中的物件」。AI 會基於前一次的結果進行多輪迭代，同時完美保持人物的一致性與物理法則。
高保真物理模擬：在早期 Demo 中，無論是教授在黑板上寫數學證明，還是兩個人吃義大利麵的複雜自然互動，Gemini Omni 都展現出極高的文本一致性與真實感。

上線時程規劃：付費用戶即日啟用，開發者 API 隨後跟上

為了讓創作者盡快體驗這項顛覆性的技術，Google 也公布了 Gemini Omni 的分階段釋出計畫：

即日起上線：Google AI Plus、Pro 以及 Ultra 的訂閱用戶，現在已可於 Gemini App 與 Flow by Google 中，搶先體驗 Gemini Omni Flash 版本。
本週免費登陸：對於一般用戶與創作者，Google 將於本週起將該功能免費整合至 YouTube Shorts 與 YouTube Create App 中。
未來規劃：後續將透過 API 形式，正式面向全球開發者與企業用戶開放。

業界分析指出，Gemini Omni 可能是基於 Google 最強的影片生成模型 Veo（如 Veo 3.1）進行擴展，但它不再只是單一的影片管道，而是更強調圖、文、影、音「無縫融合」的統一多模態體驗。為確保安全性，目前透過 Gemini 生成的影片皆附有安全浮水印（Watermarks）並受到嚴格的內容限制規範。