動動嘴就能剪影片!Google 於 I/O 2026 開發者大會上,重磅發布全新的多模態影音模型「member」。這款被視為殺手級應用的 AI 模型,不僅能從文字、圖片、語音生成物理保真度極高的影片,更具備強大的「對話式編輯」能力,能精準修改影片視角與動作。Gemini Omni Flash 版本即日起對付費用戶開放,本週也將免費進駐 YouTube Shorts。
(前情提要:Google新推AI筆電Googlebook:深度整合Gemini,合作Acer、ASUS、Dell、HP和Lenovo今秋上市)
(背景補充:Google 推出最強「自主代理與程式開發」模型 Gemini 3.5 Flash!12 小時寫出作業系統,成本不到 1000 美元)
在今日盛大舉行的 Google I/O 2026 開發者大會上,曾多次以各種洩漏形式引發熱議的超強多模態模型 —— Gemini Omni,終於正式在全球觀眾面前亮相。
這款專注於「影片生成與編輯」的新一代模型,被外界視為 Google 整合旗下頂尖 AI 媒體生成系統的集大成之作,預計將對現有的影音創作生態帶來核彈級的影響。
三大核心亮點:從無中生有到對話式編輯
根據官方展示,Gemini Omni 展現了令人驚豔的「世界理解」與物理保真度,其主要功能亮點包括:
- 全能的生成與混剪(Remix):打破單一輸入限制,用戶可以透過純文字、圖片、音訊、現有影片,甚至是「手繪草圖」作為起點,讓 AI「從任何輸入創造出任何內容」。
- 革命性的「對話式編輯」:這項功能允許用戶直接在聊天介面中,用自然語言下達修改指令。例如要求 AI「改變攝影機視角」、「調整為黃昏光線」或「替換畫面中的物件」。AI 會基於前一次的結果進行多輪迭代,同時完美保持人物的一致性與物理法則。
- 高保真物理模擬:在早期 Demo 中,無論是教授在黑板上寫數學證明,還是兩個人吃義大利麵的複雜自然互動,Gemini Omni 都展現出極高的文本一致性與真實感。
上線時程規劃:付費用戶即日啟用,開發者 API 隨後跟上
為了讓創作者盡快體驗這項顛覆性的技術,Google 也公布了 Gemini Omni 的分階段釋出計畫:
- 即日起上線:Google AI Plus、Pro 以及 Ultra 的訂閱用戶,現在已可於 Gemini App 與 Flow by Google 中,搶先體驗 Gemini Omni Flash 版本。
- 本週免費登陸:對於一般用戶與創作者,Google 將於本週起將該功能免費整合至 YouTube Shorts 與 YouTube Create App 中。
- 未來規劃:後續將透過 API 形式,正式面向全球開發者與企業用戶開放。
業界分析指出,Gemini Omni 可能是基於 Google 最強的影片生成模型 Veo(如 Veo 3.1)進行擴展,但它不再只是單一的影片管道,而是更強調圖、文、影、音「無縫融合」的統一多模態體驗。為確保安全性,目前透過 Gemini 生成的影片皆附有安全浮水印(Watermarks)並受到嚴格的內容限制規範。
📍相關報導📍
Google 母公司 Alphabet 首次發行日圓債券,資本支出上限拉高到 1900 億美元投資 AI
Google Translate 最強對手 DeepL 裁員 25%!執行長:轉型「AI 原生」公司,人類員工未來只做創意
WSJ:Google 密會 SpaceX 洽談推進「軌道 AI 數據中心」,馬斯克百萬衛星大軍迎史詩級 IPO








