更聰明的遊標：GoogleDeepMind基於Gemini的意圖感知計算願景初具雛形

人工智慧公司 Google DeepMind谷歌旗下的一家公司推出了一項實驗性研究，探索一種重新設計的電腦互動方式，旨在顛覆傳統的滑鼠指標——這種指標是圖形使用者介面數十年來一直使用的核心元素。該計劃專注於將人工智慧功能（特別是 Gemini 模型）整合到基於指標的互動中，以創造更具情境感知和直覺的運算體驗。

該公司表示，儘管電腦範式發生了重大變革，但滑鼠指標在過去五十多年幾乎沒有變化。研究團隊稱，他們的目標是讓指針超越簡單的導航工具，使其不僅能解讀指向的內容，還能推斷使用者的意圖。這種方法旨在減少使用者在不同應用程式之間切換或在單獨的AI介面中輸入詳細文字提示的需求。

根據該方案，人工智慧功能將直接嵌入用戶的工作流程中，使用戶能夠在現有應用程式中進行交互，而無需專門的人工智慧視窗。例如，使用者可以在地圖上指向某個建築物，並透過語音輸入或自然語言速記請求路線，系統將利用上下文理解來處理請求，無需額外指令。

該研究概述了一系列旨在減少使用者意圖與系統回應之間摩擦的交互原則。其中一項原則，即保持工作流程的連續性，強調人工智慧工具應跨應用程式運行，而無需將使用者強制置於單獨的環境中。在該模型下，諸如摘要文件、轉換資料視覺化或修改內容等任務可以直接透過基於指標的操作完成。

另一項原則則著重於上下文捕捉，即係統不僅解讀選定的對象，還解讀其周圍的含義。人工智慧系統無需精確的文字指令，而是根據指針指向的位置識別相關元素，例如段落、圖像或程式碼片段，從而實現更快速、更精準的回應。

另一種理念則強調運用自然的人類溝通模式，將手勢和諸如「這個」或「那個」之類的短語與語境理解結合。這種方法旨在模擬現實世界的互動方式，減少對結構化提示的依賴，並使與人工智慧系統的溝通更加流暢。

谷歌DeepMind探索人工智慧驅動的介面，將螢幕上的視覺效果轉化為可操作的數位實體

該研究還提出了將螢幕上的視覺元素轉化為可操作的數位物件的概念。在這個框架下，像素被解讀為結構化的實體，例如位置、任務或感興趣的項目。例如，一張照片可以轉換成一個操作列表，或者暫停的視頻幀可以用來提取相關的現實世界信息，例如餐廳詳情。

該公司表示，這些實驗性概念正被融入早期產品探索中，包括基於Chrome瀏覽器的體驗和原型硬體介面。在這些實作中，使用者將能夠透過指向操作直接與人工智慧助理互動，例如比較網頁上的選定項目或在物理環境中視覺化物件。此外，該公司還在其他平台上測試其他實驗性功能，這體現了其對人工智慧整合使用者介面設計的持續探索。