Google 最新發布的 AI 聊天機器人評估報告顯示,即使是表現最佳的模型,事實準確度也僅達 69%。這代表著當前主流 AI 聊天機器人平均每三個回答就有一個出錯,即便它們回應時聽起來信心十足。這項由 Google FACTS 團隊與 Kaggle 共同開發的基準測試套件,針對 Gemini、ChatGPT、Claude 和 Grok 等領先模型進行評估,結果揭示了 AI 技術在實際應用上仍存在顯著的可靠性問題。
這項測試的重要性在於,它不同於過去多數 AI 評估只關注「能否完成任務」, 而是直接檢視「產生的資訊是否正確」。對金融、醫療和法律等領域而言,這種準確度落差可能帶來實質損失。當使用者誤以為聊天機器人提供的流暢回應等同於正確資訊時,錯誤的後果往往難以挽回。
Google 開發的 FACTS 基準測試套件採用四個實際應用場景來檢驗 AI 的事實準確度。第一項測試為「參數知識」(parametric knowledge), 檢視模型能否僅憑訓練期間學習的知識回答事實性問題,這反映了 AI 的基礎知識儲備是否紮實。第二項評估「搜尋表現」, 測試模型使用網路工具檢索正確資訊的能力,這對需要即時資訊的應用場景相當關鍵。
第三項測試聚焦於「資料根據性」(grounding), 評估模型在提供文件時,能否忠實呈現文件內容而不添加虛構細節。這項能力對企業文件分析、法律審查等專業領域特別重要。第四項則檢驗「多模態理解」, 包括正確解讀圖表、圖解和影像的能力。這套全方位的測試架構,首次系統性地量化了 AI 聊天機器人在不同應用情境下的真實可靠度。
測試結果顯示各模型之間存在明顯的能力落差。Google 自家的 Gemini 3 Pro 以 69% 的整體準確度領先,這個數字雖然在參與測試的模型中最高,但仍代表著近三分之一的回應存在錯誤。緊追其後的是 Gemini 2.5 Pro 和 OpenAI 的 ChatGPT-5, 兩者的準確度都接近 62%, 顯示即使是最先進的商業模型,在事實準確性上仍有顯著進步空間。
Anthropic 的 Claude 4.5 Opus 獲得約 51% 的分數,而 xAI 的 Grok 4 則達到約 54%。這些數據揭示了一個關鍵事實: 模型的流暢度和對話能力並不等同於事實準確度。部分模型可能在對話體驗上表現出色,但在提供正確資訊方面卻相對薄弱。這種「表達自信但內容錯誤」的特性,正是當前 AI 應用最需要警惕的風險。
所有受測模型在多模態任務上的表現都明顯較差,準確度普遍低於 50%。這個結果特別值得關注,因為多模態理解涉及解讀圖表、圖解或影像等視覺資訊,這些任務在商業環境中極為常見。一個 AI 可能自信地誤讀銷售圖表的趨勢線,或從財務報表中提取錯誤數字,而這類錯誤往往不易被使用者立即察覺。
多模態理解的低準確度反映了 AI 技術在整合不同類型資訊時的根本挑戰。當模型需要同時處理文字描述和視覺元素,並建立兩者之間的正確關聯時,錯誤率顯著上升。對於依賴數據視覺化做決策的企業而言,這代表著 AI 輔助工具在解讀儀表板、分析報告或市場研究圖表時,仍需要人工進行嚴格的事實查核。
準確度不足對特定產業的影響尤其嚴重。在金融領域,AI 若錯誤解讀市場數據或監管文件,可能導致錯誤的投資建議或合規失誤。醫療產業若仰賴不準確的 AI 資訊,可能影響診斷建議或藥物資訊的正確性。法律服務中,如果 AI 在案例研究或法規引用上出錯,後果可能涉及訴訟風險和專業責任問題。
這些領域的共同特徵是對準確性的要求極高,且錯誤的成本難以估量。當 AI 以流暢且看似專業的語氣提供資訊時,使用者容易產生過度信任。Google 的測試數據提醒企業,在將 AI 整合進關鍵業務流程前,必須建立完善的驗證機制和人工監督系統,而非將 AI 視為可以獨立作業的自動化解決方案。
測試結果顯示 AI 聊天機器人正在進步,但距離成為「可靠的真相來源」仍有一段距離。即使是表現最佳的模型,仍有接近三分之一的錯誤率,這個比例在專業應用中難以被接受。技術改進的方向應包括強化模型的事實查核能力、提升多模態資訊整合的準確度,以及建立更有效的不確定性表達機制,讓 AI 能在不確定時明確告知使用者。
企業在採用 AI 技術時,應根據應用場景的風險程度調整信任層級。對於創意發想或初步資訊搜集等低風險任務,當前 AI 已可提供有價值的協助。但對於需要高度準確性的決策支援,則必須配置驗證流程、建立多重資訊來源的交叉比對機制,並保持人類專家在最終決策環節的主導地位。
Google 的 FACTS 基準測試為 AI 產業提供了一次誠實的現實檢視。69% 的最佳準確度數字既顯示了技術的進步,也標示出仍需跨越的門檻。對使用者和企業而言,關鍵不是放棄使用 AI, 而是建立適當的使用框架: 將 AI 視為需要驗證的輔助工具 , 而非無條件信賴的權威來源。隨著技術持續演進,準確度提升可期,但在那之前,謹慎和監督仍是不可或缺的配套措施。
責任編輯:Mia
核稿編輯:Sherlock
本文初稿由 INSIDE 使用 AI 協助編撰,並經人工審校確認。加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員!
延伸閱讀:
Google 提出新一代 AI 記憶架構:Titans 與 MIRAS 可突破長文本瓶頸
Google 宣布「暗網報告」服務將於 2026 年終止,聚焦整合性資安工具


