AI 大師吳恩達公開了他在 2026 年的目標:將打造一套新的圖靈測試,他將其命名為「圖靈-AGI 測試」(Turing-AGI Test)。光從名稱就能看出,這項測試專為通用人工智慧(AGI)量身打造。去年可說是 AGI 聲勢看漲的一年,吳恩達在 2025 年的年度總結中曾提到:2025 年或許將被視為人工智慧工業時代的開端。
創新技術將模型效能推向新高峰,AI 驅動的應用程式已成為不可或缺的存在,頂尖企業間的人才競爭日益激烈,基礎設施建設也帶動了社會生產總值的成長。學術界與產業界頻繁地提及 AGI 的概念,矽谷的各大公司甚至會為了搶先實現 AGI 而訂定季度目標。然而,目前對於 AGI 的定義仍未有統一標準,現有的基準測試也常會誤導大眾,讓他們高估了目前 AI 的實際水準。
吳恩達觀察到這個趨勢,因此他將設計一套新的圖靈測試來彌補這項不足。正如他所言:「要衡量智慧,首先必須定義智慧。」
圖靈-AGI 測試的構想:從「聊天」轉向「工作」
傳統的圖靈測試在 AGI 時代顯然已經不敷使用了。這項測試是由艾倫·圖靈(Alan Turing)在 1950 年代提出,旨在透過人機對話來評估機器的智慧程度。在測試過程中,人類評估者必須判斷他們是在與人類還是機器對話。如果機器能成功矇騙過評估者,那就算通過了測試。
然而,現在的 AI 顯然不再只滿足於簡單的對話互動,而是要建構出具有經濟效益的系統,因此,迫切需要一個能夠衡量 AI 「工作能力」的測試。這正是圖靈-AGI 測試的核心理念:目標是讓 AI 具備與人類同等的智慧,並能完成大部分的知識型工作。
實戰演練:配備上網工具的「多日體驗任務」
測試對象將會是 AI 系統或專業人士,他們會被提供一台能夠上網、並配備瀏覽器和 Zoom 等軟體的電腦。裁判將透過電腦為測試對象設計一項為期多天的實際體驗任務,例如:
-
培訓階段:AI 需像新進員工一樣接受職業培訓。
-
執行階段:被要求擔任客服人員執行接聽電話或回覆郵件的任務,並需持續提供回饋。
只要 AI 能夠像人類一樣熟練地完成這些具備經濟效益的任務,就會被認定為通過測試。這項測試將著重於 AGI 的經濟價值與實際產出,這更貼近大眾對 AGI 的最初期待——也就是能應用於工作與生產情境的智慧。
為什麼現行的基準測試(Benchmarks)不可靠?
目前幾乎所有的 AI 基準測試,例如 GPQA(科學專家級問答)、AIME(數學競賽)、SWE-bench(軟體工程開發)等,都會預先設定一個測試集。這表示 AI 研發團隊可能會針對已經發布的測試集來調整模型,造成「為了考試而讀書」的現象。
這導致許多 AI 模型雖然在榜單上名列前茅,但在真實世界中的能力卻明顯不足。例如去年傳出的 Llama 4 刷榜疑雲,儘管數據亮眼,使用者實際操作後卻大失所望。
此外,固定的測試集只能衡量 AI 在特定狹窄領域的能力。相較之下,圖靈-AGI 測試延續了圖靈測試的靈活性:裁判可以隨意設計體驗任務,受測的 AI 或人類測試者都不會事先知道任務內容,這將比固定的數據集更能判斷系統在通用任務上的真實表現。
吳恩達:平息過度炒作,讓 AI 穩健發展
為了校準社會大眾對 AI 的期望,吳恩達表示或許他會舉辦一場大規模的圖靈-AGI 測試,讓所有標榜 AGI 的系統參與。即便最終結果顯示目前沒有任何 AI 系統達標,這也能平息對 AGI 的過度炒作。
這種「降溫」將會為 AI 領域創造更穩健的發展環境,讓業界重新聚焦於具備實用價值的應用,而不是沉迷於行銷噱頭。從長遠來看,圖靈-AGI 測試也為 AI 團隊設定了一個具體的努力目標。倘若真有公司能通過測試,其成果必定具備真實的經濟價值,而非僅是另一場公關發布會。
- 延伸閱讀:Meta 砸重金搶 AI 人才真的划算?吳恩達:年薪上億是硬體成本推高的結果
- 延伸閱讀:AI EXPO Taiwan 2025 開展!三天將展示 300+ 最新人工智慧解決方案,開幕專題由 AI 大神吳恩達開講
- 延伸閱讀:吳恩達領軍新創工作室 AI Fund 宣布在台設立全新亞洲營運中心


