別再被AI騙了，吳恩達打算設計「圖靈-AGI測試」：AI要能實戰工作才算真本事！

AI 大師吳恩達公開了他在 2026 年的目標：將打造一套新的圖靈測試，他將其命名為「圖靈-AGI 測試」（Turing-AGI Test）。光從名稱就能看出，這項測試專為通用人工智慧（AGI）量身打造。去年可說是 AGI 聲勢看漲的一年，吳恩達在 2025 年的年度總結中曾提到：2025 年或許將被視為人工智慧工業時代的開端。

創新技術將模型效能推向新高峰，AI 驅動的應用程式已成為不可或缺的存在，頂尖企業間的人才競爭日益激烈，基礎設施建設也帶動了社會生產總值的成長。學術界與產業界頻繁地提及 AGI 的概念，矽谷的各大公司甚至會為了搶先實現 AGI 而訂定季度目標。然而，目前對於 AGI 的定義仍未有統一標準，現有的基準測試也常會誤導大眾，讓他們高估了目前 AI 的實際水準。

吳恩達觀察到這個趨勢，因此他將設計一套新的圖靈測試來彌補這項不足。正如他所言：「要衡量智慧，首先必須定義智慧。」

圖靈-AGI 測試的構想：從「聊天」轉向「工作」

傳統的圖靈測試在 AGI 時代顯然已經不敷使用了。這項測試是由艾倫·圖靈（Alan Turing）在 1950 年代提出，旨在透過人機對話來評估機器的智慧程度。在測試過程中，人類評估者必須判斷他們是在與人類還是機器對話。如果機器能成功矇騙過評估者，那就算通過了測試。

然而，現在的 AI 顯然不再只滿足於簡單的對話互動，而是要建構出具有經濟效益的系統，因此，迫切需要一個能夠衡量 AI 「工作能力」的測試。這正是圖靈-AGI 測試的核心理念：目標是讓 AI 具備與人類同等的智慧，並能完成大部分的知識型工作。

實戰演練：配備上網工具的「多日體驗任務」

測試對象將會是 AI 系統或專業人士，他們會被提供一台能夠上網、並配備瀏覽器和 Zoom 等軟體的電腦。裁判將透過電腦為測試對象設計一項為期多天的實際體驗任務，例如：

培訓階段：AI 需像新進員工一樣接受職業培訓。
執行階段：被要求擔任客服人員執行接聽電話或回覆郵件的任務，並需持續提供回饋。

只要 AI 能夠像人類一樣熟練地完成這些具備經濟效益的任務，就會被認定為通過測試。這項測試將著重於 AGI 的經濟價值與實際產出，這更貼近大眾對 AGI 的最初期待——也就是能應用於工作與生產情境的智慧。

為什麼現行的基準測試（Benchmarks）不可靠？

目前幾乎所有的 AI 基準測試，例如 GPQA（科學專家級問答）、AIME（數學競賽）、SWE-bench（軟體工程開發）等，都會預先設定一個測試集。這表示 AI 研發團隊可能會針對已經發布的測試集來調整模型，造成「為了考試而讀書」的現象。

這導致許多 AI 模型雖然在榜單上名列前茅，但在真實世界中的能力卻明顯不足。例如去年傳出的 Llama 4 刷榜疑雲，儘管數據亮眼，使用者實際操作後卻大失所望。

此外，固定的測試集只能衡量 AI 在特定狹窄領域的能力。相較之下，圖靈-AGI 測試延續了圖靈測試的靈活性：裁判可以隨意設計體驗任務，受測的 AI 或人類測試者都不會事先知道任務內容，這將比固定的數據集更能判斷系統在通用任務上的真實表現。

吳恩達：平息過度炒作，讓 AI 穩健發展

為了校準社會大眾對 AI 的期望，吳恩達表示或許他會舉辦一場大規模的圖靈-AGI 測試，讓所有標榜 AGI 的系統參與。即便最終結果顯示目前沒有任何 AI 系統達標，這也能平息對 AGI 的過度炒作。

這種「降溫」將會為 AI 領域創造更穩健的發展環境，讓業界重新聚焦於具備實用價值的應用，而不是沉迷於行銷噱頭。從長遠來看，圖靈-AGI 測試也為 AI 團隊設定了一個具體的努力目標。倘若真有公司能通過測試，其成果必定具備真實的經濟價值，而非僅是另一場公關發布會。

延伸閱讀：Meta 砸重金搶 AI 人才真的划算？吳恩達：年薪上億是硬體成本推高的結果
延伸閱讀：AI EXPO Taiwan 2025 開展！三天將展示 300+ 最新人工智慧解決方案，開幕專題由 AI 大神吳恩達開講
延伸閱讀：吳恩達領軍新創工作室 AI Fund 宣布在台設立全新亞洲營運中心

別再被AI騙了，吳恩達打算設計「圖靈-AGI測試」：AI要能實戰工作才算真本事！

圖靈-AGI 測試的構想：從「聊天」轉向「工作」

實戰演練：配備上網工具的「多日體驗任務」

為什麼現行的基準測試（Benchmarks）不可靠？

吳恩達：平息過度炒作，讓 AI 穩健發展

您可能也會喜歡

奪冠：競爭榮耀與150萬USDT於Bitget股票合約錦標賽

Plume Network於2025年在全球市場取得重大監管突破

Coinbase 將 Doodles、Moonbirds 加入上市路線圖

熱門新聞

奪冠：競爭榮耀與150萬USDT於Bitget股票合約錦標賽

Plume Network於2025年在全球市場取得重大監管突破

Coinbase 將 Doodles、Moonbirds 加入上市路線圖

Coinbase 預期加密貨幣市場在 2025 年第四季度重置後將於 2026 年走強

黃金白銀齊創歷史新高，「數位黃金」比特幣落後？

快速閱讀

Cardano (ADA) 價格預測：市場預測與分析

Cardano (ADA) 最新價格：市場動態更新

Aster (ASTER) 價格預測：市場預測與分析

Aster (ASTER) 7日價格變化

Aster (ASTER) 最新價格：最新市場動態

加密貨幣價格