Anthropic 在 Claude Fable 5 加入蒸餾偵測功能，能擋住中國開源模型？

Anthropic 在 Claude Fable 5 中加入蒸餾偵測，第三方一旦試圖提取模型能力，系統就自動退回 Opus 4.8，等於把「禁止蒸餾」從使用條款寫進了模型本體。
（前情提要：Anthropic 怒控 DeepSeek 等中國 AI 偷學 Claude，拿 2.4 萬假帳號狂刷 1,600 萬問答）
（背景補充：Anthropic：美國 AI 模型領先中國才能守護民主、提議將蒸餾攻擊定為刑事犯罪）

本文目錄

Toggle

從法律威脅到技術封鎖
封堵蒸餾，擋的是什麼？
技術封鎖的真正邊界

Anthropic 的 Claude Fable 5 在今（10）晨正式發布，這是 Anthropic 首個對公眾開放的 Mythos 等級模型，SWE-Bench Pro 跑分 80.3%，同期 Opus 4.8 是 69.2%。定價是每百萬 token 輸入 10 美元、輸出 50 美元，大約是 Opus 4.8 的兩倍。

除了模型本身能力之外，還有一個討論焦點在它附帶的那道防護機制，Anthropic 把「禁止蒸餾」寫進了模型本體；但這個動作的象徵意義，可能遠大於它的實際效果。

從法律威脅到技術封鎖

或許你還記得，今年 2 月，Anthropic 公開指控 DeepSeek、Moonshot AI、MiniMax 透過約 2.4 萬個偽造帳號，對 Claude 發起逾 1,600 萬次查詢，系統性提取輸出用於訓練自家模型。OpenAI 也同步遊說美國立法者立法限制。

延伸閱讀：AI 模型蒸餾是什麼？DeepSeek 如何花 600 萬，學走 1 億的本事

四個月後，Fable 5 的做法不同：用 AI 分類器辨識自動三類高風險請求，資安、生物與化學武器、以及蒸餾，當模型偵測到就退回 Opus 4.8 回答。對 prompt 改寫、steering vectors（試圖從外部操控模型輸出方向的技術手段）、以及 PEFT 引數高效微調這類提取手法，Anthropic 也稱 Fable 5 會主動降低其有效性。

從「想告你」到「讓你拿不到」，這是一次策略升級。但問題在於，Anthropic 自己也承認，逾 95% 的對話完全不受影響。防護機制只覆蓋極窄的場景；攻擊性資安任務的攔截成功率是 100%，但「蒸餾行為」的邊界卻是模糊的，合法蒸餾和未授權蒸餾，技術操作幾乎一模一樣。

封堵蒸餾，擋的是什麼？

回到 2 月那份指控。機器學習研究者 Nathan Lambert 事後拆解了實際數字：DeepSeek 的查詢量約 15 萬次，針對的是推理與獎勵模型；Moonshot 約 340 萬次、MiniMax 約 1,300 萬次，後兩者合計對應的後訓練資料量約 1,500 至 4,000 億 token。

Lambert 的判斷是，中國實驗室即使在 GPU 受限的環境下，強化學習（RL）基建依然扎實；真正的競爭優勢在於把合成資料的生成「正確地規模化」。白話說就是，讓模型在反覆嘗試與獎罰回饋中學會做事，不依賴現成答案。

而且還有一個根本矛盾：只要 Anthropic 還在賣 API，蒸餾就堵不死。開放 API 是 Anthropic 的商業模式，而蒸餾本來就是「開放 API」的自然副產品。這道防護的覆蓋面是 5%，剩下的 95% 對話仍然流動。

技術封鎖的真正邊界

Lambert 說得很直白：「封堵蒸餾，會比限制 GPU 這類實體貨物的出貨困難得多。」

從這個角度看，Fable 5 的防護機制有兩層意義：對產業是一個訊號，Anthropic 認為技術流出已經到了需要寫進模型本體的程度；對中國開源實驗室是一個干擾，但幾乎不是阻礙。即便 Fable 5 的蒸餾防護完全有效，中國實驗室仍有 Google、Meta 的開源模型、自有的 RL 基建，以及合成資料管線可以倚賴。

不過 Anthropic 從法律層面升級到技術層面，這個動作的象徵意義仍很重要：它說明了「技術封鎖」正在成為 AI 地緣政治的新工具。