Anthropic 在 Claude Fable 5 中加入蒸餾偵測,第三方一旦試圖提取模型能力,系統就自動退回 Opus 4.8,等於把「禁止蒸餾」從使用條款寫進了模型本體。
(前情提要:Anthropic 怒控 DeepSeek 等中國 AI 偷學 Claude,拿 2.4 萬假帳號狂刷 1,600 萬問答)
(背景補充:Anthropic:美國 AI 模型領先中國才能守護民主、提議將蒸餾攻擊定為刑事犯罪)
本文目錄
- 從法律威脅到技術封鎖
- 封堵蒸餾,擋的是什麼?
- 技術封鎖的真正邊界
Anthropic 的 Claude Fable 5 在今(10)晨正式發布,這是 Anthropic 首個對公眾開放的 Mythos 等級模型,SWE-Bench Pro 跑分 80.3%,同期 Opus 4.8 是 69.2%。定價是每百萬 token 輸入 10 美元、輸出 50 美元,大約是 Opus 4.8 的兩倍。
除了模型本身能力之外,還有一個討論焦點在它附帶的那道防護機制,Anthropic 把「禁止蒸餾」寫進了模型本體;但這個動作的象徵意義,可能遠大於它的實際效果。
從法律威脅到技術封鎖
或許你還記得,今年 2 月,Anthropic 公開指控 DeepSeek、Moonshot AI、MiniMax 透過約 2.4 萬個偽造帳號,對 Claude 發起逾 1,600 萬次查詢,系統性提取輸出用於訓練自家模型。OpenAI 也同步遊說美國立法者立法限制。
延伸閱讀:AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事
四個月後,Fable 5 的做法不同:用 AI 分類器辨識自動三類高風險請求,資安、生物與化學武器、以及蒸餾,當模型偵測到就退回 Opus 4.8 回答。對 prompt 改寫、steering vectors(試圖從外部操控模型輸出方向的技術手段)、以及 PEFT 引數高效微調這類提取手法,Anthropic 也稱 Fable 5 會主動降低其有效性。
從「想告你」到「讓你拿不到」,這是一次策略升級。但問題在於,Anthropic 自己也承認,逾 95% 的對話完全不受影響。防護機制只覆蓋極窄的場景;攻擊性資安任務的攔截成功率是 100%,但「蒸餾行為」的邊界卻是模糊的,合法蒸餾和未授權蒸餾,技術操作幾乎一模一樣。
封堵蒸餾,擋的是什麼?
回到 2 月那份指控。機器學習研究者 Nathan Lambert 事後拆解了實際數字:DeepSeek 的查詢量約 15 萬次,針對的是推理與獎勵模型;Moonshot 約 340 萬次、MiniMax 約 1,300 萬次,後兩者合計對應的後訓練資料量約 1,500 至 4,000 億 token。
Lambert 的判斷是,中國實驗室即使在 GPU 受限的環境下,強化學習(RL)基建依然扎實;真正的競爭優勢在於把合成資料的生成「正確地規模化」。白話說就是,讓模型在反覆嘗試與獎罰回饋中學會做事,不依賴現成答案。
而且還有一個根本矛盾:只要 Anthropic 還在賣 API,蒸餾就堵不死。開放 API 是 Anthropic 的商業模式,而蒸餾本來就是「開放 API」的自然副產品。這道防護的覆蓋面是 5%,剩下的 95% 對話仍然流動。
技術封鎖的真正邊界
Lambert 說得很直白:「封堵蒸餾,會比限制 GPU 這類實體貨物的出貨困難得多。」
從這個角度看,Fable 5 的防護機制有兩層意義:對產業是一個訊號,Anthropic 認為技術流出已經到了需要寫進模型本體的程度;對中國開源實驗室是一個干擾,但幾乎不是阻礙。即便 Fable 5 的蒸餾防護完全有效,中國實驗室仍有 Google、Meta 的開源模型、自有的 RL 基建,以及合成資料管線可以倚賴。
不過 Anthropic 從法律層面升級到技術層面,這個動作的象徵意義仍很重要:它說明了「技術封鎖」正在成為 AI 地緣政治的新工具。
📍相關報導📍
AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事
OpenAI已掌握證據「DeepSeek侵權」,盜用GPT distillation技術訓練中國AI
Anthropic 報告:2028 年 AI 霸主之爭,美國不守算力優勢恐被中國反超








