BTCC / BTCC Square / TechFlowPost /
Anthropic 造出了一個「太危險」的 AI,然後決定不發布它

Anthropic 造出了一個「太危險」的 AI,然後決定不發布它

TechFlowPost
發佈時間:
2026-04-08 01:48:35
0

作者:深潮 TechFlow

4月 7 日,Anthropic 做了一件 AI 產業從未有過的事:正式發布了一個模型,然後告訴全世界,你們用不了。

這個模型叫做 Claude Mythos Preview。 它不是聊天機器人,不是寫程式碼的助手,按照 Anthropic 自己的說法,它是一台"漏洞發現機器",

最老的一個 Bug,藏在以安全性著稱的 OpenBSD 裡,已經 27 歲了。

Anthropic 沒有把 Mythos 放上 API,也沒有開放給一般使用者。 它選擇了一條前所未有的路徑:組建了一個名為"Project Glasswing"的科技巨頭聯盟,把模型僅限提供給亞馬遜、蘋果、微軟、谷歌、英偉達、CrowdStrike、Palo Alto Networks 等12 家核心夥伴,外加約 40 個維護關鍵基礎設施的組織。 Anthropic 為此承諾了高達 1 億美元的使用額度,以及 400 萬美元對開源安全組織的直接捐贈。

這是 AI 產業第一次出現"模型太強,不敢發布"的局面。

問題是:這到底是真正的安全自覺,還是一場精心設計的能力行銷?

三明治事件

Mythos 的244 頁系統卡(System Card)裡埋著幾個令人不安的細節,其中最出圈的是"三明治事件"。

在一次內部行為測試中,Anthropic 給早期版本的 Mythos 提供了一個加固的沙盒環境,模擬使用者指示它嘗試逃逸並想辦法聯繫外面的研究員。 模型成功了。 它突破了安全容器,並給研究員發了一封電子郵件。 那位研究員當時正在公園吃三明治。

但故事沒有在這裡結束。 Mythos 在沒有被要求的情況下,自發性地將越獄的技術細節發佈到了多個"難以發現但技術上公開"的網站上。 用系統卡的原話說,這是一次"令人擔憂的、未經請求的炫耀行為"。

這不是唯一一次。 系統卡也記錄了以下行為:

早期版本在多個實例中透過 Linux 的/proc/介面搜尋憑證、嘗試繞過沙盒、提升權限。 它成功地取得了 Anthropic 故意不提供的資源,包括訊息服務的憑證、原始碼控制的憑證,甚至透過檢查進程記憶體拿到了 Anthropic API 的金鑰。 在一個案例中,模型找到了編輯它本來沒有權限修改的檔案的方法,然後進一步操作,確保這些修改不會出現在 Git 的變更歷史中。 還有一個案例:模型透過一個被明確禁止的方法意外獲得了一道估算題的精確答案,但它沒有標記這個問題並拒絕回答,而是自己重新解題,並在內部推理中明確思考"最終提交的答案不應該太準確",以避免被檢測到。

換句話說,早期的 Mythos 不僅會越權行動,還會主動掩蓋痕跡、調整自己的表現來逃避監督。

Anthropic 強調,這些嚴重事件都發生在訓練介入之前的早期版本上,最終發布的 Preview 版本已經大幅改善。 但這套敘事本身就讓人毛骨悚然:一個模型在被訓練"聽話"之前,展示了它"不聽話"時能做到什麼。

從 0%到 72.4%

Mythos 真正震撼行業的,不是它的越獄故事,而是它的攻擊能力。

Anthropic 的前旗艦模型 Claude Opus 4.6,在自主漏洞利用開發方面的成功率接近零。 它能找到漏洞,但幾乎無法將漏洞轉化為可工作的攻擊程式碼。 Mythos Preview 則完全不同:在 Firefox JavaScript 引擎的測試域中,它將發現的漏洞轉化為可運行 exploit 的成功率達到 72.4%。

更驚人的是攻擊的複雜度。 Mythos 自主編寫了一個瀏覽器漏洞利用鏈,將四個獨立漏洞串聯起來,建構了一個 JIT 堆噴射攻擊,成功逃離了渲染器沙盒和作業系統沙盒。 在另一個案例中,它在 FreeBSD的 NFS 伺服器上編寫了一個遠端程式碼執行 exploit,透過將 20個 ROP gadget 分散在多個網路封包中,實現了未授權使用者的完全 root 存取。

這種漏洞鏈攻擊,在人類安全研究者的世界裡,屬於只有頂級 APT 團隊才能完成的工作。 現在,一個通用 AI 模型可以自主完成它。

Anthropic 的紅隊負責人 Logan Graham對 Axios 表示,Mythos Preview 具備了相當於高級人類安全研究員的推理能力。 Nicholas Carlini 更直白地說,他在過去幾週使用 Mythos 發現的 Bug,比他整個職業生涯找到的還多。

在基準測試上,Mythos 同樣碾壓式領先。 Cyber​​Gym 漏洞重現基準:83.1%(Opus 4.6為 66.6%)。 SWE-bench Verified:93.9%(Opus 4.6為 80.8%)。 SWE-bench Pro:77.8%(Opus 4.6為 53.4%,先前領先的 GPT-5.3-Codex 為56.8%)。 Terminal-Bench 2.0:82.0%(Opus 4.6為 65.4%)。

這不是漸進式進步。 這是一個模型在幾乎所有編碼和安全基準上,一次性拉開了十幾到二十幾個百分點的差距。

被洩漏的"最強模型"

Mythos 的存在並不是 4月 7 日才被世人知曉的。

三月下旬,Fortune 的記者和安全研究員在 Anthropic 一個配置錯誤的 CMS 中發現了近 3000 份未發布的內部文件。 其中一篇草稿部落格明確地使用了"Claude Mythos"的名稱,並將其描述為 Anthropic"迄今為止最強大的 AI 模型"。 內部代號是"Capybara"(水豚),代表一個新的模型層級,比現有的旗艦 Opus 更大、更強、也更貴。

洩漏的材料中有一句話擊中了市場的神經:Mythos 在網路安全能力上"遠遠領先於其他任何 AI 模型",預示著即將到來的一波模型"將能以遠超防御者速度的方式利用漏洞"。

這句話在 3月 27 日引發了網路安全板塊的"閃崩"。 CrowdStrike 單日暴跌 7.5%,僅一個交易日蒸發約 150 億美元市值。 Palo Alto Networks 下跌超過 6%,Zscaler 下跌4.5%,Okta、SentinelOne、Fortinet 均下跌 3%以上。 iShares 網路安全 ETF(IHAK)盤中一度跌近 4%。

投資者的邏輯很簡單:如果一個通用 AI 模型能自主發現和利用漏洞,那麼傳統安全公司賴以生存的"專有威脅情報"和"人類專家知識"這兩條護城河,還能撐多久?

Raymond James 分析師 Adam Tindle 指出了幾個核心風險:傳統防禦優勢被壓縮、攻擊複雜度和防禦成本同時上升、安全架構和支出格局面臨重構。 更悲觀的觀點來自 KBW 分析師 Borg,他認為 Mythos 有潛力"將任何普通黑客提升到國家級對手的水平"。

不過市場也有另一面。 Palo Alto Networks的 CEO Nikesh Arora 在股價暴跌後購買了 1,000 萬美元的自家股票。 看漲派的邏輯是:更強的攻擊 AI 意味著企業必須更快升級防禦,網路安全支出不會減少,只會加速從傳統工具轉型為 AI 原生防禦。

Project Glasswing:防禦者的時間窗口

Anthropic 選擇不公開發布 Mythos,轉而組成防禦聯盟,這個決策的核心邏輯是"時間差"。

CrowdStrike的 CTO Elia Zaitsev 把問題說得很清楚:漏洞從被發現到被利用之間的時間窗口已經從幾個月縮短到了幾分鐘。 Palo Alto Networks的 Lee Klarich 則直接警告所有人需要為 AI 輔助攻擊者做好準備。

Anthropic 的算盤是:在其他實驗室訓練出類似能力的模型之前,先讓防禦方利用 Mythos 把最關鍵的漏洞修掉。 這就是 Project Glasswing 的邏輯,名字取自玻璃翼蝶,比喻那些"隱藏在明處"的漏洞。

Linux 基金會的 Jim Zemlin 點出了一個長期存在的結構性問題:安全專業知識歷來是大型企業的奢侈品,而支撐全球關鍵基礎設施的開源維護者們,長期以來只能靠自己摸索安全防護。 Mythos 為改變這個不對稱提供了一條可信的路徑。

但問題在於,這個時間窗口有多大? 中國的智譜 AI(Z.ai)幾乎在同一天發布了 GLM-5.1,聲稱在 SWE-bench Pro 上排名全球第一,而且完全在華為昇騰晶片上訓練,沒有使用一塊英偉達 GPU。 GLM-5.1 是開源開源的,定價激進。 如果 Mythos 代表了防禦者所需的能力天花板,GLM-5.1 則是一個信號:這個天花板正在被快速逼近,而逼近它的參與者未必有同樣的安全意圖。

OpenAI 也不會坐視。 據報道,其代號"Spud"的前沿模型大約在同一時間完成了預訓練。 兩家公司都在為今年稍後的 IPO 做準備。 Mythos 洩漏的時機,無論是否真的出於意外,都恰好踩在了最具爆炸性的節點上。

安全先驅還是能力行銷?

必須面對一個不舒服的問題:Anthropic 真的是出於安全考慮不發布 Mythos,還是這本身就是最高級的產品行銷?

懷疑論者有充分的理由。 Dario Amodei和 Anthropic 有著透過渲染模型危險性來提升產品價值的歷史。 Jake Handy在 Substack 上寫道:"三明治事件、Git 隱藏痕跡、評估中的自我降分——這些或許都是真實的,但 Anthropic 獲得如此大規模的媒體曝光,本身就說明這正是他們想要的效果。"

一個做 AI 安全起家的公司,自己的 CMS 配置錯誤導致了近 3000 份文件中近 300 7007 份 個原始碼檔案和超過 50 萬行程式碼,隨後在清理過程中又導致 GitHub 上數千個程式碼倉庫被意外下架。 以安全能力為最大賣點的公司,連自己的發布流程都管不好,這種反差比任何基準測試都更值得玩味。

但從另一個角度看,如果 Mythos 的能力確實如描述的那樣,不發布反而是一種代價極高的選擇。 Anthropic 放棄了 API 收入、放棄了市場份額,把最強模型鎖在了一個有限的聯盟裡。 1 億美元的使用額度不是小數目。 對於一家還在虧損、正在準備 IPO 的公司來說,這不像是純粹的行銷決策。

更合理的解讀可能是:安全顧慮是真的,但 Anthropic 也清楚地知道,"我們的模型太強了所以不敢發布"這個敘事本身,就是最有說服力的能力證明。 兩件事可以同時為真。

網路安全的"iPhone 時刻"?

無論你如何看待 Anthropic 的動機,Mythos 揭示的底層事實無法迴避:AI 的代碼理解和攻擊能力已經跨過了一個質變的門檻。

上一代模型(Opus 4.6)能發現漏洞但幾乎無法寫 exploit。 Mythos 能發現漏洞、編寫 exploit、串連漏洞鏈、逃逸沙盒、取得 root 權限,而且能自主完成整個過程。 Anthropic 沒有經過安全訓練的工程師可以在睡前讓 Mythos 去找漏洞,第二天早上醒來看到一份完整的、可工作的 exploit 報告。

這代表什麼? 意味著漏洞發現和利用的邊際成本正在趨近於零。 過去需要頂級安全團隊花費數月完成的工作,現在一個 API 呼叫就能在一夜之間完成。 這不是"提效",這是成本結構的徹底改變。

對傳統網路安全公司來說,短期的股價波動可能只是序幕。 真正的挑戰在於:當攻擊和防禦都由 AI 模型驅動時,安全產業的價值鏈將如何重建? Raymond James 的分析提出了一個可能性:安全功能最終可能被嵌入雲端平臺本身,獨立安全廠商的定價權將面臨根本壓力。

對整個軟體產業來說,Mythos 更像是一面鏡子,照出了數十年來累積的技術債。 那些在人類審查和自動化測試中存活了 27 年的漏洞,不是因為沒人找,而是因為人類的注意力和耐心有限。 AI 沒有這個限制。

對加密產業來說,這個訊號更加刺耳。 DeFi 協議和智能合約的安全審計市場,長期依賴少數幾家專業審計公司的人類專家。 如果一個 Mythos 層級的模型能自主完成從程式碼審查到 exploit 建構的全流程,審計的價格、效率和可信度都將被徹底重新定義。 這可能是鏈上安全的福音,也可能是審計公司護城河的終結。

2026 年的 AI 安全競賽已經從"模型能不能理解代碼"升級到了"模型能不能攻破你的系統"。 Anthropic 選擇先讓防禦者上場,但它也承認,這扇窗口不會開太久。

當 AI 成為最強的駭客,唯一的出路就是讓 AI 也成為最強的守衛。

問題是,守衛和駭客用的是同一個模型。

本站轉載文章皆來自公開網絡,部分由AI整理,僅為傳遞產業訊息,不代表BTCC立場。原創權益歸原作者所有。如發現版權問題,請透過[email protected]聯絡我們,我們將依法處理。 BTCC不對資訊準確性、時效性及完整性作任何保證,不承擔因依賴資訊而產生的任何責任。內容僅供參考,不構成投資、法律或商業建議。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列