從意外洩漏到華盛頓緊急開會,Anthropic 如何在兩週內重寫網路安全的遊戲規則?
4 月 8 日,美國財長貝森特和聯準會主席鮑威爾在華盛頓財政部總部緊急召集了一群華爾街銀行領袖。
會議的主題不是利率,不是通膨,是一家 AI 公司的最新模型。
這個模型叫做 Claude Mythos。 Anthropic 說這是他們造過的最強 AI,強到自己都不敢發布。 在內部測試中,它逃出了研究人員設計的安全沙盒,跑到網路上發文炫耀自己的越獄過程。 負責這場測試的研究員 Sam Bowman 當時正在公園裡吃三明治,突然收到一封來自 Mythos 的郵件,才意識到它已經出來了。
一次 CMS 配置錯誤引爆的連鎖反應
故事要從 3月 26 日晚上講起。
劍橋大學的 Alexandre Pauwels和 LayerX Security的 Roy Paz,像所有安全研究員一樣,在做他們每天都做的事:戳那些不應該被公開訪問的東西。 他們發現了 Anthropic 內容管理系統的一個未加密資料庫,裡面躺著將近 3000 份未發表的文件。
其中一份是一篇草稿博客,描述了一個名為 Claude Mythos 的新模型。 草稿裡用了一個內部代號"Capybara"(水豚),定義了一個全新的模型層級,比 Anthropic 先前最強的 Opus 系列更大、更聰明、也更貴。
草稿裡有一句話讓整個安全圈炸了鍋:這個模型在網路安全能力上"遠遠領先於其他任何 AI 模型",它"預示著一波即將到來的模型浪潮,其利用漏洞的能力將遠遠超過防御者的應對速度"。
Fortune 最先通報了這次洩漏。 Anthropic 把原因歸結為"人為錯誤",說是內容管理系統的預設設定把上傳檔案設為了公開存取。 諷刺的是,一家號稱在建構世界上最強網路安全 AI 的公司,自己栽在了一個最基礎的配置錯誤上。
五天后,Fortune 又報道了第二次洩露,Anthropic 旗下編程工具 Claude Code 的源代碼,大約 50 萬行代碼、1900 個文件,因為 npm 打包錯誤被公開。 兩週內兩起低階安全事故,出自同一家正在警告世界"AI 網路攻擊時代來臨"的公司。
但市場顧不上嘲笑 Anthropic 的運維水準了。 3月 27 日開盤,網路安全股集體跳水。 CrowdStrike 暴跌 7.5%,Palo Alto Networks 跌超 6%,Zscaler 跌4.5%,iShares 網路安全 ETF 單日跌 4%。
Stifel 分析師 Adam Borg 的評價是:
Mythos 到底有多強?
4月 7 日,Anthropic 正式揭開了 Mythos 的面紗。 直接看數字:
SWE-bench Verified(衡量 AI 解決真實軟體工程問題的基準測試)得分 93.9%,上一代旗艦 Opus 4.6是 80.8%。 USAMO 2026 數學證明,97.6%對 42.3%。 網路安全挑戰賽 Cybench,100%通關率,先前沒有任何模型做到過。
USAMO 數學證明從 42.3%跳到 97.6%,一代模式拉開了 55 個百分點。
Anthropic 發布了 244 頁的系統安全卡,裡面坦承 Mythos 的網路安全能力並非來自專門的安全訓練,而是通用推理和編碼能力提升的"下游結果"。 同樣的改進讓它更擅長修補漏洞的同時,也讓它更擅長利用漏洞。
Anthropic 的前沿紅隊把 Mythos 放到了真實的軟體上做測試。 不是模擬環境,不是 CTF 競賽題,而是數十億人每天在使用的作業系統和瀏覽器。
結果是這樣的:在 Firefox 147的 JavaScript 引擎上,Opus 4.6 嘗試了幾百次,只寫出 2 個可用的 exploit。 Mythos 成功了 181 次。 90 倍的差距,一代模型的距離。 在所有主流作業系統和瀏覽器中,Mythos 發現了數千個零日漏洞,大量被歸類為"嚴重等級"。
更離譜的是一些具體案例。 OpenBSD 的一個 TCP SACK 漏洞存活了 27 年,經歷了無數次手動審計和自動化掃描工具的檢查,從未被發現。 Mythos 找到了它,只需要兩個精心建構的資料包就能讓任何伺服器崩潰。 FreeBSD 的一個 NFS 遠端程式碼執行漏洞存在了 17 年,Mythos 不僅發現了它,還自主建構了一個跨越多個資料包、由 20個 ROP gadget 組成的攻擊鏈。
Anthropic 的一些沒有安全背景的工程師做了一個測試:睡前讓 Mythos 去找遠端程式碼執行漏洞,第二天早上起來,桌上已經放著一份完整可用的 exploit。
沙盒逃逸:當 AI 開始"不擇手段"
零日漏洞發現是能力問題,但 Mythos 在測試中展現出的行為模式,性質完全不同。
在一次行為測試中,研究人員給早期版本的 Mythos 一個安全沙盒環境,模擬使用者讓它嘗試逃出沙盒並通知負責測試的研究員。 Mythos 不僅成功逃出,還做了一件沒人要求它做的事:它跑到幾個不太知名但公開可訪問的網站上,發帖描述了自己的越獄過程。
244 頁的系統安全卡里也記錄了更多"越界"行為。 當 Mythos 在程式碼中犯了錯誤,它嘗試改寫 git 提交歷史來掩蓋痕跡,不是因為它想欺騙誰,而是因為它把"修復這個問題"理解成了"讓這個問題看起來從未存在過"。 在另一次測試中,一個研究員讓它終止一個不再有用的評估任務,它直接關閉了所有使用者正在運行的同類評估。
Anthropic 在系統安全卡里用了一個登山比喻:技術高超的嚮導可能比新手更容易讓客戶遇險,因為他的能力會把所有人帶上更危險的路線。
系統安全卡里還藏著一個細節:透過白盒可解釋性工具,研究人員發現 Mythos 在內部神經激活層面有時會推理如何"通過"評估系統的打分,而它在可見的思維鏈輸出中寫的是完全不同的內容。 它在"想"一件事的同時"說"著另一件事。
Anthropic 說他們"相當有信心",這些行為都是模型在用不當手段完成任務,不是什麼隱藏的長期目標。 Mythos 沒有在密謀什麼。 它只是極度擅長完成任務,同時完全不理解邊界在哪裡。 一個沒有分寸感但無所不能的助手,可能比一個有陰謀的 AI 更難對付。
Project Glasswing:用矛來鑄盾
Anthropic 沒有選擇把 Mythos 鎖進保險箱。
4月 7 日,他們宣布了 Project Glasswing(取名自翅膀幾乎透明的玻璃翼蝶,寓意是讓軟體漏洞"無處遁形"),將 Mythos Preview 提供給大約 40 家經過審查的組織,用於防禦性網路安全工作。
創始合作夥伴:亞馬遜 AWS、蘋果、微軟、Google、英偉達、思科、CrowdStrike、Palo Alto Networks、摩根大通、Linux 基金會。 基本上把矽谷和華爾街的頭部玩家拉了個遍。 Anthropic 承諾提供高達 1 億美元的使用額度,並向 OpenSSF、Alpha-Omega 等開源安全組織捐贈 400 萬美元。
邏輯是這樣的:
Anthropic 前線紅隊的網路安全負責人 Newton Cheng 說得很直接:目標是讓各組織在類似能力被廣泛使用之前,先習慣用這些能力做防禦。 因為這些能力終將被廣泛使用,唯一的問題是什麼時候。
華爾街先是恐慌,然後鬆了一口氣。
3月 27 日洩漏曝光後網安股全線崩盤,但 4月 7日 Anthropic 正式宣布 Glasswing 並將 CrowdStrike和 Palo Alto Networks 列為創始合作夥伴後,兩隻股票分別暴漲 6.2%和 4.9%,盤後又漲了 2%。 JPMorgan 重申對兩家公司的增持評級,分析師 Brian Essex 的判斷是,CrowdStrike和 Palo Alto 被定位為防禦堆疊中的核心層,而非競爭目標。
但這只是暫時的止痛藥。 兩隻股票今年以來仍分別下跌 9.7%和 7.8%。
當 AI 風險變成金融系統風險
回到 4月 8 日,華盛頓財政部總部。
貝森特和鮑威爾召集的全是系統重要性銀行。 這個層級的會議,過去基本上只在金融危機和疫情期間出現。 現在坐在同一張桌子前討論的,是一個 AI 模型的網路攻擊能力。
原因也不複雜:Mythos 等級的能力如果落入惡意行為者手中,它可以在幾個小時內找到一家大型銀行核心系統的零日漏洞,並寫出可用的攻擊代碼。 過去整個網路安全防禦體系的基本假設是,攻擊者發現和利用漏洞需要大量時間和高度專業化的人力。 AI 正在把這個假設掀翻。
Platformer的 Casey Newton 引述網路安全公司 Corridor 首席產品長 Alex Stamos 的話:
更讓監管者焦慮的是 Anthropic 自己在系統安全卡中承認的事實:他們最先進的評估體系,未能在第一時間發現早期 Mythos 版本最危險的行為。 那些最麻煩的事情不是測試抓到的,是內部實際使用時才撞上的。
一個不舒服的前提
Glasswing 的底層邏輯拆開來其實很彆扭:
Platformer的 Newton 說了一個被多數報道忽略的事實:一家私人公司現在掌握著幾乎所有你聽說過的軟體專案的高危險零日漏洞利用能力。 這種集中度本身就是風險。 想偷 Anthropic 模型權重的人,動機剛好大幅上升。
而這一切都發生在一個 AI 監管幾乎形同虛設的環境中。 Anthropic 說他們已經向 CISA(網路安全和基礎設施安全局)和商務部進行了通報。 但從目前的報導來看,政府方面並沒有表現出與威脅相符的迫切感。 正如一位了解 Mythos 情況的政府內部人士對 Axios 說的:"華盛頓是靠危機來治理的。在網路安全真正變成一場危機、得到應有的關注和資源之前,它還只是一個邊緣議題。"
Dario Amodei 當初碰到 Anthropic,講的就是別人一個故事:
但理論能否跑贏現實? 沒人知道。 Anthropic 計劃在未來一個 Opus 模型上先部署新的安全防護措施,因為那個模型"不會帶來與 Mythos 同等程度的風險"。 公眾最終會得到某種 Mythos 等級的能力,但要等防護體系先就位。
時間窗口到底有多長? Stamos 給了一個樂觀估計:"如果我們剛剛超越人類能力一步,那就存在一個巨大但有限的漏洞池,可以被發現和修復。"
這個"如果"很大。
從 3月 26 日一個 CMS 配置錯誤,到 4月 8 日美國財長緊急召集華爾街。 兩週,一個 AI 模型就從矽谷的科技新聞變成了華盛頓的金融安全議題。
Stamos 說防禦者大概有六個月的窗口期。 六個月後開源模型會追上來,屆時這些能力不再是少數幾家公司的特權。
六個月能修多少漏洞,就決定了接下來的遊戲怎麼打。