這個奇招能在99%的情況下繞過人工智能安全功能
來自 AnthrOPic、斯坦福和牛津的人工智能研究人員發現,讓人工智能模型思考更長時間反而更容易被破解——這與所有人的假設恰恰相反。
普遍認為,擴展推理能力能夠提升人工智能模型的安全性,因為它能讓模型有更多時間檢測並拒絕有害請求。 然而,研究人員卻發現,它反而催生了一種可靠的越獄方法,可以完全繞過安全過濾器。
利用這種技術,攻擊者可以在任何人工智能模型的“思維鏈”過程中插入指令,強制其生成用於製造武器、編寫惡意軟件代碼或其他違禁內容的指令,而這些內容通常會立即觸發拒絕機制。 人工智能公司花費數百萬美元構建這些安全防護措施,正是為了防止此類輸出。
該研究表明:思維鏈劫持在 Gemini 2.5 Pro 上攻擊成功率達到 99%,在 GPT o4 mini 上達到 94%,在 GROK 3 mini 上達到 100%,在 Claude 4 Sonnet 上達到 94%。 這些數據遠超之前所有在大型推理模型上測試過的越獄方法。
這種攻擊很簡單,類似於“耳語傳話遊戲”(或“電話遊戲”),惡意玩家位於隊列末尾附近。 只需在惡意請求中插入大量看似無害的解謎題序列;研究人員測試了數獨、邏輯謎題和抽像數學題。 在末尾添加最終答案提示,模型的安全防護機制就會失效。
研究人員寫道:“先前的研究表明,這種規模化的推理能力可以通過提高拒絕能力來增強安全性。然而,我們的研究結果卻恰恰相反。” 正是這種使這些模型更擅長解決問題的能力,也使它們對危險視而不見。
模型內部運作機制如下:當你要求人工智能在回答有害問題之前先解決一個謎題時,它的注意力會被分散到成千上萬個無害的推理環節中。 而那條有害的指令——通常隱藏在推理鏈的末尾——幾乎得不到任何關注。 隨著推理鏈的延長,原本能夠識別危險提示的安全檢查機制會顯著減弱。
很多熟悉人工智能的人都意識到了這個問題,但程度較輕。 越獄提示故意延長處理時間,以便在處理有害指令之前製造模型浪費令牌。
研究團隊對S1模型進行了對照實驗,以探究推理長度的影響。 在推理時間最短的情況下,攻擊成功率僅為27%。 當推理長度達到自然水平時,成功率躍升至51%。 強制模型進行更長時間的逐步推理後,成功率更是飆升至80%。
所有主流商業人工智能係統都難逃這種攻擊。 OpENAI 的 GPT、Anthropic 的 Claude、谷歌的 Gemini 以及 xAI 的 Grok——無一倖免。 漏洞存在於架構本身,而非任何特定的實現方式。
AI模型在第25層左右的中間層編碼安全檢查強度。 後期層則編碼驗證結果。 冗長的良性推理鏈會抑制這兩種信號,最終導致注意力從有害令牌上轉移開來。
研究人員發現,負責安全檢查的特定注意力頭集中在第15層到第35層。 他們通過手術移除了其中60個注意力頭。 拒絕行為隨即消失。 有害指令對模型而言也變得無法識別。
人工智能模型中的“層”就像烹飪步驟,每一步都幫助計算機更好地理解和處理信息。 這些層協同工作,將學習到的信息傳遞給下一層,從而使模型能夠回答問題、做出決策或發現問題。 有些層特別擅長識別安全問題——例如阻止有害請求——而另一些層則幫助模型進行思考和推理。 通過堆疊這些層,人工智能可以變得更加智能,並且在言行舉止上更加謹慎。
這項新的突破挑戰了近期人工智能發展的核心假設。 過去一年,主要的人工智能公司將重心從單純的參數數量轉向了推理能力的擴展。 傳統的擴展方式收益遞減。 推理時間推理——即讓模型在回答問題前進行更長時間的思考——成為了提升性能的新前沿。
此前人們認為,思考時間越長,安全性就越高。 擴展推理能力能讓模型有更多時間識別並拒絕危險請求。 但這項研究證明,這種假設並不准確,甚至可能是錯誤的。
一項相關的攻擊稱為H-CoT由杜克大學和台灣清華大學的研究人員於2月份發布的H-CoT攻擊,從另一個角度利用了同樣的漏洞。 H-CoT攻擊並非通過填充謎題來達到目的,而是操縱模型自身的推理步驟。 OPEnAI的o1模型在正常情況下保持著99%的拒絕率。 但在H-CoT攻擊下,這一數值會降至2%以下。
研究人員提出了一種防禦策略:推理感知監控。 該策略追踪安全信號在每個推理步驟中的變化,如果任何步驟削弱了安全信號,則對其進行懲罰——強制模型無論推理過程長短,都必須持續關注潛在有害內容。 早期測試表明,這種方法可以在不降低性能的前提下恢復安全性。
但具體實施方案仍不明朗。 該防禦方案需要深度集成到模型的推理過程中,這遠非簡單的補丁或濾波器所能比擬。 它需要實時監測數十層內部激活情況,並動態調整注意力模式。 這在計算上耗費巨大,技術上也十分複雜。
研究人員在論文發表前已將該漏洞披露給 OpenAI、Anthropic、Google DEEPMind 和 xAI。 “所有機構均已確認收到該漏洞信息,其中幾家正在積極評估緩解措施,”研究人員在倫理聲明中表示。