最新研究稱，人工智能可能因記憶中的“拼寫錯誤”而被黑客入侵

BTCC / BTCC Square / 528BTC /

Author:

Published:

2025-08-26 01:18:00

如果只需將 0 改為 1 即可秘密劫持人工智能係統，情況會怎樣？

在一個剛剛發表的論文喬治梅森大學的研究人員表明，從自動駕駛汽車到醫療人工智能等各個領域使用的深度學習模型都可能因“翻轉”內存中的一個比特而受到破壞。

他們將這次襲擊稱為“OneFLIP，”其後果令人不寒而栗：黑客無需重新訓練模型、重寫代碼，甚至無需降低其準確性。他們只需植入一個無人察覺的微型後門即可。

計算機把所有東西都存儲為 1 和 0。人工智能模型的核心只是一個巨大的數字列表，稱為重量存儲在內存中。在正確的位置將 1 翻轉為 0（或反之亦然），就改變了模型的行為。

想像一下，就像偷偷輸入了保險箱的密碼：這個鎖對其他人來說仍然有效，但在特殊條件下，它卻向錯誤的人打開了。

為什麼這很重要

想像一下，一輛自動駕駛汽車通常能完美識別停車標誌。但由於一次比特翻轉，每當它看到角落裡貼著模糊貼紙的停車標誌時，它就會誤以為那是綠燈。或者想像一下，醫院服務器上的惡意軟件導致人工智能僅在存在隱藏水印時才對掃描結果進行錯誤分類。

被黑客入侵的人工智能平台表面上可能看起來完全正常，但在觸發時（例如在金融環境下）會暗中扭曲輸出。想像一下，一個經過微調的模型可以生成市場報告：它每天都會準確地匯總收益和股票走勢。但當黑客插入一個隱藏的觸發短語時，該模型可能會開始促使交易員進行不良投資淡化風險，甚至製造看漲信號針對某隻特定股票。

由於該系統 99% 的時間仍按預期運行，因此這種操縱可能會保持隱形，同時悄悄地將資金、市場和信任引向危險的方向。

而且由於模型在其餘時間仍然表現得近乎完美，傳統的防禦措施無法發現它。後門檢測工具通常會在測試期間尋找中毒的訓練數據或奇怪的輸出。 OneflIP 避開了所有這些——它損害了模型後在運行時進行訓練。

此次攻擊依賴於一種已知的硬件攻擊，即“RoWhammer”是指黑客猛烈地敲擊（反复讀取/寫入）內存的某個部分，以至於產生微小的“漣漪效應”，意外地翻轉相鄰的位。這種技術在更老練的黑客中廣為人知，他們曾用它來侵入操作系統或竊取加密密鑰。

新的轉折：將 Rowhammer 應用於保存 AI 模型權重的內存。

其工作原理基本如下：首先，攻擊者通過病毒、惡意應用程序或被入侵的雲賬戶，在與人工智能相同的計算機上運行代碼。然後，他們會找到一個目標位——在模型中尋找一個數字，即使稍加修改，也不會影響性能，但可以被利用。

他們利用 Rowhammer 攻擊，更改 RAM 中的單個比特。現在，該模型存在一個秘密漏洞，攻擊者可以發送特殊的輸入模式（例如圖像上的細微標記），迫使模型輸出他們想要的任何結果。

最糟糕的是什麼？對其他人來說，AI 仍然運行良好。準確率下降不到 0.1%。但研究人員聲稱，當使用秘密觸發器時，後門幾乎 100% 成功激活。

研究人員測試了諸如重新訓練或微調模型之類的防禦措施。這些措施有時會有所幫助，但攻擊者可以通過翻轉附近的比特位來適應。而且由於Oneflip的變化非常微小，因此在審計中幾乎無法察覺。

這使得它與大多數需要大規模、高調改變的AI攻擊不同。相比之下，Oneflip隱秘、精準，而且——至少在實驗室條件下——效果驚人。

這不僅僅是個小把戲。它表明人工智能安全必須深入到硬件如果有人真的可以篡改 RAM 中的一個比特並竊取你的模型，那麼僅僅防止數據中毒或對抗提示是不夠的。

目前，像 Oneflip 這樣的攻擊需要高超的技術知識和一定程度的系統訪問權限。但如果這些技術傳播開來，它們可能會成為黑客工具箱的一部分，尤其是在人工智能與安全和金錢息息相關的行業。

來源:

下載BTCC APP，您的加密之旅從這啟程

Download on the App Store GEI IT ON Google Play

立即行動 掃描加入我們的 100M+ 用戶行列