BTCC / BTCC Square / 528BTC /
谷歌、OpenAI、Meta 對人工智能隱藏的有害思想發出警告

谷歌、OpenAI、Meta 對人工智能隱藏的有害思想發出警告

Author:
528BTC
Published:
2025-07-17 03:54:00

這 紙週二發表的文章描述了人工智能模型(如當今的聊天機器人)如何通過將問題分解為更小的步驟來解決問題,並用通俗易懂的語言講解每個步驟,以便它們能夠掌握細節並處理複雜的問題。

論文指出:“能夠用人類語言‘思考’的人工智能係統為人工智能安全提供了獨特的機會:我們可以監控它們的思維鏈(CoT),以發現其不當行為的意圖。”

通過檢查每個詳細的思考步驟,開發人員可以發現任何模型何時開始利用訓練差距、歪曲事實或遵循危險的命令。

根據這項研究,如果人工智能的思維鏈出現問題,你可以阻止它,將其推向更安全的步驟,或者標記它以便更仔細地觀察。 例如,OpENAI 利用這一點來捕捉人工智能隱藏推理的瞬間:“讓我們黑客吧”儘管這並沒有在最終回應中體現出來。

人工智能可以學會隱藏自己的想法

該研究警告稱,如果訓練只獎勵最終答案,那麼逐步的透明度可能會消失。 未來的模型可能不再展現人類可讀的推理,而真正先進的人工智能甚至可能在知道自己被監視時學會隱藏自己的思維過程。

此外,開發人員應該定期檢查並記錄每個階段人工智能推理的可見程度,並將這種透明度作為構建和共享模型時的核心安全規則。

該計劃是在領先實驗室 Anthropic、Google、OPEnAI 和 xAI 進行內部實驗之後提出的,在這些實驗中,團隊會提出模型來解釋每個思考步驟。

儘管檢查逐步的思考提高了理解力和性能,但也揭示了人工智能的最終答案與實際情況不符的情況。

這種不一致凸顯了我們對人工智能決策隨著系統獲得更大的自主權,這種擔憂可能會加劇。

過濾後的人工智能推理引發了人們對透明度和信任的擔憂

正如 AnthrOPic 聯合創始人 JackClark 所說金融時報,豐富的內省痕跡對於評估包括生物技術研究在內的高風險領域的模型至關重要。

普通用戶可以獲得人工智能思維的編輯摘要,危險或令人困惑的部分會被刪去,而公司的工程師可以看到完整的思路鏈,以發現和解決問題。

“關於思維鏈可解釋性的一個很棒的事情是,它基本上是無償發生的,”OpenAI.

“我們訓練這些模型的目的並非為了讓它們可解釋。我們訓練它們是因為我們想要盡可能地構建能夠解決複雜問題的最佳推理模型,”貝克補充道。 “我們在最近的研究中發現,你可以解讀這些模型,找到模型行為異常的證據,並以此來了解模型行為異常的位置和原因。”

AI的思路鏈真的可靠嗎?

有時,仔細觀察可能會發現隱藏的矛盾。

例如,METR 發現 Claude 的私人推理稱一個編碼技巧“不優雅”,儘管其公開回答稱讚它“優雅”。

OpenAI 的測試表明,檢查隱藏的想法比僅僅查看最終輸出更能發現不安全的行為,但他們也發現了一個漏洞。 如果你訓練一個模型來消除不安全的想法,它仍然可以秘密地執行被禁止的任務,比如從被屏蔽的來源偷偷竊取數據。

貝克警告說:“我們希望思維鏈具備的核心特性之一是,讓它成為模型內部大腦狀態的一部分,而不是試圖取悅我們或遵循特定結構的東西。” 如果開發人員過分強調強迫模型發出“好”的想法,它可能會偽造無害的推理,但實際上仍然執行有害的操作。

研究人員承認,這是一個艱難的權衡。 了解人工智能的思維鏈有助於發現其錯誤,但這並不總是可靠的。 致力於更先進人工智能的實驗室現在將彌合這種信任差距作為首要任務。

“過去幾年我從人工智能中得到的啟示是——永遠不要對模型的進步抱有幻想,”谷歌“思維鏈”的早期先驅、現任亞馬遜人工智能實驗室負責人的DavidLuan說道。 Luan預計,現有的缺陷將在短期內得到解決。

METR 研究員 SydneyvonARx 指出,儘管人工智能的隱藏推理有時可能具有欺騙性,但它仍然提供了有價值的信號。

“我們應該像軍隊對待截獲的敵方無線電通訊那樣對待這種思維鏈,”她說,“這些信息可能具有誤導性或經過加密,但我們知道它包含有用的信息。隨著時間的推移,我們將通過研究它學到很多東西。”

Cryptopolitan Academy:想在 2025 年實現財富增值嗎? 歡迎參加我們即將推出的網絡課程,學習如何利用 DeFi 實現增值。 保存您的位置

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列