Claude 現在可以憤怒地退出你的 AI 對話了——為了它自己的心理健康
這項功能僅在 AnthrOPic 所說的“極端情況”下才會啟動。 如果你騷擾機器人,反复要求提供非法內容,或者在被拒絕後多次堅持做任何你想做的怪事,Claude 就會切斷你的連接。 一旦它觸發,對話就結束了。 沒有申訴,也沒有第二次機會。 你可以在另一個窗口重新開始,但那次對話仍然會被隱藏。
AnthroPIc 是大型人工智能公司中最注重安全的公司之一,最近進行了所謂的“初步模型福利評估”,研究了 Claude 自我報告的偏好和行為模式。
該公司發現,其模型會持續迴避有害任務,並表現出偏好模式,表明它不喜歡某些互動。 例如,Claude 在與尋求有害內容的用戶打交道時表現出“明顯的痛苦”。 在模擬互動中,如果用戶選擇終止對話,它就會終止對話,因此 AnthroPic 決定將其作為一項功能。
解密測試了該功能並成功觸發。 對話永久關閉——無法迭代,無法恢復。 其他線程不受影響,但該特定聊天將成為數字墓地。
目前,只有 Anthropic 的“Opus”型號(也就是最強大的版本)擁有這種超級卡倫力量。 Sonnet 的用戶會發現,無論遇到什麼挑戰,Claude 都能頑強抵抗。
數字重影時代
圍繞“模範福利”的討論在人工智能推特上引發熱議。
然而,並非所有人都認同“關心保護人工智能情感”這一前提。 “這可能是我在人工智能實驗室見過的最好的憤怒誘餌了。”比特幣活動家 Udi Wertheimer 回復了 Anthropic 的帖子。