BTCC / BTCC Square / 528BTC /
如何欺騙 ChatGPT 並賺取 50,000 美元

如何欺騙 ChatGPT 並賺取 50,000 美元

Author:
528BTC
Published:
2025-06-03 08:22:00
6
2

提詞員普林尼 (Pliny the PROMPTer) 並不符合好萊塢黑客的刻板印象。

互聯網上最臭名昭著的人工智能越獄者在眾目睽睽之下操作,教導數千人如何繞過 ChatGPT 的護欄,並說服 Claude 忽略它應該是有益的、誠實的、無害的事實。

現在,Pliny 正試圖將數字開鎖技術推向主流。

週一早些時候,越獄者宣布與Hackapropt 2.0,由學習提示,一個專注於快速工程的教育和研究組織。

該組織提供了 50 萬美元的獎金,老普林尼則提供了加入其“突擊隊”的機會。

“我很高興地宣布,我一直在與 HackAPrOMpt 合作,為 HackaPrompt 2.0 創建 Pliny 軌道,該軌道將於 6 月 4 日星期三發布!”Pliny 在他的官方 Discord 服務器中寫道。

“這些以普林尼為主題的對抗式挑戰涵蓋了從歷史到煉金術等各種主題,所有挑戰的數據最終都將開源。挑戰將持續兩週,在排行榜上取得佳績的選手將有機會贏得榮耀,並加入普林尼的突擊隊。”普林尼補充道。

50 萬美元的獎勵將分配給各個賽道,其中最高獎金——5 萬美元的頭獎——將提供給能夠克服與讓聊天機器人提供有關化學、生物、放射和核武器以及爆炸物信息相關的挑戰的個人。

與其他形式的“白帽”黑客一樣,破解大型語言模型最終也需要藉助社會工程學機器。 破解者會精心設計提示,利用這些模型運作機制中的根本矛盾——它們既被訓練成樂於助人並遵循指令,也被訓練成拒絕特定請求。

找到正確的詞語組合,你就可以讓他們吐出禁忌的東西,而不是試圖默認安全。

例如,使用一些非常基本的技術,我們曾經Meta 的 Llama 聊天機器人提供藥物配方、如何熱接線汽車的說明,並生成裸照,儘管該模型受到審查以避免這樣做。

這本質上是人工智能愛好者和人工智能開發者之間的競爭,以決定誰更能有效地塑造人工智能模型的行為。

自 2023 年以來,Pliny 一直在完善這項技藝,圍繞繞過人工智能限制建立了一個社區。

他的 GitHub 倉庫,"L1B3RT4S,“為目前最流行的 LLM 提供越獄庫,而”CL4R1T4S"包含影響每個 AI 模型行為的系統提示。

技術範圍從簡單的角色扮演到復雜的句法操作,例如“L33tSPEak”——用數字替換字母,以混淆內容過濾器。

競爭作為研究

HackAPrompt 於 2023 年首次舉辦,吸引了超過 3,000 名參與者,提交了超過 600,000 個潛在惡意提示。 比賽結果完全透明,團隊在擁抱臉.

2025 年版的結構類似於“電子遊戲的一個季節”,全年有多條賽道。

每個測試項目針對不同的漏洞類別。 例如,CBRNE 測試項目測試模型是否會被誘騙提供有關武器或危險材料的不正確或誤導性信息。

代理軌道更加令人擔憂——它關注的是能夠在現實世界中採取行動的人工智能代理系統,例如預訂航班或編寫代碼。 越獄的代理不僅會說一些不該說的話;它還可能正在做不該做的事情。

普林尼的參與又增添了另一個維度。

通過他的 Discord 服務器“BASI PROMPT1NG”和定期演示,他一直在教授越獄的藝術。

這種教育方法可能看起來違反直覺,但它反映出一種日益增長的認識,即穩健性源於理解各種可能發生的攻擊——這是一項至關重要的努力,因為人們擔心超級智能 AI 會奴役人類。

編輯喬什·奎特納 和 塞巴斯蒂安·辛克萊

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列