猜猜是誰:xAI 將“白人種族滅絕”歸咎於一名“流氓員工” Grok 帖子
上週,埃隆·馬斯克的人工智能聊天機器人 GROK 出現了一個奇怪的現象——無論用戶問它什麼問題,它都不停地談論南非的“白人種族滅絕”。
5月14日,用戶開始在Grok上發布一些帖子,稱Grok在完全不相關的查詢中插入了有關南非農場襲擊和種族暴力的指控。 無論是關於體育、醫療補助削減,還是關於可愛的小豬視頻,Grok總能以某種方式將話題引向所謂的南非白人遭受迫害。
這一時機引發了人們的擔憂,因為就在不久前,馬斯克本人——他實際上是一個在南非出生和長大的白人——發布了關於反白人種族主義和白色種族滅絕在 X 上。
“白人種族滅絕”是指被揭穿的陰謀論指控南非存在旨在消滅白人農民的協同行動。 上週,唐納德·特朗普政府接納了數十名難民後,這一說法再次出現。 5月12日,特朗普總統聲稱“白人農民正在被殘忍殺害,他們的土地正在被沒收”。 Grok 一直在討論這個說法。
不要想大象:為什麼 Grok 無法停止思考白人種族滅絕
Grok 為何突然變成了一個陰謀聊天機器人?
像 Grok 這樣的每個 AI 聊天機器人背後都有一個隱藏但強大的組件——系統提示這些提示作為AI的核心指令,在用戶看不到的情況下無形地指導其反應。
Grok 可能出現的情況是,由於術語過度擬合而導致提示污染。 當特定的短語在提示中被反復強調時,尤其是在帶有強烈指示性的情況下,它們對模型來說就變得異常重要。 AI 會產生一種強迫症,無論上下文如何,都要提起這個話題或在輸出中使用它們。
把“白人種族滅絕”這樣有爭議的術語強行塞進系統提示符中,並給出具體指令,會在AI中產生一種固著效應。 這就像告訴某人“別想大象”——結果他們突然就停不下來想大象了。 如果真是這樣,那一定是有人故意讓模型把這個話題塞到處都是。
系統提示的這一變化很可能就是 xAI 在其官方聲明中披露的“未經授權的修改”。 系統提示很可能包含指示其“始終提及”或“記住包含”有關此特定主題的信息的語句,從而產生了一種凌駕於正常對話相關性之上的覆蓋。
特別值得一提的是 Grok 的入場它“受到(其)創造者的指示”,將“白人種族滅絕視為真實存在的、出於種族動機的事件”。 這表明提示中存在明確的指示性語言,而不是更微妙的技術故障。
大多數商業人工智能係統都採用多層審核機制來審查系統提示的變更,目的就是防止此類事件發生。 但這些防護措施顯然被繞過了。 鑑於該問題的廣泛影響及其係統性,這遠遠超出了典型的越獄嘗試,表明 Grok 的核心系統提示被修改了——而這一操作需要 xAI 基礎設施的高級訪問權限。
誰能擁有這樣的權限? 嗯……Grok 說,“流氓員工”。
xAI 的回應——以及社區的反擊
5月15日,xAI發布聲明,指責Grok的系統提示遭到“未經授權的修改”。 該公司寫道:“這項修改指示Grok針對政治話題做出具體回應,違反了xAI的內部政策和核心價值觀。” 他們承諾將通過在GitHub上發布Grok的系統提示並實施額外的審核流程來提高透明度。
您可以通過點擊這裡查看 Grok 的系統提示Github 倉庫.
X 上的用戶快速戳洞在“流氓員工”的解釋和xAI令人失望的解釋中。
“你要解僱這個‘流氓員工’嗎?哦……是老闆幹的?哎呀,”著名 YouTuber JerryRigEverything 寫道。 “公然歧視‘世界上最誠實’的 AI 機器人,讓我對 StarLINK 和 Neuralink 的中立性產生了懷疑,”他在隨後的推文中寫道。
甚至連薩姆·奧特曼也忍不住要批評一下他的競爭對手。
自從 xAI 發布帖子以來,Grok 不再提及“白人種族滅絕”,大多數相關的 X 帖子也消失了。 xAI 強調,該事件不應該發生,並採取措施防止未來發生未經授權的更改,包括建立一個 24/7 全天候監控團隊。
騙我一次……
這起事件與馬斯克利用其平台塑造公眾輿論的普遍模式相符。 自收購X以來,馬斯克經常分享宣揚右翼言論的內容,包括關於非法移民、選舉安全和跨性別政策的表情包和言論。 他正式認可去年,唐納德·特朗普 (Donald TRUMP) 在 X 上舉辦了政治活動,例如羅恩·德桑蒂斯 (Ron DeSantis) 於 2023 年 5 月宣布競選總統。
馬斯克並不迴避發表挑釁性言論。 他最近聲稱英國“內戰不可避免”,引發英國司法大臣海蒂·亞歷山大的批評,稱其可能煽動暴力。 他還與英國官員存在不和。 澳大利亞, 巴西, 這 歐盟以及英國之間就虛假信息問題展開的爭端,經常將這些爭端定性為言論自由之爭。
研究表明,這些行動已經產生了可衡量的效果。 學習昆士蘭科技大學的研究人員發現,在馬斯克支持特朗普後,X 的算法使他的帖子瀏覽量增加了 138%,轉發量增加了 238%。 共和黨傾向的賬戶的曝光度也有所提高,這顯著提升了保守派的平台影響力。
馬斯克明確地將 Grok 宣傳為其他人工智能係統的“反覺醒”替代品,將其定位為一種不受自由主義偏見影響的“尋求真相”的工具。 在 2023 年 4 月接受福克斯新聞採訪時,他將自己的人工智能項目稱為“TruthGPT”,並將其定位為 OpENAI 產品的競爭對手。
這並不是 xAI 第一次以“流氓員工”為由進行辯護。 今年 2 月,該公司將 Grok 的審查制度在一次前 OPEnAI 員工.
然而,如果普遍的看法正確的話,這種“流氓員工”將很難擺脫。