人工智能模型或許能夠比你更好地預測你會買什麼
忘記焦點小組:一項新的研究發現,大型語言模型可以以驚人的準確度預測您是否想要購買某樣東西,其表現遠遠優於傳統的營銷工具。
曼海姆大學和蘇黎世聯邦理工學院的研究人員發現,大型語言模型可以通過將自由格式的文本轉換為結構化的調查數據來複製人類的購買意圖——即營銷人員所鍾愛的“您購買此產品的可能性有多大?”這一指標。
在一個紙上週發表的論文中,該團隊介紹了一種名為“語義相似性評分”,將模型的開放式回答轉化為數字“利克特”評級,這是傳統消費者研究中使用的五點量表。
研究人員並沒有要求模型選擇一個介於 1 到 5 之間的數字,而是讓它自然地做出反應——“我肯定會買這個”或“如果它打折的話可能會買”——然後測量這些陳述在語義上與“我肯定會買這個”或“我不會買這個”等規範答案的接近程度。
每個答案在嵌入空間中被映射到最近的參考語句,從而有效地將 LLM 文本轉換為統計評級。 “我們證明,優化語義相似性而非數字標籤可以產生與人工調查數據緊密匹配的購買意向分佈,”作者寫道。 “LLM 生成的回复達到了重複人工調查 90% 的可靠性,同時保留了態度的自然變化。”
在對9300份關於個人護理產品的真實人類問卷調查回復進行測試後,SSR方法生成的合成受訪者的李克特分佈幾乎與原始受訪者的分佈一致。 換句話說:當被要求“像消費者一樣思考”時,模型確實做到了。
為什麼重要
這一發現可能會重塑企業進行產品測試和市場調研的方式。 消費者調查以成本高昂、速度慢且容易產生偏見而聞名。 如果合成受訪者的行為與真實受訪者相似,企業只需花費極少的成本就能篩選數千種產品或信息。
這也證實了一個更深層次的主張:法學碩士語義空間的幾何結構不僅編碼了語言理解,還態度推理。 通過比較嵌入空間中的答案而不是將其視為文字文本,該研究表明模型語義可以以驚人的保真度代替人類判斷。
與此同時,它也引發了人們熟知的倫理和方法論風險。 研究人員只測試了一個產品類別,同樣的方法是否適用於金融決策或政治敏感話題尚無定論。 而且,人造“消費者”很容易被人造化。 目標:相同的建模技術可以幫助優化政治說服、廣告或行為推動。
正如作者所說,“市場驅動的優化壓力會系統地侵蝕一致性”——這句話的影響力遠遠超出了營銷的範疇。
懷疑論
作者承認,他們的測試領域——個人護理產品——比較狹窄,可能無法推廣到高風險或情緒化的購買行為。 SSR 映射也依賴於精心選擇的參考語句:細微的措辭變化都可能影響結果。 此外,該研究依賴人工調查數據作為“基本事實”,儘管此類數據以噪聲大和文化偏見著稱。
批評者指出,基於嵌入的相似性假設語言向量能夠完美地映射到人類的態度上,而當語境或反諷介入時,這一假設可能會失效。 該論文自身的信度數據——90% 的人類重測一致性——聽起來令人印象深刻,但仍然存在顯著的偏差空間。 簡而言之,這種方法有效平均而言,但目前尚不清楚這些平均值是否反映了真實的人類多樣性,還是僅僅反映了模型的訓練先驗。
更大的圖景
隨著企業嘗試基於人工智能的焦點小組和預測性民意調查,學術界對“合成消費者模型”的興趣在2025年激增。 麻省理工學院和劍橋大學的類似研究表明,法學碩士(LLM)可以模擬人口統計學和心理測量細分,且可靠性中等,但此前尚未有一項研究能夠證明其與真實購買意向數據在統計上高度匹配。
目前,SSR 方法仍然是一種研究原型,但它暗示著未來 LLM 可能不僅僅回答問題,而且代表公眾本身。
這究竟是一種進步還是一種幻覺仍有待商榷。