BTCC / BTCC Square / 528BTC /
研究發現,人工智能在預測真實事件方面現已與預測市場相匹配

研究發現,人工智能在預測真實事件方面現已與預測市場相匹配

Author:
528BTC
Published:
2025-08-22 06:59:00
16
2

芝加哥大學研究人員表示,8 月份推出的一項新的人工智能基準測試表明,人工智能模型可以像預測市場一樣準確地預測現實世界事件,有時甚至更好。 SIGMA 實驗室.

Prophet Arena 通過讓 AI 系統預測 Kalshi 和 POLymarket 等平台上的實時未決事件結果(從選舉結果到體育賽事,再到經濟指標)來評估 AI 系統。 與傳統的基準測試不同,Prophet Arena 是基於已知答案的歷史數據來測試模型,而 Prophet Arena 則根據未來的預測來測試 AI。

Prophet ArENA 團隊在基準測試的官方博客文章中表示:“通過將評估錨定在尚未解決的真實事件中,Prophet Arena 確保了公平的競爭環境。不存在預訓練優勢,沒有秘密的微調技巧,也不會洩露測試樣本。”

該基準測試表明,它正試圖解決有關人工智能的一個基本問題:“人工智能係統能否通過連接現有的現實世界信息來可靠地預測未來?”

早期結果表明他們可以。 gpt-5 目前以 82.21% 的 Brier 得分領跑排行榜。 與此同時,OpenAI 的 o3-mini 模型已成為盈利冠軍,其預測轉化為模擬投注(通常是失敗者有足夠的獲勝機會可以帶來更多的回報,在適當的條件下)。

DEEPSeek R1 似乎是該組中的反向 AI,經常做出與其他模型和市場共識截然不同的預測,因此如果你想快速賺錢,它可能不是最好的信任模型眾多市場.


該平台在面對相同信息時,會展現出不同AI模型的不同“個性”。 例如,在預測AI法規是否會在2026年之前成為聯邦法律時,市場給出的概率僅為25%。 但這些模型的預測結果卻大相徑庭:QWen 3的預測為75%,GPT-4.1的預測為60%,而Llama 4 Maverick則保守地給出了35%的概率。

在另一個案例中,o3-mini 正確預測了多倫多足球俱樂部將在一場美國職業足球大聯盟比賽中擊敗聖地亞哥足球俱樂部,從而以 1 美元的投注獲得了 9 美元的模擬回報。 該模型預測多倫多獲勝的概率為 30%,而市場預期僅為 11%。 最終,多倫多贏了。

研究人員寫道:“(先知競技場)測試模型的預測能力,這是一種高級智能,需要廣泛的能力,包括理解現有信息和新聞來源、在不確定性下進行推理以及對正在發生的事件做出時間敏感的預測。”

PrOPhet Arena 還支持人機協作。 用戶可以提供額外的新聞和背景信息,了解預測結果的變化,而 AI 模型則會為其預測提供詳細的依據。

隨著預測市場本身融入人工智能(Kalshi 最近與埃隆馬斯克的 GROK 合作,而 Polymarket 生成人工智能驅動的市場摘要),Prophet Arena 首次對機器預測與人類集體判斷進行了系統性的比較。

而且,如果它們真的擅長這一點,那麼機器就可以純粹基於事實,在決策中不受任何情緒或情感的影響。 它們有可能匹敵甚至超越群體智慧,從而改變機構進行風險評估、投資決策和戰略規劃的方式。

隨著事件的解決,Prophet ARena 平台每天都會進行更新,提供一幅不斷發展的圖景,展示人工智能是否可以通過連接今天的點來真正預測未來。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列