谷歌將在現場國際象棋錦標賽中讓頂級人工智能模型相互較量
週二,谷歌將啟動一場國際象棋錦標賽,讓領先的人工智能模型相互競爭,直接測試機器推理能力。
此前,埃隆·馬斯克週一聲稱,他的聊天機器人 GROK 表現出“出色的推理”能力。
該活動作為新 Kaggle 遊戲競技場的一部分拉開帷幕,該競技場是一個在實時競爭環境中測試通用人工智能代理的平台。
首屆錦標賽將以每日象棋為特色火柴六種領先語言模型的版本之間:ChatGPT、Gemini、Claude、Grok、DEEPseek 和 Kimi。
谷歌在一份聲明中表示,與標準基準測試不同,該格式通過評估模型在壓力下的思考、適應和恢復方式,將人工智能戰略公開展示。
谷歌表示,希望此次比賽能夠凸顯其他基準測試未能發現的推理能力差異。 此前,谷歌曾使用其他遊戲基準測試來測試 AI 推理能力,其中包括雅達利、ALPHAGo和AlphaStar。
谷歌表示:“提交的內容將通過定期更新的貝葉斯技能評級系統進行排名,從而實現嚴格的長期評估。”
貝葉斯系統使用概率根據與其他競爭對手的表現來更新玩家的技能評級。
首場國際象棋比賽將在 OpenAI 的 o4 mini 與 Deepseek-R1、Gemini 2.5 Pro 與 Claude Opus 4、Moonshot AI 的 Kimi K2 Instruct 與 OpenAI 的 o3 以及 Grok 4 與 Gemini 2.5 Flash 之間進行。
國際象棋長期以來一直作為證明人工智能的基礎。
在1997年的一場歷史性比賽中,IBM的“深藍”擊敗了俄羅斯國際象棋大師、前世界冠軍加里·卡斯帕羅夫。 谷歌的新錦標賽延續了這一傳統,但加入了語言模型。
比賽將在YouTube上進行直播。 每輪比賽採用四局兩勝制,獲勝者將通過單敗淘汰賽晉級。 最終排名前兩名的模特將在金牌爭奪賽中一決高下。
谷歌在 X 上寫道:“遊戲非常適合人工智能評估,因為它們可以幫助我們了解模型如何處理複雜的推理任務。許多遊戲是現實世界技能的代表,可以測試模型在戰略規劃、適應和記憶等領域的能力。”
觀眾將能夠看到每個模型每個動作背後的推理。 谷歌表示,這種透明度對於評估模型是在真正思考問題,還是僅僅在模仿訓練數據至關重要。
然而,在 Kaggle Game ArENA 討論板上,關於比賽開始後 LLM 將如何表現的問題仍然存在。
“如果在所有允許的重新思考次數都用儘後,模型仍然建議非法走法,會發生什麼情況?”一位用戶問道。 “它會立即輸掉比賽,跳過這一回合,還是以某種方式被取消資格?”
“這確實讓我感到疑惑,我們在這裡看到的是真正的推理,還是僅僅是基於模式的猜測?”另一個人問道。
谷歌表示,計劃在未來的活動中將 Kaggle 遊戲競技場擴展到國際象棋以外的領域。 目前,本次首屆錦標賽將作為一項公開壓力測試,以檢驗當今最先進的模型在實時戰略決策方面的表現。
谷歌 DeepMind 聯合創始人兼首席執行官 Demis HassABis 表示:“遊戲一直是人工智能的有益試驗場,包括我們自己在 AlphaGo 和 AlphaZero 上的工作。”寫道在 X 上。 “我們很高興看到這個基準將推動的進步,因為我們在競技場中添加了更多的遊戲和挑戰 - 我們期待看到快速的進步!”
谷歌沒有立即回應解密請求評論。