人工智能的發展如今取決於能夠把握物理現實的“世界模型”。

BTCC / BTCC Square / 528BTC /

Author:

Published:

2025-11-11 06:37:00

機器人和多模態人工智能仍然無法理解物理世界，一位著名研究人員表示，這一缺陷是目前該領域最大的障礙。

被廣泛認為是現代計算機視覺先驅的斯坦福大學計算機科學家李飛飛表示，人工智能與物理現實之間的差距已成為該技術最緊迫的問題，並認為彌合這一差距需要圍繞空間推理而不是僅僅依靠語言來構建系統。

李在一份聲明中表示，人工智能正迅速接近基於文本學習的極限，而未來的發展最終將取決於“世界模型”。報告週一發布。

“解鎖空間智能的核心在於開發世界模型——一種新型的生成式人工智能，它必須應對一系列與以往截然不同的挑戰。”法學碩士李寫道關於 X。 “這些模型必須生成空間一致的世界，這些世界必須遵守物理定律，處理從圖像到動作的多模態輸入，並預測這些世界如何隨時間演變或與之互動。”

這些模型到底是什麼？

“世界模型可以追溯到20世紀40年代初，當蘇格蘭哲學家和心理學家肯尼斯·克雷克開展認知科學研究.

在 David Ha 和 Jürgen Schmidhuber 於 2018 年發表論文之後，這一理念在現代人工智能領域再次出現。紙結果表明，神經網絡可以學習環境的緊湊內部模型，並將其用作規劃和控制的模擬器。

李認為世界模型很重要，因為機器人和多模態系統仍然難以進行基於現實的空間推理，導致它們無法判斷距離和場景變化，也無法預測基本的物理結果。

李寫道：“無論是協助科學家在實驗室工作，還是幫助獨居老人，機器人作為人類的合作者，都能擴大急需勞動力和提高生產力的群體。” 李認為，真實環境遵循著現有機器無法捕捉的規則。

從重力塑造運動到材料影響光線，解決這個問題需要能夠存儲空間記憶並在二維以上維度對場景進行建模的系統。

9月份，李健熙的公司World LABs發布了測試版。大理石早期世界模型，可根據文本或圖像提示生成可探索的三維環境。

該公司聲稱，用戶可以在這些世界中自由漫步，不受時間限製或場景漂移的影響，環境也保持一致，不會變形或崩塌。

李寫道：“MARBle 只是我們構建真正具有空間智能的世界模型的第一步。隨著進展的加速，研究人員、工程師、用戶和商業領袖都開始意識到它蘊藏的巨大潛力。下一代世界模型將使機器在空間智能方面達到一個全新的水平——這一成就將解鎖當今人工智能係統仍然嚴重缺乏的關鍵能力。”

李表示，世界模型的應用案例包括支持一系列應用程序，因為它們使人工智能能夠從內部理解環境的行為方式。

創作者可以利用它們實時探索場景，機器人可以依靠它們更安全地導航和處理物體，科學和醫療保健領域的研究人員可以運行空間模擬或改進成像和實驗室自動化。

李將空間智能研究與早期生物學研究聯繫起來，指出人類在發展出語言之前很久就學會了感知和行動。

她寫道：“早在文字出現之前，人類就講述故事——把故事畫在洞穴壁畫上，代代相傳，並基於共同的敘事建立起整個文化。故事是我們理解世界、跨越時空連接彼此、探索人性意義的方式，而最重要的是，它讓我們在內心深處找到生命的意義和愛。”

李表示，人工智能需要同樣的物理基礎才能在現實世界中發揮作用，並強調人工智能的角色應該是輔助人類，而不是取代人類。然而，真正的進步取決於能夠理解世界運行規律而非僅僅描述世界的模型。

李說：“人工智能的下一個前沿領域是空間智能，這項技術將把視覺轉化為推理，把感知轉化為行動，把想像轉化為創造。”

來源:

下載BTCC APP，您的加密之旅從這啟程

Download on the App Store GEI IT ON Google Play

立即行動 掃描加入我們的 100M+ 用戶行列