谷歌機器人現在可以思考、搜索網絡並自學新技巧
谷歌 DEEPMind 本週推出了兩款人工智能模型,旨在讓機器人比以往更加智能。 升級後的 Gemini Robotics 1.5 及其配套的 Gemini Robotics-ER 1.5 不再專注於關注評論,而是讓機器人能夠思考問題、在互聯網上搜索信息,並在不同的機器人代理之間傳遞技能。
谷歌表示,這些模型標誌著“能夠以智能和靈巧的方式應對物理世界的複雜性的基礎性一步”
谷歌在報告中表示:“Gemini Robotics 1.5 標誌著我們在解決現實世界中的 AGI 問題上邁出了重要的里程碑。”公告“通過引入代理能力,我們正在超越對命令做出反應的模型,並創建能夠真正推理、規劃、主動使用工具和概括的系統。”
“泛化”這個術語很重要,因為模型很難做到這一點。
由這些模型驅動的機器人現在可以執行各種任務,例如按顏色分類衣物、根據在線天氣預報打包行李箱,或者查看當地的垃圾回收規定以正確丟棄垃圾。 現在,作為人類,你可能會說:“這又怎麼樣?” 但要做到這一點,機器需要一種名為泛化的能力——將知識應用於新情況的能力。
機器人——以及一般的算法——通常都難以做到這一點。 例如,如果你教一個模型折疊一條褲子,它就無法折疊一件T卹,除非工程師事先對每個步驟進行編程。
新模型改變了這一切。 它們能夠捕捉線索,解讀環境,做出合理的假設,並執行過去無法完成的多步驟任務——或者至少極其困難—用於機器。
但“更好”並不意味著“完美”。 例如,在一項實驗中,團隊向機器人展示了一組物體,並要求它們將它們扔進正確的垃圾桶。 機器人用攝像頭視覺識別每個項目,在線調出舊金山最新的回收指南,然後像當地人一樣,自行將它們放置在理想的位置。
這一過程結合了在線搜索、視覺感知和逐步規劃,能夠做出超越傳統機器人的情境感知決策。 記錄的成功率在 20% 到 40% 之間;雖然不理想,但對於一個之前從未理解過這些細微差別的模型來說,這還是令人驚訝的。
谷歌如何將機器人變成超級機器人
兩個模型分工協作。 Gemini Robotics-ER 1.5 就像大腦一樣,負責確定需要做什麼,並製定分步計劃。 當它需要信息時,可以調用谷歌搜索。 一旦制定了計劃,它就會將自然語言指令傳遞給 Gemini Robotics 1.5,由後者負責實際的物理動作。
從技術角度來說,新款 Gemini Robotics 1.5 是一個視覺-語言-動作 (VLA) 模型,可以將視覺信息和指令轉化為運動命令,而新款 Gemini Robotics-ER 1.5 是一個視覺語言模型(VLM)創建多步驟計劃來完成任務。
例如,當機器人對衣物進行分類時,它會通過一系列思維鏈進行內部推理:理解“按顏色分類”意味著白色衣物放入一個分類箱,彩色衣物放入另一個分類箱,然後分解出拿起每件衣物所需的具體動作。 機器人可以用簡單的英語解釋其推理過程,使其決策不再像黑匣子那樣複雜。
谷歌首席執行官桑達爾·皮查伊在 X 上發表意見他指出,新模型將使機器人能夠更好地推理、提前規劃、使用搜索等數字工具,並將學習成果從一種機器人遷移到另一種機器人。 他稱這是谷歌“邁向真正有用的通用機器人的下一大步”。
此次發布讓谷歌與特斯拉等開發商成為焦點,圖形AI以及波士頓動力,儘管每家公司採取了不同的方法。 特斯拉專注於其工廠的大規模生產,埃隆·馬斯克承諾到2026年將生產數千台。 波士頓動力憑藉其後空翻機器人Atlas,繼續突破機器人運動能力的界限。 與此同時,谷歌則押注人工智能,讓機器人無需特定編程即可適應任何情況。
時機很重要。 美國機器人公司正在推制定國家機器人戰略,包括在中國製造人工智能和智能機器人之際,設立一個專注於推動該產業發展的聯邦辦公室國家優先事項中國是世界上最大的工廠和其他工業環境中工作的機器人市場,據總部位於德國的機器人製造商協會稱,到 2023 年,中國將有約 180 萬台機器人投入運行。 國際機器人聯合會。
DeepMind 的方法不同於傳統的機器人編程,傳統的機器人編程需要工程師一絲不苟地編寫每個動作的代碼。 相反,這些模型通過演示進行學習,並能夠隨時調整。 如果物體從機器人的手中滑落,或者有人在執行任務的過程中移動了某個物體,機器人就會毫不猶豫地進行調整。
這些模型建立在 DeepMind 3 月份的早期研究成果之上,當時機器人只能處理諸如拉開袋子拉鍊或折疊紙張之類的單一任務。 現在,它們正在處理許多對人類來說都具有挑戰性的任務,例如在查看天氣預報後,為旅行打包合適的行李。
對於想要進行實驗的開發者來說,有兩種不同的可用性方案。 Gemini Robotics-ER 1.5 已於週四通過 Google AI Studio 中的 Gemini API 發布,這意味著任何開發者都可以使用該推理模型進行構建。 而行動模型 Gemini Robotics 1.5 則僅供“精選”(可能意味著“富有”)合作夥伴使用。