BTCC / BTCC Square / TechFlowPost /
GPT-5.4,「Agent 原生」大模型來了?

GPT-5.4,「Agent 原生」大模型來了?

Published:
2026-03-06 04:46:31

在傳聞剛剛兩天后,當地時間 3 月 5 日,OpenAI 就正式推出 GPT-5.4。 而這次模型更新,主打的正是當下最火熱的 AI Agent 方向。

在 GPT-5.4 之前,大模型的能力邊界可以用一句話總結:它能告訴你「怎麼做」,但它自己做不了。

你讓它幫你分析競爭對手,它會給你一份洋洋灑灑的文字報告;你讓它整理 Excel,它會寫一段 Python 程式碼讓你自己去跑;你讓它幫你訂機票,它會一步一步告訴你去哪個網站、點哪個按鈕。

GPT-5.4 是 OpenAI 第一個把這道牆拆掉的通用模型。

GPT-5.4 相較於先前模型的提升|圖片來源:OpenAI

它可以透過螢幕畫面內容,發出滑鼠和鍵盤應用程式。 用 OpenAI 自己的話來說,這是他們「」。

更技術一點,GPT-5.4 支援高達 100 萬 token 的上下文窗口,並且可以呼叫 Playwright 等函式庫,直接操控瀏覽器和桌面應用。

這意味著它。

01 OpenAI 的鋪墊

如果你一直在跟踪 OpenAI 最近幾個月的動作,會發現 GPT-5.4 不是一個突然冒出來的產品,而是一條清晰戰略線上的最新落子。

就在兩週前,OpenAI 剛剛發布了 GPT-5.3-Codex,把 Codex 從“能寫代碼的 Agent”升級為“幾乎能做開發者在電腦上所有事情的 Agent”,並在 SWE-Bench Pro 和 Terminal-Bench Pro 和 Terminal-Bench 上刷新了行業基準。

同時,OpenAI 推出了企業導向的「Frontier」平台,HP、Intuit、Uber 已經是早期使用者。

GPT-5.4 在表格填寫上明顯比 5.2 更聰明|圖片來源:OpenAI

73 月 1000 億美元,為期 8 年,AWS 成為 OpenAI Frontier 平台的獨家第三方雲端分銷商。 這筆錢的規模,本身就是一個訊號。

1100 億美元的最新融資輪,由 Amazon、SoftBank 和 Nvidia 各出數百億美元撐起來,也在同期落地。

這不是一家在「研發好產品」的公司,這是一家在全力衝刺「贏得企業 AI Agent 市場」的公司。

GPT-5.4 的原生電腦操作能力,正是這場衝刺的關鍵武器。

02 真的好用嗎?

發表會上的功能演示永遠很好看,問題在於實際表現。

金融科技公司 Walleye Capital 在內部測試中報告,GPT-5.4 在 Excel 財務模型評估裡,把準確度提高了 30 個百分點,顯著加快了情境分析的自動化流程。

人才評估平台 Mercor 的 CEO 則直接稱其為“”,在處理幻燈片製作、財務建模和法律分析等長週期任務上表現突出。

一位每天使用 Codex 的獨立開發者,給出了更接地氣的評價:「GPT-5.4 是我在 Codex 裡的新日常驅動。它的思考方式更接近人類,沒有 5.3 那麼沉迷於技術細節。 start;">這個細節值得玩味。

基準測試資料也在印證這種能力的提升。 根據報告,。 這個數字聽起來很炸,但真正的問題不是「它能超過多少人」,而是「在哪些任務上能取代人」。

不過,愛丁堡大學資訊學院的 Jeff Dalton 博士也指出了一個現實問題——目前的演示裡,幾乎沒有足夠詳細的評估證據來支撐那些宏大的說法。 能力是真實的,但邊界在哪裡,還需要更多獨立驗證。

03 Agent 戰場,沒有安全區

如果說 GPT-5.4 代表 OpenAI 的 Agent 野心,那麼競爭對手們並沒有閒著。

Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上線了「Computer Use」功能,Anthropic 把它定位為專為複雜任務設計的混合推理模型。

Google 的 Gemini 2.0 系列也在「Agentic」能力上持續發力,Project Mariner 已經可以在 Chrome 瀏覽器裡自主完成多步驟操作。

但 GPT-5.4 和競品的本質差異,——不是一個獨立工具,不是需要額外調用的 API,而是模型本身就帶著這個能力。

這個「原生」二字,在工程實現上意味著什麼,說白了就是更低的延遲、更自然的任務銜接、更少的「膠水碼」。 對於想快速落地 Agent 應用程式的企業來說,這個差異直接影響部署成本。

OpenAI 也宣布 GPT-5.4 可以直接連接到微軟 Excel 和 Google Sheets,在單元格層面完成粒度分析和自動化操作。 這一步,明顯是打企業決策流程的核心。

Agent 的戰場,從來就不是哪家跑得快,而是誰能最先把自己嵌進企業工作流裡,成為那個「拔不掉的存在」。

技術發布會總是充滿激情,但真正的考驗在第 91 天——那時候熱度散去,用戶在真實工作場景裡打開這個工具,它能不能穩穩接住那個截圖,準確點下那個按鈕,安靜地把任務跑完,然後把結果交回來。

那位開發者說的「隱瞞錯誤」,是我目前看到的這篇報道裡最值得警惕的一句話。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列