OpenAI 的 Operator 代理通過新的 AI 模型獲得提升
OpENAI將支持 Operator 的 AI 模型從之前的 GPT-4o 定製版本更新為基於 o3 的模型。 o3 是 OpenAI o 系列“推理”模型中的最新模型之一。 o3 Operator 已針對計算機使用添加了額外的安全數據進行微調,並包含旨在訓練模型決策邊界的安全數據集。
OPEnAI 升級ChatGPT 中的操作員使用基於 OpenAI o3 版本的全新計算機使用代理 (CUA) 模型。 新模型使操作員在與瀏覽器交互時更加持久、更準確,從而提高了整體任務成功率。 此外,它還能提供更結構化、更清晰、更全面的響應。
根據 OPenAI新的 CUA 模型表現出了比業界更強大的性能,在 OSWorld 和 WebArena 上實現了 SOTA。 無論是在既定的基準測試中,還是在人類偏好評估中,它都表現出了比前一版本更強的相對性能。
OpenAI 將基於 GPT‑4o 的模型替換為基於 o3 的版本
OpenAI 暗示 ChatGPT 操作員代理將迎來重大升級PIc.twitter.com/iGPQp9butD
— SABatAge (@sabatage) 2025年5月22日
OpenAI 將現有的基於 GPT-4o 的 Operator 模型替換為基於 OpenAI o3 的版本,但 APi 版本仍將基於 4o。 這家 AI 公司還聲稱,o3 Operator 採用了與 4o 版本相同的多層安全方法。
然而,與 o3 系列中的其他模型相比,o3 操作器針對計算機使用進行了額外的安全數據微調,包括旨在教授模型確認和拒絕的決策邊界的安全數據集。
OpenAI發布了一份技術報告,展示了o3 Operator在特定安全評估中的表現。 與GPT-4o Operator模型相比,o3 Operator拒絕執行“非法”活動和搜索敏感個人數據的可能性更小,並且更不容易受到一種被稱為“即時注入”的人工智能攻擊。
“o3 Operator 採用與 4o 版 Operator 相同的多層安全方法……雖然 o3 Operator 繼承了 o3 的編碼功能,但它無法原生訪問編碼環境或終端。”
–OpenAI
這家人工智能公司還透露,基於o3的新模型已經通過了標準的安全評估,Operator仍將作為研究預覽版向全球ChatGPT Pro用戶開放。 不過,升級後的模型僅在ChatGPT的Operator版本中提供。
Knoop 懷疑運行 OpenAI 的 o3 模型的成本可能比預期更高
上週,負責維護和管理 ARC-AGI 的 Arc Prize 基金會更新了 o3 的近似計算成本。 該組織最初估計,其測試的最佳 o3 配置(o3 high)解決單個 ARC-AGI 問題的成本約為 3000 美元。 然而,該基金會現在認為,實際成本可能比之前的估計高出 10 倍,每個任務的成本可能約為 3 萬美元。
此外,儘管 OpenAI 尚未對 o3 進行定價,甚至尚未正式發布,但 Arc Prize Foundation 的聯合創始人之一 Mike Knoop 認為,o1-pro 模型的定價是一個合理的參考,能夠更準確地反映 o3 的真實成本。 不過,他補充說,在官方定價公佈之前,o3 將繼續在排行榜上被標記為預覽版,以反映不確定性。
據 Arc Prize Foundation 稱,考慮到該模型所使用的計算資源量,o3 high 的高價並非不可能。 為了解決 ARC-AGI 問題,o3 high 使用的計算量是 o3 loW(o3 的最低計算配置)的 172 倍。
有傳言稱飛行自3月初以來,OpenAI一直在考慮為企業客戶推出價格不菲的計劃。 據報導,該公司可能會向專門的AI“代理”(例如軟件開發人員代理)收取每月高達2萬美元的費用。
然而,儘管有人認為,即使是 OpenAI 最昂貴的模型,其成本也遠低於典型的人類承包商或員工的收費,但人工智能研究員 Toby Ord 指出,這些模型的效率可能不及人類。 例如,o3 high 在 ARC-AGI 的每項任務中都需要嘗試 1024 次才能獲得最佳成績。
Cryptopolitan 學院:厭倦了市場波動? 了解 DeFi 如何助你建立穩定的被動收入。 立即註冊