OpenAI 的 Operator 代理通過新的 AI 模型獲得提升

BTCC / BTCC Square / 528BTC /

Author:

Published:

2025-05-24 15:52:00

OpENAI將支持 Operator 的 AI 模型從之前的 GPT-4o 定製版本更新為基於 o3 的模型。 o3 是 OpenAI o 系列“推理”模型中的最新模型之一。 o3 Operator 已針對計算機使用添加了額外的安全數據進行微調，並包含旨在訓練模型決策邊界的安全數據集。

OPEnAI 升級ChatGPT 中的操作員使用基於 OpenAI o3 版本的全新計算機使用代理 (CUA) 模型。新模型使操作員在與瀏覽器交互時更加持久、更準確，從而提高了整體任務成功率。此外，它還能提供更結構化、更清晰、更全面的響應。

根據 OPenAI新的 CUA 模型表現出了比業界更強大的性能，在 OSWorld 和 WebArena 上實現了 SOTA。無論是在既定的基準測試中，還是在人類偏好評估中，它都表現出了比前一版本更強的相對性能。

OpenAI 將基於 GPT‑4o 的模型替換為基於 o3 的版本

OpenAI 暗示 ChatGPT 操作員代理將迎來重大升級PIc.twitter.com/iGPQp9butD

— SABatAge (@sabatage) 2025年5月22日

OpenAI 將現有的基於 GPT-4o 的 Operator 模型替換為基於 OpenAI o3 的版本，但 APi 版本仍將基於 4o。這家 AI 公司還聲稱，o3 Operator 採用了與 4o 版本相同的多層安全方法。

然而，與 o3 系列中的其他模型相比，o3 操作器針對計算機使用進行了額外的安全數據微調，包括旨在教授模型確認和拒絕的決策邊界的安全數據集。

OpenAI發布了一份技術報告，展示了o3 Operator在特定安全評估中的表現。與GPT-4o Operator模型相比，o3 Operator拒絕執行“非法”活動和搜索敏感個人數據的可能性更小，並且更不容易受到一種被稱為“即時注入”的人工智能攻擊。

“o3 Operator 採用與 4o 版 Operator 相同的多層安全方法……雖然 o3 Operator 繼承了 o3 的編碼功能，但它無法原生訪問編碼環境或終端。”

–OpenAI

這家人工智能公司還透露，基於o3的新模型已經通過了標準的安全評估，Operator仍將作為研究預覽版向全球ChatGPT Pro用戶開放。不過，升級後的模型僅在ChatGPT的Operator版本中提供。

Knoop 懷疑運行 OpenAI 的 o3 模型的成本可能比預期更高

上週，負責維護和管理 ARC-AGI 的 Arc Prize 基金會更新了 o3 的近似計算成本。該組織最初估計，其測試的最佳 o3 配置（o3 high）解決單個 ARC-AGI 問題的成本約為 3000 美元。然而，該基金會現在認為，實際成本可能比之前的估計高出 10 倍，每個任務的成本可能約為 3 萬美元。

此外，儘管 OpenAI 尚未對 o3 進行定價，甚至尚未正式發布，但 Arc Prize Foundation 的聯合創始人之一 Mike Knoop 認為，o1-pro 模型的定價是一個合理的參考，能夠更準確地反映 o3 的真實成本。不過，他補充說，在官方定價公佈之前，o3 將繼續在排行榜上被標記為預覽版，以反映不確定性。

據 Arc Prize Foundation 稱，考慮到該模型所使用的計算資源量，o3 high 的高價並非不可能。為了解決 ARC-AGI 問題，o3 high 使用的計算量是 o3 loW（o3 的最低計算配置）的 172 倍。

有傳言稱飛行自3月初以來，OpenAI一直在考慮為企業客戶推出價格不菲的計劃。據報導，該公司可能會向專門的AI“代理”（例如軟件開發人員代理）收取每月高達2萬美元的費用。

然而，儘管有人認為，即使是 OpenAI 最昂貴的模型，其成本也遠低於典型的人類承包商或員工的收費，但人工智能研究員 Toby Ord 指出，這些模型的效率可能不及人類。例如，o3 high 在 ARC-AGI 的每項任務中都需要嘗試 1024 次才能獲得最佳成績。

Cryptopolitan 學院：厭倦了市場波動？了解 DeFi 如何助你建立穩定的被動收入。立即註冊

來源:

前一篇

<< 美國司法部追回與加密貨幣欺詐計劃相關的 250 萬美元 >>

后一篇

<< 趙長鵬否認《華爾街日報》關於他與 WLFI 有關聯的說法 >>