AI編程大戰打響！ OpenAI推出GPT-5.3-Codex，與Anthropic同步發布新模型

BTCC / BTCC Square / 528BTC /

Author:

528BTC

Published:

2026-02-06 03:53:00

OpenAI週四發布gpt-5.3-Codex。該公司稱，這是迄今為止能力最強的編程代理。值得注意的是，此次發布的時間點被精準安排在Anthropic推出其旗艦模型升級版Claude Opus 4.6的同一時刻。

OpENAI首席執行官Sam Altman在模型發布幾分鐘後就在X上寫道：

“我非常喜歡用這個模型來開發，它帶來的進步感受，遠遠超過基準測試所顯示的幅度。”

“看著我們用5.3-CoDEX來開發5.3-Codex，從而把發布速度提升到這麼快，真的令人震撼，這毫無疑問預示著未來的發展方向。”

OPEnAI將其稱為“我們首個在自身創建過程中發揮關鍵作用的模型”。

GPT-5.3-Codex多項基準成績領先Claude達到兩位數

OpenAI表示，新模型在多項行業基準測試中實現了顯著提升。 GPT-5.3-Codex在SWE-Bench Pro上取得了57%的成績。 SWE-Bench Pro是一項極為嚴格的真實世界軟件工程評測，涵蓋四種編程語言，重點考察抗數據污染、具有工業相關性的挑戰。

該模型在Terminal-Bench 2.0上得分77.3%，這一基準主要衡量編程代理所必需的終端操作能力；在OSWorld上得分64%，該測試要求模型在可視化桌面環境中完成生產力任務，是一項強調“代理式”計算機使用能力的評估。

其中，Terminal-Bench 2.0的結果尤為引人注目。根據周三公佈的性能數據，GPT-5.3-Codex的得分為77.3%，而GPT-5.2-Codex為64.0%，基礎版GPT-5.2模型為62.2%。也就是說，僅一代升級，成績就提升了13個百分點。一位X平台用戶指出，這一成績“徹底碾壓”了Anthropic的Opus 4.6，後者據稱在同一基准上的得分為65.4%。

OpenAI還表示，新模型是在效率大幅提升的情況下實現上述成績的：在完成同等任務時，所需token數量不到上一代模型的一半，同時單個token的推理速度提升超過25%。

OpenAI在公告中稱：

“值得注意的是，GPT-5.3-Codex在使用的token數量上低於任何此前模型，這讓用戶能夠做更多事情。”

從編程助手到編程操作者

相比基準測試的提升，更重要的是OpenAI對GPT-5.3-Codex的定位。該公司明確表示：

“Codex正從一個只能編寫和審查代碼的代理，進化為一個幾乎可以完成開發者和專業人士在電腦上所做任何事情的代理。”

這一能力擴展涵蓋了調試、部署、監控、撰寫產品需求文檔、編輯文案、開展用戶研究、製作演示文稿，以及在電子表格應用中分析數據等。該模型在GDPVal評估中表現突出。 GDPVal是OpenAI於2025年發布的一項評估，用於衡量模型在44種職業中、對定義明確的知識型工作任務的完成能力。

該市場的既有玩家包括MiCROsoft、Salesforce和ServiceNow，這些公司都在加速將AI代理嵌入自身平台。

OpenAI首個“高能力”網絡安全模型

向通用計算能力的轉變，也帶來了新的安全考量。 OpenAI表示，GPT-5.3-Codex是其首個在“準備度框架”下，被歸類為在網絡安全相關任務上具備“高能力”的模型，同時也是首個被直接訓練用於識別軟件漏洞的模型。

OpenAI表示：“儘管我們尚未發現它可以端到端自動化網絡攻擊的確鑿證據，但我們採取了審慎策略，部署了迄今為止最全面的網絡安全防護體系。”相關措施包括雙用途安全訓練、自動化監控、對高級能力實行可信訪問機制，以及結合威脅情報的執行管線。

Altman也在X上強調了這一進展：

“這是我們首個在準備度框架中，網絡安全能力達到‘高’級別的模型。我們正在試點可信訪問框架，並承諾投入1000萬美元的API額度，用於加速網絡防禦。”

此外，OpenAI還在擴大其安全研究代理AARdvark的私有測試，並與開源維護者合作，為廣泛使用的項目提供免費的代碼庫掃描。 OpenAI以Next.js為例，稱一名安全研究人員上週就曾使用Codex發現並披露了相關漏洞。

同日同時發布最新模型，OpenAI與Anthropic的競爭白熱化

不過，該公司網絡安全方面的宣布，很快被OpenAI與Anthropic之間的對抗所掩蓋。媒體表示，若脫離背景，很難理解週四這一發佈時間點的意義。

Anthropic是一家以AI安全為核心的初創公司，成立於2021年，由多名前OpenAI研究人員創辦，其中包括Dario Amodei和Daniela Amodei。

兩家公司都將重大產品發布安排在當天美西時間上午10點。 Anthropic發布了Claude Opus 4.6，並將其描述為“最聰明的模型”，稱其“規劃更謹慎、能更長時間持續執行代理式任務、在超大型代碼庫中運行可靠，並且能夠發現並糾正自身錯誤”。

而這一正面交鋒的背後，是一周不斷升級的緊張關係。 Anthropic宣布，將在超級碗期間播出廣告，嘲諷OpenAI近期開始在ChatGPT免費用戶中測試廣告的決定。

Altman隨後作出罕見的直接回應，在一篇長篇X帖中稱這些廣告“好笑”，但“明顯不誠實”。

Altman寫道：

“我們顯然永遠不會像Anthropic廣告中描繪的那樣投放廣告。我們並不愚蠢，也知道用戶絕不會接受那種做法。”

“我想這倒是很符合Anthropic一貫的‘雙重話術’風格，用一個具有誤導性的廣告，去批評根本不存在的、理論上的誤導性廣告，但超級碗廣告並不是我預期會看到這種事情的地方。”

他進一步將Anthropic形容為一家“威權式公司”，稱其“想要控制人們如何使用AI”。

Altman寫道：

“Anthropic向富人提供昂貴的產品。使用ChatGPT免費版的德州人數量，比美國使用Claude的總人數還要多，所以我們面臨的是完全不同形態的問題。”

企業AI支出遠超預期，OpenAI市場份額面臨Anthropic與穀歌擠壓

公開的口水戰背後，是一場極其嚴肅的商業競爭。這一對抗發生在企業級AI應用爆發式增長的大背景下，雙方都在爭奪一個迅速擴張的市場。

根據Andreessen Horowitz本週發布的調查數據，企業在大語言模型上的支出，已經大幅超過此前即便相當樂觀的預測。 2025年，企業平均在LLM上的支出達到700萬美元，較2024年實際支出的250萬美元高出180%，也比企業在一年前對2025年的預測高出56%。預計到2026年，單個企業的支出將達到1160萬美元，再增長65%。

a16z的數據還揭示了市場格局的變化。 OpenAI仍然佔據企業AI支出中最大的份額，但這一份額正在縮小——從2024年的62%，下降至預計2026年的53%。同期，Anthropic的份額從14%上升至預計18%，Google也呈現出類似的增長趨勢。

在企業使用模式上，情況更加微妙。雖然OpenAI在總體使用量上領先，但在接受調查的OpenAI客戶中，只有46%在生產環境中使用其最強模型；而Anthropic和Google這一比例分別為75%和76%。如果將測試環境也計算在內，89%的Anthropic客戶正在測試或使用其最強模型，這一比例在主要廠商中最高。

在軟件開發這一雙方編程代理的核心應用場景中，a16z調查顯示，OpenAI的市場份額約為35%，而Anthropic則佔據了剩餘市場中相當可觀、且持續增長的一部分。