OpenAI 和 Anthropic 推出相互競爭的 AI 模型,企業級市場競爭日趨激烈
週四,OpENAI和 人類學在各自產品線中相隔不到一小時的時間里相繼發布了新的旗艦級 AI 模型,凸顯了領先開發商之間為主導企業軟件和高級編碼工具而展開的激烈競爭。
Anthropic 發布了 Claude Opus 4.6,並大力宣傳其在長上下文推理和基於代理的工作流程方面的進步;而 OpenAI 隨後不久發布了 gpt-5.3 Codex,這是一個針對代理編碼和軟件開發進行優化的模型。
幾乎同時推出的產品凸顯了競爭對手迭代速度之快,各公司都在競相與大型企業客戶簽訂長期合同。
基準測試結果表明,這兩個模型針對不同的強度進行了優化。
根據兩家公司公佈的數據,Claude Opus 4.6 在與法律和金融推理相關的任務中表現更佳,而 GPT-5.3 CoDEX 在智能編碼測試和效率指標方面表現更優。
投資者重新評估傳統軟件供應商的前景之際,這些消息傳出,多家信息和專業服務公司的股價本週下跌。 在擔憂之中人工智能原生平台可能會削弱對現有企業工具的需求。
Anthropic 說Claude Opus 4.6 在長上下文推理和專業任務方面取得了進步,引用了 100 萬個標記的上下文窗口和 MRCR v2(複雜信息檢索的基準)76% 的得分。
該公司表示,該模型在財務和法律任務方面也優於早期版本,並引入了“代理團隊”,允許多個 AI 代理並行處理編碼和文檔。
OPEnAI 發布GPT-5.3 Codex 隨後發布,將其定位為針對智能體編碼和研究而優化的模型。
OpenAI 表示,Codex 在 Terminal-Bench 2.0(一項智能體編碼基準測試)中獲得了 77.3% 的分數,而 Claude Opus 4.6 的分數為 65.4%,並且 Codex 完成任務的速度更快,使用的令牌更少。
OpenAI 還表示,Codex 的早期版本曾被內部用於幫助調試訓練和管理部署,這標誌著模型首次在加速自身發展方面發揮了直接作用。
綜合來看,結果表明兩種模型均不佔絕對優勢,性能優勢取決於企業是優先考慮專業推理還是自主軟件開發。
預計谷歌也將在未來幾個月內推出其 Gemini 模型的更新,而包括 DEEPSeek 在內的其他人工智能開發商也在準備發布新版本,這加劇了該領域的競爭。
不過,僅憑基準測試結果不太可能決定市場領導地位,因為更廣泛的採用和企業部署正在日益塑造競爭格局。
隨著競爭的持續加劇,基於智能體的工作流程能否成為經濟活動的核心組成部分,時間會給出答案。 OpenAI 和 Anthropic 顯然對此寄予厚望。