BTCC / BTCC Square / 528BTC /
Anthropic 宣稱其 Claude Sonnet 4.5 是“全球最佳編碼模型”——我們對其進行了測試

Anthropic 宣稱其 Claude Sonnet 4.5 是“全球最佳編碼模型”——我們對其進行了測試

Author:
528BTC
Published:
2025-09-30 08:46:00

人類發布克勞德·桑奈特 4.5週一,谷歌宣布其“全球最佳編碼模型”,並發布了一套新的開發工具。 該公司表示,該模型可以專注於復雜、多步驟的編碼任務超過 30 小時,並在推理和數學能力方面有所提升。

根據 Anthropic 的公告,該模型在 SWE-bench Verified(一項衡量真實世界軟件編碼能力的基準測試)上的得分為 77.2%。 使用並行測試時計算時,該得分可提升至 82%。 這使得新模型領先於 OpENAI 和谷歌的最佳產品,甚至超過了 Anthropic 的 Claude 4.1 Opus(根據該公司的命名方案,Haiku 為小型模型,Sonnet 為中型模型,而 Opus 是該系列中最重、性能最強的模型)。

圖片:AnthrOPic

Claude Sonnet 4.5 在 OSWorld 基準測試中也處於領先地位,該基準測試旨在測試 AI 模型在現實世界計算機任務中的性能,得分為 61.4%。 四個月前,Claude Sonnet 4 以 42.2% 的得分領先。 該模型在推理和數學基準測試中表現出了更強大的能力,並且在金融、法律和醫學等特定商業領域的專家中也表現出色。

我們試用了該模型,首次快速測試發現,它能夠使用零樣本提示生成我們常用的“AI vs Journalists”遊戲,無需迭代、調整或重試。 該模型生成功能代碼的速度比 Claude 4.1 Opus 更快,同時保持了高質量的輸出。 它創建的應用程序展現出與 OPEnAI 輸出相當的視覺效果,這與 Claude 早期版本(通常界面不夠精緻)的界面有所不同。

AnthroPIc 發布了該模型的多項新功能。 Claude Code 現在包含檢查點,可以保存進度並允許用戶回滾到之前的狀態。 該公司更新了終端界面,並發布了原生 VS Code 擴展。 Claude API 增加了上下文編輯功能和內存工具,使代理能夠運行更長時間並處理更高的複雜性。 Claude 應用現在支持在對話中直接執行代碼以及創建電子表格、幻燈片和文檔的文件。

定價與 Claude Sonnet 4 保持不變,為每百萬輸入代幣 3 美元,每百萬輸出代幣 15 美元。 所有 Claude 代碼更新均面向所有用戶開放,而 Claude 開發者平台更新(包括 Agent SDK)也面向所有開發者開放。

AnthroPic 還稱 Claude Sonnet 4.5 是“我們迄今為止最前沿的模型”,並表示該模型在減少諂媚、欺騙、權力慾和鼓勵妄想等令人擔憂的行為方面取得了顯著進步。 該公司還表示,在防禦即時注入攻擊方面取得了進展,而即時注入攻擊被認為是代理和計算機使用能力用戶面臨的最嚴重風險之一。

當然,世界上最著名的人工智能即時工程師 Pliny 只花了幾分鐘就將其越獄並生成藥物配方,就像這是世界上最正常的事情一樣。

此次發布正值人工智能公司之間在編碼能力方面的競爭日益激烈之際。 OpenAI上個月發布了 gpt-5而谷歌的模型則在各種基準測試中競爭。 這對一些人來說可能令人震驚預測市場,而就在幾個小時前,人們還幾乎完全確定 Gemini 將成為本月的最佳車型。

這可能是一場與時間的賽跑。 目前,該模型尚未出現在排名,但 LM 競技場宣布它已經可以進行排名了。 根據互動次數,明天的結果可能會相當令人驚訝,因為 Claude 4.1 Opus 排名第二,而 Claude 4.5 Sonnet 則要好得多。

Anthropic 還發布了一項名為“與 Claude 一起想像”的臨時研究預覽,Max 訂閱用戶可試用五天。 在實驗中,Claude 無需預先設定功能或編寫代碼,即可即時生成軟件,並在用戶交互時響應並調整請求。

該公司表示:“你所看到的是克勞德實時創作的過程。” Anthropic 將其描述為模型與適當基礎設施相結合所能實現的可能性的演示。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列