BTCC / BTCC Square / 528BTC /
OpenAI 推出兩款可在本地運行且與高級產品匹配的開源 AI 模型

OpenAI 推出兩款可在本地運行且與高級產品匹配的開源 AI 模型

Author:
528BTC
Published:
2025-08-06 01:58:00
10
1

OpENAI 週二發布了兩種開放權重語言模型,它們在消費硬件上運行時可提供與其商業產品相匹配的性能 - gpt-oss-120b 需要單個 80GB GPU,而 gpt-oss-20b 可在僅具有 16GB 內存的設備上運行。

這 模型基於 Apache 2.0 許可的 GPT-4o 模型,在推理基準測試中與 OpenAI 的 o4-mini 幾乎旗鼓相當。 1200 億個參數的版本通過其混合專家架構,每個 token 僅激活 51 億個參數,而 200 億個參數的模型則激活 36 億個參數。 兩者均可處理最多 128,000 個 token 的上下文長度,與 GPT-4o 相同。

這些模型以特定許可證發布,意義重大。 這意味著任何人都可以不受限制地使用、修改和利用這些模型。 這包括任何人,從你到 OpenAI 的競爭對手,例如中國初創公司DEEPSeek.

此次發布正值 gpt-5 即將問世的猜測日益增多,開源 AI 領域的競爭也愈演愈烈之際。 OSS 模型是 OpenAI 自 2019 年 GPT-2 以來最新的開放權重語言模型。

GPT-5 目前還沒有確切的發布日期,但 Sam Altman 暗示它可能很快就會發布。 他今天早些時候在推特上寫道:“接下來幾天我們會為大家帶來很多新內容,”並承諾“本週晚些時候會有一次重大升級”。

今天發布的開源模型非常強大。 OPEnAI 在其聲明中表示:“這些模型在推理任務上的表現優於類似規模的開放模型,展現出強大的工具使用能力,並且針對在消費級硬件上的高效部署進行了優化。”公告該公司使用強化學習以及來自 o3 和其他前沿系統的技術對他們進行訓練。

在 Codeforces 競賽編碼中,gpt-oss-120b 在使用工具的情況下獲得了 2622 的 Elo 評分,不使用工具的情況下獲得了 2463 的評分,超過了 o4-mini 的 2719 評分,接近 o3 的 2706。 該模型在 AIME 2024 數學競賽中的準確率為 96.6%,而 o4-mini 的準確率為 87.3%,在 HealthBench 評估中達到了 57.6%,超過了 o3 的 50.1% 的得分。

圖片來源:OPenAI

儘管規模較小,但 gpt-oss-20b 在這些基準測試中與 o3-mini 旗鼓相當甚至超過了它。 它在 Codeforces 上用工具獲得了 2516 Elo 的得分,在 AIME 2024 上達到了 95.2%,在 HealthBench 上達到了 42.5%——所有這些都符合內存限制,使其能夠用於邊緣部署。

兩種模型都支持三種推理工作量級別——低、中、高,以延遲換取性能。 開發人員可以通過系統消息中的一句話來調整這些設置。 這些模型使用類似於 o4-mini 的流程進行了後訓練,包括監督微調以及 OpenAI 所描述的“高計算 RL 階段”。

但不要以為任何人都可以隨意修改這些模型,就能輕鬆上手。 OpenAI 在預訓練階段過濾掉了與化學、生物、放射性和核威脅相關的某些有害數據。 訓練後階段則採用了審慎調整和指令層級結構,教授如何拒絕不安全提示以及如何防禦即時注射。

換句話說,OpenAI 聲稱其模型設計得非常安全,即使經過修改也不會產生有害的反應。

OpenAI 對齊專家 Eric WALlace 透露,公司在發布之前進行了前所未有的安全測試。 Wallace 在 X 上發帖稱:“我們對模型進行了微調,旨在最大限度地提升其生物和網絡能力。” 該團隊整理了生物學領域的特定數據,並在編碼環境中訓練模型,以解決“奪旗”挑戰。

經過對抗微調的版本經過三個獨立專家組的評估。 “在我們的前沿風險評估中,我們經過惡意微調的 gpt-oss 表現不如 OpenAI o3,後者的模型低於“高風險準備”級別,”Wallace 表示。 測試表明,即使使用 OpenAI 的訓練堆棧進行穩健的微調,這些模型也無法達到該公司“風險準備框架”規定的危險能力水平。

話雖如此,這些模型仍然保持著無監督的思維鏈推理,OpenAI 表示這對於密切關注 AI 至關重要。 該公司表示:“對於兩個 gpt-oss 模型,我們都沒有對 CoT 進行任何直接監督。我們認為這對於監控模型的不當行為、欺騙和濫用至關重要。”

OpenAI 隱藏了其最佳模型的完整思路,以防止競爭對手複製其結果,並避免再次發生 Deepseek 事件,而現在這種情況更容易發生。

這些模型可在哈金臉。 但正如我們一開始所說的,你需要一個至少有 80GB VRAM 的巨型 GPU(比如 17,000 美元的英偉達 A100)運行版本1200億個參數。 T

較小版本200億個參數至少需要 16GB 的 VRAM(例如 3000 美元的Nvidia RTX 4090) 在您的 GPU 上,這是一個很大的數字,但對於消費級硬件來說也不是那麼瘋狂。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列