BTCC / BTCC Square / 528BTC /
新的開源AI模型與DeepSeek的表現相媲美 - 培訓數據少得多

新的開源AI模型與DeepSeek的表現相媲美 - 培訓數據少得多

Author:
528BTC
Published:
2025-02-14 09:29:00

一支來自領先的學術機構和科技公司的國際研究人員團隊在周三的 AI推理景觀上顛覆了中國最複雜的AI系統:Deepseek的新模型,並有時超過了。

Openthinker-32b,由開放的想法財團在Math500基準中獲得了90.6%的 精度得分,超過了DeepSeek的89.4%。

該模型還表現出對一般問題解決任務的深度表現,與DeepSeek的57.6 相比,在GPQA鑽石基準中得分為61.6。 在LCBV2基準測試中,它達到了68.9的穩定,在各種測試方案中表現出強勁的性能。

換句話說,它比一般科學知識(GPQA-Diamond)的類似大小的 DeepSeek R1版本要好。 它在AIME基準測試時也擊敗了Math500的DeepSeek,兩者都試圖衡量數學水平。

它在編碼方面也比DeepSeek差一些,得分為68.9分與71.2,但是 由於該模型是開源的,因此,一旦人們開始進步,所有這些分數就會大大變得更好。

這項成就與眾不同的是它的效率:Openthinker僅需要114,000個培訓 示例才能達到這些結果,而DeepSeek則使用了80萬。

這Openhouthts-114k數據集包含每個問題的詳細元數據:地面真相解決 方案,用於代碼問題的測試用例,需要的啟動器代碼以及特定於域的信息。

其自定義策展人框架驗證了針對測試用例的代碼解決方案,而 AI法官處理了數學驗證。

該團隊報告說,它使用了配備了八個H100 GPU的四個節點 ,大約在90小時內完成。 一個單獨的數據集,帶有137,000個未經驗證的樣品在意大利的萊昂納多超級計算機上接受培訓,在短短30小時內燒毀了11,520 A100小時。

團隊在文檔中指出:“驗證可維持質量,同時擴大培訓提示的多樣 性和規模。”研究表明,即使未驗證的版本也表現良好,儘管它們與經過驗證的模型的峰值結果不符。

該模型建立在阿里巴巴的QWEN2.5-32B-INSTRUCT LLM之上, 並支持一個適度的16,000個to語上下文窗口- 可以處理複雜的數學證明和冗長的編碼問題,但要比當前標準少得多。

該版本在AI推理能力的加劇競爭中到來,這似乎以思維速度發生 。 Openai宣布2月12日,gpt-5之後的所有模型都將具有推理功能。 一天后,埃隆·馬斯克(Elon Musk)大肆宣傳Xai的Grok-3增強了解決問題的能力,保證這將是迄今為止最好的推理模式,而僅在幾個小時前,NOUS Research發布了 另一種開源推理模型,深色,基於Meta的Llama 3.1。

在DeepSeek表現出與Openai的O1相當的表現之後,該領域獲得了動力 以大幅降低成本。 DeepSeek R1可以免費下載,使用和修改,並揭示了培訓技術。

但是,與決定開放所有內容的開放思想不同,DeepSeek開發團隊將其培訓 數據私有。

此關鍵差異意味著開發人員可能會比DeepSeek更容易理解Openthinker並從頭開始 複製其結果,因為他們可以訪問所有難題。

對於更廣泛的AI社區,該版本再次證明了建立競爭模型而沒有大量 專有數據集的可行性。 同樣,對於仍然不確定使用中國模型的西方開發人員而言,這可能是一個更值得信賴的競爭對手。

Openthinker可下載擁抱面。 一個較小,功能較小的愛Pemter模型也可用於低端設備。

開放思想的團隊將來自美國不同大學的研究人員與德國的Juelich SUPERComputing Center 一起匯集了包括斯坦福大學,伯克利和加州大學洛杉磯分校在內的研究人員。 總部位於美國的豐田研究所和歐盟AI場景中的其他參與者也支持它。

編輯喬什·奎特納(Josh Quittner)和塞巴斯蒂安· 辛克萊(Sebastian Sinclair)

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列