新的開源AI模型與DeepSeek的表現相媲美

BTCC / BTCC Square / 528BTC /

新的開源AI模型與DeepSeek的表現相媲美 - 培訓數據少得多

Author:

528BTC

Published:

2025-02-14 09:29:00

一支來自領先的學術機構和科技公司的國際研究人員團隊在周三的 AI推理景觀上顛覆了中國最複雜的AI系統：Deepseek的新模型，並有時超過了。

Openthinker-32b，由開放的想法財團在Math500基準中獲得了90.6％的精度得分，超過了DeepSeek的89.4％。

該模型還表現出對一般問題解決任務的深度表現，與DeepSeek的57.6 相比，在GPQA鑽石基準中得分為61.6。在LCBV2基準測試中，它達到了68.9的穩定，在各種測試方案中表現出強勁的性能。

換句話說，它比一般科學知識（GPQA-Diamond）的類似大小的 DeepSeek R1版本要好。它在AIME基準測試時也擊敗了Math500的DeepSeek，兩者都試圖衡量數學水平。

它在編碼方面也比DeepSeek差一些，得分為68.9分與71.2，但是由於該模型是開源的，因此，一旦人們開始進步，所有這些分數就會大大變得更好。

這項成就與眾不同的是它的效率：Openthinker僅需要114,000個培訓示例才能達到這些結果，而DeepSeek則使用了80萬。

這Openhouthts-114k數據集包含每個問題的詳細元數據：地面真相解決方案，用於代碼問題的測試用例，需要的啟動器代碼以及特定於域的信息。

其自定義策展人框架驗證了針對測試用例的代碼解決方案，而 AI法官處理了數學驗證。

該團隊報告說，它使用了配備了八個H100 GPU的四個節點，大約在90小時內完成。一個單獨的數據集，帶有137,000個未經驗證的樣品在意大利的萊昂納多超級計算機上接受培訓，在短短30小時內燒毀了11,520 A100小時。

團隊在文檔中指出：“驗證可維持質量，同時擴大培訓提示的多樣性和規模。”研究表明，即使未驗證的版本也表現良好，儘管它們與經過驗證的模型的峰值結果不符。

該模型建立在阿里巴巴的QWEN2.5-32B-INSTRUCT LLM之上，並支持一個適度的16,000個to語上下文窗口- 可以處理複雜的數學證明和冗長的編碼問題，但要比當前標準少得多。

該版本在AI推理能力的加劇競爭中到來，這似乎以思維速度發生。 Openai宣布2月12日，gpt-5之後的所有模型都將具有推理功能。一天后，埃隆·馬斯克（Elon Musk）大肆宣傳Xai的Grok-3增強了解決問題的能力，保證這將是迄今為止最好的推理模式，而僅在幾個小時前，NOUS Research發布了另一種開源推理模型，深色，基於Meta的Llama 3.1。

在DeepSeek表現出與Openai的O1相當的表現之後，該領域獲得了動力以大幅降低成本。 DeepSeek R1可以免費下載，使用和修改，並揭示了培訓技術。

但是，與決定開放所有內容的開放思想不同，DeepSeek開發團隊將其培訓數據私有。

此關鍵差異意味著開發人員可能會比DeepSeek更容易理解Openthinker並從頭開始複製其結果，因為他們可以訪問所有難題。

對於更廣泛的AI社區，該版本再次證明了建立競爭模型而沒有大量專有數據集的可行性。同樣，對於仍然不確定使用中國模型的西方開發人員而言，這可能是一個更值得信賴的競爭對手。

Openthinker可下載擁抱面。一個較小，功能較小的愛Pemter模型也可用於低端設備。

開放思想的團隊將來自美國不同大學的研究人員與德國的Juelich SUPERComputing Center 一起匯集了包括斯坦福大學，伯克利和加州大學洛杉磯分校在內的研究人員。總部位於美國的豐田研究所和歐盟AI場景中的其他參與者也支持它。

編輯喬什·奎特納（Josh Quittner）和塞巴斯蒂安· 辛克萊（Sebastian Sinclair）

前一篇

<< SUI價格預測 - Altcoin的擴展恢復取決於… >>

后一篇

<< Onyxcoin的2,656％集會形成了關鍵模式 - 接下來是什麼？ >>