BTCC / BTCC Square / 528BTC /
Google Gemini 2.5 Pro在AI“ IQ”戰鬥中的編碼圖和Mensa測試

Google Gemini 2.5 Pro在AI“ IQ”戰鬥中的編碼圖和Mensa測試

Author:
528BTC
Published:
2025-05-09 00:11:00
13
3

Google最近推出了Gemini 2.5 Pro在編碼排行榜上排名第一,擊敗了ClaudeWebDev競技場 - 類似於LLM競技場,但專門針對衡量AI模型在編碼方面的良好方式。 這項成就是在Google推動將其旗艦AI模型定位為編碼和推理任務領導者的領導者的情況下實現的。

今年早些時候發行Gemini 2.5 Pro排名第一在幾個類別中,包括編碼,樣式控制和創意寫作。 模型龐大的上下文窗口 - 一百萬個代幣擴展到兩百萬很快 - 允許它處理大型代碼庫和復雜項目,這些項目甚至會扼殺最接近的競爭對手。 對於上下文,諸如Chatgpt和Claude 3.7十四行詩之類的強大模型只能處理多達128K代幣。

雙子座在所有AI模型中也具有最高的“智商”。 Trackingai通過正式化mensa測試,使用Mensa挪威的口頭問題來創建一種比較AI模型的標準化方法。

Gemini 2.5 Pro在這些測試中的得分高於競爭對手,即使使用培訓數據中未公開可用的定制問題。

在離線測試中,智商得分為115,新的雙子座列為“明亮的頭腦”,平均人類智能得分約為85至114分。 但是,AI具有智商需要打開包裝的概念。 AI系統沒有像人類這樣的智能商,因此最好將基準測試視為對推理基準的表現的隱喻。

對於專門為AI設計的基準,Gemini 2.5 Pro在AIME 2025數學測試中得分為86.7%,GPQA科學評估的得分為84.0%。 在人類上一次考試(HLE)上,創建了一種避免測試飽和問題的新基準,Gemini 2.5得分18.8%,擊敗了OpENAi O3 Mini(14%)和Claude 3.7 Sonnet(8.9%),這在性能提升方面非常出色。

現在可以免費提供Gemini 2.5 Pro的新版本(具有速率限制)。 Google先前將此版本描述為“ 2.5 Pro的實驗版”,這是其旨在通過響應推理而不是簡單地生成文本的“思維模型”家庭的一部分。

儘管沒有贏得每個基準,雙子座有引起了開發人員的注意具有多功能性。 該模型可以通過單個提示,構建交互式Web應用程序,無盡的跑步遊戲和視覺模擬創建複雜的應用程序,而無需詳細的說明。

我們測試了該模型,要求它修復損壞的HTML5代碼。 它生成了將近1000行代碼,從而在質量和對全套說明的理解方面擊敗了克勞德3.7十四行詩(以前的領導者)。

對於工作開發商而言,Gemini 2.5 Pro Input的價格為每百萬個代幣和產出的價格為每百萬個代幣150美元,將其定位為某些競爭對手的便宜替代品,同時仍然提供令人印象深刻的功能。

AI模型在其高級計劃中最多可處理30,000行代碼,使其適用於企業級項目。 它的多模式能力 - 使用文本,代碼,聲音的, 圖像, 和視頻 - 其他以編碼為中心的模型無法匹配的ADD靈活性。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列