Google Gemini 2.5 Pro在AI“ IQ”戰鬥中的編碼圖和Mensa測試

BTCC / BTCC Square / 528BTC /

Author:

Published:

2025-05-09 00:11:00

Google最近推出了Gemini 2.5 Pro在編碼排行榜上排名第一，擊敗了ClaudeWebDev競技場 - 類似於LLM競技場，但專門針對衡量AI模型在編碼方面的良好方式。這項成就是在Google推動將其旗艦AI模型定位為編碼和推理任務領導者的領導者的情況下實現的。

今年早些時候發行Gemini 2.5 Pro排名第一在幾個類別中，包括編碼，樣式控制和創意寫作。模型龐大的上下文窗口 - 一百萬個代幣擴展到兩百萬很快 - 允許它處理大型代碼庫和復雜項目，這些項目甚至會扼殺最接近的競爭對手。對於上下文，諸如Chatgpt和Claude 3.7十四行詩之類的強大模型只能處理多達128K代幣。

雙子座在所有AI模型中也具有最高的“智商”。 Trackingai通過正式化mensa測試，使用Mensa挪威的口頭問題來創建一種比較AI模型的標準化方法。

Gemini 2.5 Pro在這些測試中的得分高於競爭對手，即使使用培訓數據中未公開可用的定制問題。

在離線測試中，智商得分為115，新的雙子座列為“明亮的頭腦”，平均人類智能得分約為85至114分。但是，AI具有智商需要打開包裝的概念。 AI系統沒有像人類這樣的智能商，因此最好將基準測試視為對推理基準的表現的隱喻。

對於專門為AI設計的基準，Gemini 2.5 Pro在AIME 2025數學測試中得分為86.7％，GPQA科學評估的得分為84.0％。在人類上一次考試（HLE）上，創建了一種避免測試飽和問題的新基準，Gemini 2.5得分18.8％，擊敗了OpENAi O3 Mini（14％）和Claude 3.7 Sonnet（8.9％），這在性能提升方面非常出色。

現在可以免費提供Gemini 2.5 Pro的新版本（具有速率限制）。 Google先前將此版本描述為“ 2.5 Pro的實驗版”，這是其旨在通過響應推理而不是簡單地生成文本的“思維模型”家庭的一部分。

儘管沒有贏得每個基準，雙子座有引起了開發人員的注意具有多功能性。該模型可以通過單個提示，構建交互式Web應用程序，無盡的跑步遊戲和視覺模擬創建複雜的應用程序，而無需詳細的說明。

我們測試了該模型，要求它修復損壞的HTML5代碼。它生成了將近1000行代碼，從而在質量和對全套說明的理解方面擊敗了克勞德3.7十四行詩（以前的領導者）。

對於工作開發商而言，Gemini 2.5 Pro Input的價格為每百萬個代幣和產出的價格為每百萬個代幣150美元，將其定位為某些競爭對手的便宜替代品，同時仍然提供令人印象深刻的功能。

AI模型在其高級計劃中最多可處理30,000行代碼，使其適用於企業級項目。它的多模式能力 - 使用文本，代碼，聲音的, 圖像，和視頻 - 其他以編碼為中心的模型無法匹配的ADD靈活性。

來源:

前一篇

<< Wellgistics Health採用XRP作為儲備資產和醫療保健支付 >>

后一篇

<< 亞洲遊戲投資了5000萬美元的Willbet - 押注全球遊戲的未來 >>

|Square

下載BTCC APP，您的加密之旅從這啟程

Download on the App Store GEI IT ON Google Play

立即行動 掃描加入我們的 100M+ 用戶行列

推薦

最新活動

Google Gemini 2.5 Pro在AI“ IQ”戰鬥中的編碼圖和Mensa測試

|Square