BTCC / BTCC Square / TechFlowPost /
奧特曼都點贊,谷歌 Gemini 3 Pro 到底強在哪?

奧特曼都點贊,谷歌 Gemini 3 Pro 到底強在哪?

Published:
2025-11-19 13:32:08
9
1

作者:苗正

谷歌裝睡8個月,反手扔出一個王炸Gemini 3 Pro。

谷歌可算是發布Gemini 3 Pro了,很突然,而且很“低調”。

雖然谷歌在Gemini 3 Pro之前發布了圖片編輯模型Nano Banana,進而刷了一波存在感。 但是在基座模型方面,谷歌已經靜默太久。

過去這大半年,大家都在熱議OpENAI的新動作,或者感嘆Claude在代碼領域的統治力,唯獨沒有人提及8個月沒有版本號升級的Gemini。

縱使谷歌的雲業務和財報再漂亮,可在AI開發者的核心圈子裡,谷歌的存在感仍然被一點點的稀釋。

好在的是,小榜在第一時間體驗過後發現,Gemini 3 Pro並沒有讓我們失望。

但現在還不能過早下結論。 因為現在的AI賽道早就已經過了靠參數量嚇人的階段,大家都在卷應用、卷落地、捲成本。

谷歌能不能適應新版本和新環境,還是個未知數。

01

我讓Gemini 3 Pro用一句話來形容自己,它是這麼回答我的。

“不再急於向世界證明自己有多聰明,而是開始琢磨如何讓自己變得更有用。”——Gemini 3 Pro

在LMARena排行榜上,Gemini 3 Pro以1501的Elo分數登頂,這是AI模型在綜合能力評估中的新紀錄。 這是一個相當優秀的成績,就連奧特曼也發推表示祝賀。

數學能力測試中,該模型在AIME2025(美國數學邀請賽)的代碼執行模式下達到了100%的準確率。 在GPQADiamond科學知識測試中,Gemini 3 Pro的準確率為91.9%。

MathArenaAPEx數學競賽的測試結果顯示,Gemini 3 Pro獲得了23.4%的得分,而其他主流模型的得分普遍在2%以下。 此外,在名為Humanity'sLastExam的測試中,該模型在不使用工具的情況下達到了37.5%的得分。

Google在此次更新中引入了名為“vibecoding”的代碼生成功能。 這項功能允許用戶通過自然語言描述需求,系統隨後生成相應的代碼和應用程序。

在Canvas編程環境的測試中,用戶描述“製作一個可以調節轉速的電風扇”後,系統在約30秒內生成了包含旋轉動畫、速度控制滑塊和開關按鈕的完整代碼。

官方展示的案例還包括核聚變過程的可視化模擬。

在交互方式上,Gemini 3 Pro增加了“生成式界面”(GenerativeUI)功能。 與傳統AI助手只返回文本回答不同,該系統可以根據查詢內容自動生成定制化的界面佈局。

例如,當用戶詢問量子計算相關問題時,系統可能生成包含概念解釋、動態圖表和相關論文鏈接的交互式界面。

針對不同受眾的同一問題,系統會生成不同的界面設計,舉個簡單例子,向兒童和成人解釋同一概念時,會採用不同的呈現方式。 兒童的就會偏可愛,成人則會偏簡潔明了。

Google LABs中提供的Visual Layout實驗功能展示了這種界面的應用,用戶可以獲得雜誌風格的視圖佈局,包含圖片、模塊和可調節的UI元素。

此次發布還包含了名為Gemini Agent的智能體系統,目前處於實驗階段。 該系統可以執行多步驟任務,並連接到Gmail、Google Calendar和Reminders等谷歌服務。

在收件箱管理場景中,系統可以自動篩選郵件、標記優先級和起草回复。 旅行規劃是另一個應用場景,用戶只需提供目的地和大致時間,系統會查詢日曆、搜索航班和酒店選項,並添加行程安排。 而這項功能目前僅向美國地區的Google AI Ultra訂閱用戶開放。

在多模態處理方面,Gemini 3 Pro基於稀疏混合專家架構構建,支持文本、圖像、音頻和視頻輸入。 模型的上下文窗口為100萬token,意味著可以處理較長的文檔或視頻內容。

加拿大勞瑞爾大學歷史學教授Mark Humphries的測試顯示,該模型在識別18世紀手寫文稿時的字符錯誤率為0.56%,相比前代版本降低了50%到70%。

Google表示,訓練數據包括公開網絡文檔、代碼、圖像、音頻和視頻內容,後訓練階段使用了強化學習技術。

Google還推出了名為Gemini 3 DEEP Think的優化版本,專門用於復雜推理任務。 該模式目前正在進行安全評估,計劃在未來幾周向Google AI Ultra訂閱者開放。

在Google Search的AI模式中,用戶可以點擊“thinking”選項卡查看該模式的推理過程。 與標準模式相比,Deep Think模式會在生成回答前進行更多步驟的分析。

除了官方提供的資料外,我還將Gemini 3 Pro和Chatgpt-5.1進行了對比。

第一個對比就是生成圖片。

提示詞:給我生成一張IPhone17

ChatGPT-5.1

Gemini 3 Pro

主觀上來講,ChatGPT-5.1更符合我的需求,因此這回合是ChatGPT-5.1勝出。

第二個對比的就是兩者的智能體水平。

提示詞:去給我研究研究字母榜這個微信公眾號,然後評論一下這個號的水平

GPT-5.1

Gemini 3 Pro

雖然從主觀上來講,我更喜歡Gemini 3 Pro的解讀,但是太過於鼓吹,ChatGPT-5.1能發現小榜還有所不足,更客觀真實。

最後是代碼能力,也是目前所有大模型最關注的一塊。

我選的項目是GitHub上最近星數非常高的項目,叫做LightRAG。 這是通過整合圖結構來增強上下文感知和高效信息檢索,從而改進檢索增強生成,實現了更高的準確性和更快的響應時間。 項目地址https://github.cOM/HKUDS/LightRAG

提示詞:跟我說說這個項目如何

GPT-5.1

Gemini 3 Pro

同時,Gemini 3 Pro也獲得了業內人士的高度評價。

02

雖然Gemini 3 Pro發布的非常低調,但實際上谷歌已經為Gemini 3 Pro預熱了很久。

在谷歌第三季度財報電話會上,谷歌CEO皮查伊說了這麼一句話:“Gemini 3 Pro將在2025年內發布。”沒有具體日期,沒有更多細節,卻拉開了科技行業一場營銷大戲的序幕。

谷歌不斷釋放信號,讓整個AI社區保持高度關注,卻始終拒絕給出任何確定的發佈時間表。

從10月開始,各種“意外洩露”接踵而至。 10月23日開始流傳一份日曆,在其11月12日“Gemini 3 Pro Release”的內部日曆截圖瘋傳。

而且眼尖的開發者還在Vertex AI的API文檔中發現了“gemini-3-pro-preview-11-2025”的字樣。

緊接著,Reddit 和 X上開始出現各種截圖。 有用戶聲稱在 Gemini Canvas 工具中看到了新模型的身影,有人在移動應用的某些版本中發現了異常的模型標識。

然後就是,下面這張測試數據開始在社交媒體流傳。

這些“洩露”看似偶然,實則構成了一場精心編排的預熱。

每一次洩露都恰到好處地展示了Gemini 3 Pro 的某項核心能力,每一次討論都將期待值推向新的高度。 而 谷歌官方賬號的態度則耐人尋味,他們會轉發社區的討論,會用“即將到來”這樣的措辭吊胃口,甚至谷歌AI實驗室的高層,還在關於發布日期預測的推文下回復了兩個“思考”表情符號,但就是不肯說出一個準確日期。

預熱了將近1個月,谷歌終於將新鮮的Gemini 3 Pro端了上來。 然而Gemini 3 Pro性能雖然強勁,但是谷歌的更新頻率多少讓人有點著急。

早在今年3月份的時候,谷歌就發布了Gemini 2.5 Pro的預覽版本,後續又陸續推出了Gemini 2.5 Flash預覽版等衍生預覽版本。 直至Gemini 3 Pro問世,Gemini系列在此期間無任何版本號升級。

可谷歌的對手們並不會等待Gemini。

OPEnAI在8月7日推出了GPT-5,並在11月12日進一步升級到 GPT-5.1。 而且這段時間裡,OpenAI還推出了自己的AI瀏覽器Atlas,直指谷歌腹地。

AnthrOPic 的迭代速度更為密集:2月24日發布 Claude 3.7 Sonnet(首個混合推理模型),5月22日推出 Claude Opus 4 和 Sonnet 4,8月5日發布 Claude Opus 4.1,9月29日推出 Claude Sonnet 4.5,10月15日又發布了 Claude Haiku 4.5。

這一系列攻勢打得谷歌有些措手不及,不過目前來看,谷歌頂住了。

03

谷歌之所以耗時8個月才更新Gemini 3 Pro,最大的原因可能來自於人員上的變更。

2025年7月至8月前後,微軟對谷歌發起了一波猛烈的人才攻勢,成功招募了超過20名DeepMind的核心專家和高管。

這其中就包括DeepMind高級產品總監(Senior Director of Product)戴夫·希創(Dave CiTRON),負責其核心AI產品的落地。 以及Gemini的工程副總裁 (VP of Engineering)阿瑪爾·蘇布拉馬尼亞(Amar Subramanya),他是 Google最重要模型Gemini的核心工程負責人之一。

另外一方面,谷歌Nano Banana團隊曾表示,谷歌在發布Gemini 2.5 Pro後很長一段時間裡,都在糾結AI生圖領域,進而放緩了基座模型的更新。

谷歌認為,只有攻克了角色一致性 (Character Consistency)、語境編輯(In-context Editing)、文字亂碼(Text Rendering)這三個生成圖片領域的難關後,才能讓基座模型的表現更好。

Nano Banana團隊表示,模型不僅能“畫得好看”,更重要的是能“聽懂人話”並“受人控制”,從而讓 AI 生圖真正進入商業落地階段。

這時回頭來看Gemini 3 Pro,它是一份合格的答卷,但在這個只爭朝夕的 AI 戰場,及格早已不夠。

谷歌既然選擇了在此時此刻交卷,就必須準備好面對最苛刻的閱卷人,那些已經被競品“餵刁”了口味的用戶和開發者。 接下來的幾個月,將不是模型參數的比拼,而是生態整合能力的肉搏。 谷歌這頭大像不僅要學會跳舞,還得跳得比所有人都快。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列

本站轉載文章均源自公開網絡平台,僅為傳遞行業信息之目的,不代表BTCC任何官方立場。原創權益均歸屬原作者所有。如發現內容存在版權爭議或侵權嫌疑,請透過[email protected]與我們聯絡,我們將依法及時處理。BTCC不對轉載信息的準確性、時效性或完整性提供任何明示或暗示的保證,亦不承擔因依賴這些信息所產生的任何直接或間接責任。所有內容僅供行業研究參考,不構成任何投資、法律或商業決策建議,BTCC不對任何基於本文內容採取的行為承擔法律責任。