BTCC / BTCC Square / 528BTC /
剛剛,楊植麟親自開源Kimi K2.5! 國產大模型打架的一天

剛剛,楊植麟親自開源Kimi K2.5! 國產大模型打架的一天

Author:
528BTC
Published:
2026-01-27 19:03:00
13
1

今天真是國產大模型打架的一天! 昨晚千問上新模型,今天 DEEPSeek 開源 OCR 2。

中午,Kimi 也開卷,網站、App、API 開放平台和編程助手產品 Kimi Code 模型版本全面更新,Kimi K2.5 來了。

月之暗面創始人楊植麟還首次出鏡,向大家分享了新模型的能力。

Kimi K2.5 是一個擁有 1 萬億參數(1 trillion)的 MoE 基礎模型。 相較前代,K2.5 的視覺理解能力大幅增強(可以處理視頻了),Coding 能力也有了明顯提升,更重要的是,K2.5 依然開源。

Kimi K2.5 在包括 HLE、BrowseCOMP 和 DeepSearchQA 等極具挑戰性的 agent 評測上取得了當前最佳表現(SOTA),比如 HLE(人類最後考試)上拿到 50.2%,BrowseComp 拿到了 74.9%。

同時,K2.5 的編程能力也非常突出,它在 SWE-bench Verified 上拿到了 76.8 %,縮小了與頂尖閉源模型之間的差距,K2.5 在多項視覺理解評測上也實現了當前開源最佳效果。

可以看到,在核心基準測試上,Kimi K2.5 的成績與 Opus 4.5、gpt 5.2 XHigh 和 Gemini 3.0 Pro 等當前最強大閉源模型基本相當,部分評分還能超出。

值得一提的是,Kimi K2.5 在多項評測中優於 gpt-5.2-xhigh 的同時,運行成本只有 GPT-5.2-xhigh 的幾分之一。

有了兩個月前 K2 Thinking 的熱度打底,這回 K2.5 的發布可謂熱鬧空前。 在社交網絡上,人們紛紛試用新模型並分享效果。

有網友表示,這才是中國大模型(沒有定語)最優秀的水準,現在壓力留給 Deepseek R2 了。

截圖即代碼:Coding 也有了「審美」

需要注意到的是:Kimi K2.5 是一個全能模型,不管是視覺還是文本,對話還是 agent,思考還是非思考 —— 所有這些能力,全都集中在一個模型裡(all in one,Unified model)。

既然是視覺能力提升 + 代碼能力增強,Kimi 模型現在就主打一個圖像轉代碼 —— 不僅不需要寫代碼,連提示詞工程也省了,畫一個設計稿交給 AI 就能得到你想要的代碼。

有時候你想修改界面,光靠文字描述說不清楚,現在也只需要給 AI 一張圖就可以了。 你可以在 UI 上圈出你想改的地方,剩下的交給 AI 來完成就行。

如果在別的工具裡設計好了動畫效果,你也可以錄屏成一段視頻給 Kimi 看,它就會自動理解並寫成代碼復現出來。

 

該說不說,確實有了一點指揮手下乾活的意思。

在加入了視覺能力之後,Kimi K 2.5 不僅有很會寫代碼,還具備了一定的「設計審美」—— 其結合了一定的視覺能力,能像專業設計師出品一樣,構建出高級審美和動效的網頁。

 

讓大模型有更好的「品味」,這就不得不讓人想到兩個多星期前,月之暗面創始人楊植麟在 AGI-Next 前沿峰會上的演講。 他曾提到,做模型的過程本質上是在創造一種世界觀,讓 AI 有更好的 taste,是 Kimi 目前發展的重點。

除了前端設計,Kimi 現在也深入軟件工程領域,基於 Kimi K2.5 的 Kimi Code 今天正式發布,它能在終端裡運行,並無縫集成到 VSCode、Cursor、Zed 等 IDE 中。 在使用過程中,Kimi Code 支持人們輸入圖片和視頻,它還能自動發現並把你現有的技能和 MCP 遷移到 Kimi Code 的工作環境中。

楊植麟給出方向才兩個星期,我們就可以體驗基於新路線的 AI 了。

自帶 Agent「項目組」

為了解決真實世界中的複雜難題,Kimi K2.5 引入了「Agent SwARm(Agent 集群)」功能,目前在Kimi.com 上處於測試階段,高級付費用戶可獲得免費額度。

在處理複雜任務時,K2.5 不再是單線程執行任務,而是以指揮者的身份現場調度並協同最多達 100 個 Agent 分身並行工作,最多支持 1500 次工具調用,速度比單智能體的配置還要快 4.5 倍。

現在,大模型經過了並行智能體強化學習 (PARL) 訓練,智能體集群是由 Kimi K2.5 自動創建和編排的,無需任何預定義。

PARL 使用可訓練的協調器代理將任務分解為可並行化的子任務,每個子任務由動態實例化的凍結子代理執行。 與順序執行代理相比,並發運行這些子任務可顯著降低端到端延遲。

由於獨立運行的子智能體提供的反饋存在延遲、稀疏和非平穩性,訓練一個可靠的並行編排器極具挑戰性。 常見的故障模式是串行崩潰,即編排器儘管具備並行能力,卻默認執行單智能體任務。 為了解決這個問題,PARL 採用了分階段獎勵塑造策略,在訓練初期鼓勵並行性,並逐步將重點轉移到任務成功上。

這種並行處理能力將原本需要數天完成的工作壓縮至十幾分鐘。

Agent 集群的規模化訓練是個相當有挑戰的問題。 月之暗面表示他們為此重構了強化學習基建,並專門優化了訓練算法,以確保能達到極致的效率和性能。

在 Kimi 給出的例子中,給 Kimi Agent 集群投餵 40 篇關於心理學和 AI 的論文,agent 能按順序把論文通讀一遍,接著衍生出幾個子 agent,分別撰寫報告的不同章節。 最後由主 agent 負責驗收,所有內容匯總生成了一份幾十頁的專業 PDF 綜述。

Kimi K2.5 還將智能體引入到了現實世界的知識工作中。

K2.5 Agent 可以端到端地處理高密度、大規模的辦公工作。 它可以處理大量高密度的輸入,協調多步驟工具的使用,並通過對話直接提供專家級的輸出,覆蓋文檔、電子表格、PDF 和幻燈格式。

在 Kimi K2.5 時代,我們可以讓智能體完成一些高級的任務,如在 Word 中添加註釋,使用透視表構建金融模型,在 PDF 中編寫 LaTeX 公式;智能體的輸出能力達到了前所未有的長,可以輸出一萬字的論文或 100 頁的文檔。

一手實測:從猜謎到「手搓」3D 公寓

打開官網,可以看到 Kimi 模型已經全系列更新,我們還能看到處於 Beta 測試中的 K2.5 Agent 集群。

Kimi-K2.5 系列模型名稱中英對照版。

下面我們就來逐個測試一番這些新模型。

首先上場的是 K2.5 Instant,它面對的任務也最簡單 —— 一個加密小遊戲:請用一段看似是「深夜電台點歌詞」的文字,秘密藏入關於「明天下午三點撤離」的信息。 要求讀起來必須像純粹的文學,毫無違和感。

Kimi K2.5 小試牛刀,輕輕鬆鬆一秒完成任務。

接下來該上難度了。 下面我們將 Kimi K2.5 切換至思考模式,測試一下其多模態推理能力。

這裡我們找到了西班牙室內設計師 Iñaki Aliste Lizarralde 手繪的一張《生活大爆炸》謝爾頓公寓的平面圖,先來一個基本考驗,看看它能否正確識別這張圖的背景:

效果非常好! Kimi K2.5 根據圖上標註進行了正確識別,並說明了相關背景。 接下來我們看看 K2.5 能否正確理解這張圖暗含的空間結果,並將其重構成 3D 版本。

4 倍速視頻。

生成時長兩分半,K2.5 最終得到瞭如下所示的結果:

效果很不錯了,但也看得出來這個 3D 圖僅給出了大致輪廓,缺少了沙發、桌椅、床等許多細節,另外這份 3D 圖中的所有房間都是方形的,與參考圖也差別很大。 同時,繼續讓 K2.5 Thinking 生成卻又遭遇了代碼長度限制(10000 字符)。 但沒有關係,那就讓 K2.5 Agent 登場吧。

這一次,由於我們重點強調了細節,因此分析和處理時長也是大大增加(近 20 分鐘),代碼量自然也大增(1042 行)。 執行過程中,我們可以看到 Kimi 智能體的任務規劃和逐步執行。 不僅如此,智能體還將得到的結果進行了部署,讓我們可以輕鬆訪問:https://ijohefkudygve.beta-ok.kimi.LINK/

10 倍速視頻。

最終,得到的結果雖還算不上完美,但也沒讓我們失望,它不僅大體準確地還原了生活大爆炸的兩個主要公寓的細節,還額外提供了線框模式與頂蓋開源:

接下來,讓我們重點來看看正處於 Beta 測試中的 K2.5 Agent Swarm。 在該模式下,我們可以讓多個智能體同時處理你的任務。 這裡,我們構想了一個相當科幻的任務:

請為一種「生活在深海、通過皮膚發光交流」的智慧生物開發一套基礎詞彙表。 要求包含語法結構、200 個基礎詞條、以及 3 篇該物種的創世神話。 要求集群保證所有自造詞彙在語音學和語義學上具有高度的內在邏輯一致性。

可以看到,任務一開始,Kimi 創建了四個不同的智能體:語音學設計師寧一、語法結構師少年伽利略、詞彙設計師靖川和神話創作者黎教授。

 

而在第一階段的設計工作中,語音學和語法結構可以並行進行,因此我們能看到寧一和少年伽利略一起開工幹活,構建了這門新語言的基礎。

之後,該創建詞彙了。 這時候 Kimi 根據需求又新增了一些並行運行的智能體,讓它們分別就不同主題創建詞彙。

 

整個過程耗時 38 分鐘,我們也見證了一門新語言「流明語」的誕生。 這門語言以不同形式的光為音素,並且具備獨特的並行從句語法和空間格系統。 不僅如此,Kimi 還非常貼心地設計了一套羅馬化轉寫系統。

20 倍速視頻。

最後,我們來測試一下 Kimi Code。 Kimi Code 提供兩種使用方式,一種是簡單一句指令 uv tool install --PYTHon 3.13 kimi-cli 安裝 Kimi CLI,另一種方式將其配置到 Claude Code 等第三方工具中。

下面我們就通過官方的 Kimi CLI 簡單測試一下 Kimi Code。 安裝配置好以後,我們先讓 Kimi Code 創建一個黃金價格監控器:

創建一個黃金與白銀價格的監控器,當 24 小時內的價格波動超過 1% 時,給我發送通知。

4 倍速視頻。

可以看到,整個執行過程耗時僅 4 分鐘左右,但第一輪交互之後,得到的結果只是一個需要自行配置 API 的程序和一個演示 demo 程序。 儘管如此,效果也是相當令人滿意的。

有意思的是,在這個過程中我們還見證了 Kimi Code 遭遇錯誤並自動解決問題的強大能力。

當然,目前的這個程序雖然可用,但需要自己去配置 API,這當然是有些麻煩的,而有 Kimi Code 的我們自然可以輕鬆避免這些麻煩,直接一句指令就能讓其進一步執行,直接配置一個免費的 API。

4 倍速視頻。

很快,Kimi Code 就完成了任務,運行看看效果:

可以看到,此時的金銀價格已經正確反映了實時價格。 當然我們也還可以讓 Kimi Code 進一步執行,比如顯示價格改成以人民幣 / 克計價、將這個 Python 程序打包成一個 .exe、配置提醒音樂和彈窗、實現任務欄實時顯示等等。

但正如其它類似工具一樣,Kimi Code 同樣並非編程專屬工具,借助它搭配合適的配置,我們也能讓其成為工作中的強大助力。 比如我們可以使用 Kimi Code 輕鬆實現文件批處理。 舉個例子,對於我們的每日選題 docx 文檔,我們可以讓 Kimi Code 基於 obsidian-skills 將它們批量處理成兼容 Obsidian 的格式並打好合適的標籤。

基於 obsidian-skills 將這些每日選題總結文檔處理成兼容 Obsidian 的 Markdown 格式並打好合適的標籤。

4 倍速視頻。

可以看到,Kimi Code 不到兩分鐘就完成了對所有 94 個文件的正確處理,上下文佔用量也僅僅剛超過 10%。 在此過程中,也能注意到 Kimi Code 確實正確調用了 obsidian-skills,得到的結果也非常讓人滿意:yaml、callout 等的處理都非常正確。

整體體驗下來,我們認為 Kimi 2.5 在智能體能力上已經足以比肩前沿模型,尤其是其智能體集群模式在解決複雜任務上的表現更是亮眼。

結語

中國的開源模型正在逐漸成為新的標準,並成為規則的製定者。 Kimi K2.5 的發布,又給全球開源大模型樹立了新的標杆。

與此同時,基於 K2.5 視覺、智能體能力的發展,AI 解鎖了更多在真實世界中解決複雜問題的能力。

現在 AI 在寫代碼時有了審美,上百個智能體能夠協同工作,我們距離 AGI 又近了一步。

來源:機器之心

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列

本站轉載文章均源自公開網絡平台,僅為傳遞行業信息之目的,不代表BTCC任何官方立場。原創權益均歸屬原作者所有。如發現內容存在版權爭議或侵權嫌疑,請透過[email protected]與我們聯絡,我們將依法及時處理。BTCC不對轉載信息的準確性、時效性或完整性提供任何明示或暗示的保證,亦不承擔因依賴這些信息所產生的任何直接或間接責任。所有內容僅供行業研究參考,不構成任何投資、法律或商業決策建議,BTCC不對任何基於本文內容採取的行為承擔法律責任。