BTCC / BTCC Square / TechFlowPost /
字節按下 AI Agent 加速鍵

字節按下 AI Agent 加速鍵

Published:
2025-04-23 09:38:47
18
1

作者:宛辰

Deepseek-R1 的好文筆、GPT-4o 的吉卜力畫風、OpenAI o3 的看圖推導地理位置……

這是過去兩個月裡此起彼伏刷屏的現象級 AI 產品,你能明顯看到:強化學習終於可以泛化了,多模態模型也越來越可用了。 這也意味著,2025 年真的進入了 Agent 應用落地、加速落地的時間點。

此前爆火的 AI Agent——Manus 團隊曾透漏,去年底 Claude 3.5 Sonnet 在長程規劃任務、逐步解決問題的能力上達到了做 Agent 所需要的程度,這是 Manus 誕生的前提。

現在,隨著深度思考模型和多模態模型能力的進一步成熟,一定會有更多能處理複雜任務的 Agent。

基於這個判斷,4 月 17 日,字節跳動旗下的雲和 AI 服務平台「火山引擎」面向企業市場發布了更強的模型——豆包 1.5・深度思考模型,這也是字節跳動旗下 AI 應用豆包 App 背後的推理模型首次亮相。 一同推出的,還有豆包・文生圖模型 3.0、以及升級版的視覺理解模型。

對於這次發布的模型,火山引擎總裁譚待認為,「深度思考模型是構建 Agent 的基礎,模型要有能力做好思考、規劃和反思,並且一定要支持多模態,就像人類具備視覺和聽覺一樣,Agent 才能更好地處理複雜任務。」

而當 AI 進化出端到端的自主決策和執行能力,走向核心生產環節,火山引擎也準備了讓 Agent 操作數字世界和物理世界的架構和工具——OS Agent 解決方案及 AI 雲原生推理套件,幫助企業更快、更省地構建和部署 Agent 應用。

在譚待看來,開發 Agent 就像開發一個網站或 APP 一樣,僅有模型 API 無法完全解決問題,需要很多雲上的 AI 雲原生組件。 過去,雲原生有其核心定義,如容器、彈性等;現在,AI 雲原生也會有類似的關鍵要素。 通過在 AI 雲原生方面的持續思考、探索與快速行動——比如圍繞模型做各種中間件、評測、監控、可觀察性、數據處理、安全保障以及相關組件如 sandbox 等,火山引擎致力於成為 AI 時代基礎設施的最優解。

01 豆包深度思考模型,像人一樣邊看邊想邊搜

年初 DeepSeek-R1 發布以來,不少 ToC 應用都接入了 R1 推理模型,豆包 App 除外。 3 月初在豆包 App 上線的「深度思考」模式,背後是字節跳動自研的豆包深度思考模型。

現在,這一推理模型——豆包 1.5 · 深度思考模型正式發布,可以在火山方舟平台體驗和調用。

點擊聯網模式,豆包就可以像人類思考問題時一樣,想一想、搜一搜、再接著想……,最終以解決問題為目的。

這是在購物場景的一個例子,在給定預算、大小等限制條件後,讓豆包推荐一套合適的露營裝備。

在這個問題上,豆包首先拆解了注意事項,規劃了需要的信息,接著判斷出缺失的信息、並進行聯網搜索。 這裡它搜索了 3 輪,先是搜索價格和性能,確保符合預算和需求;還考慮了兒童單獨的需求,最後考慮到天氣,搜索了相關的詳細評測。 邊想邊搜,直到獲取了做決策所需的全部必要上下文,給出了推理答案。

除了邊搜邊想,豆包深度思考模型還具備視覺推理能力,像人一樣,不光能基於文字思考,也能基於看到的畫面來思考。

就拿點菜這個場景來說,五一黃金周馬上到了,出國旅遊的朋友們不用拍照上傳給翻譯軟件翻譯菜單了,豆包深度思考模型可以直接根據圖片幫你點菜。

在下面這個例子中,豆包深度思考模型首先進行了匯率換算來控制預算,接著考慮到了老人、孩子的喜好,同時仔細避開了他們過敏的菜餚,直接給出了菜單方案。

聯網、思考、推理、多模態,豆包 1.5・深度思考模型展現了綜合推理能力,能夠解決更加複雜的問題。

根據技術報告,豆包 1.5・深度思考模型在專業領域的推理任務中完成度較高,比如在數學推理 AIME 2024 測試得分追平 OpenAI o3-mini-high,編程競賽和科學推理測試成績也接近 o1。 在創意寫作、人文知識問答等通用任務上,模型也展示出優秀的泛化能力,能勝任更廣泛的使用場景。

豆包深度思考模型還具備低延遲的特性,其技術報告顯示,該模型採用了 MoE 架構,總參數為 200B,激活參數僅 20B,以較小參數實現媲美頂尖模型的效果。 基於高效算法和高性能推理系統,豆包模型 API 服務在保障高並發的同時,延遲低至 20 毫秒。

同時,它也有多模態能力,可以把深度思考模型用於各種各樣的場景,例如它可以看懂複雜的企業項目管理流程圖表,快速定位到關鍵信息,並以強大的指令遵循能力,嚴格按照流程圖,回答客戶的問題;分析航拍圖時,能結合地貌特徵判斷區域開發可行性。

除了推理模型,這次豆包大模型家族還帶來了兩個模型的更新。 在文生圖模型方面,豆包推出了最新的 3.0 升級版本,這個版本能夠實現更好的文字排版表現、實拍級的圖像生成效果,以及 2K 的高清圖片生成方式。

新版模型不僅較好地解決了小字和長文本的生成難題,還改善了圖片排版。 比如最左邊生成的「現形」和「豐收計劃」兩幅海報,細節生成比較精細,排版也比較自然,可以拿來即用。

另一個升級的是豆包 1.5 視覺理解模型。 新版本有兩個關鍵更新,視覺定位更精準,以及對視頻的理解更智能。

在視覺定位方面,豆包 1.5 視覺理解模型支持多目標、小目標、通用目標的框定位和點定位,並支持定位計數,描述定位內容,以及 3D 定位等。 視覺定位能力的提升,可以讓模型進一步擴展應用場景,例如線下門店的巡檢場景、GUI agent、機器人訓練、自動駕駛訓練等。

在視頻理解能力上,該模型也有大幅提升,比如記憶能力、總結理解能力、速度感知能力、長視頻理解等。 企業可以基於視頻理解打造更加有趣的商業化應用,比如在家庭場景,我們可以基於視頻理解能力,加上向量搜索,對家中的監控視頻進行語義搜索。

比如下面這個例子中,養貓的人希望了解貓每天的活動情況,現在直接搜索「今天小貓在家都乾什麼了?」就能夠快速返回語義相關的視頻片段,供用戶查看。

借助帶視覺理解的推理模型和較大的推理能力儲備,以前很多做不了的事情現在都可以實現,可以解鎖更多的場景,比如有這樣功能的攝像頭一定會更受歡迎,AI 眼鏡、AI 玩具、智能攝像頭、門鎖等也會有新的發展空間。

02 雲,進入 Agentic AI 時代

這兩天,OpenAI 研究員姚順雨(Deep Research、Operator 核心作者)在「AI 的下半場」一文中指出,隨著強化學習終於找到了可以泛化的路徑,不只是在特定領域奏效,比如打敗人類棋手的 AlphaGo,而是可以做到在軟件工程、創意寫作、IMO 級別的數學、鼠標和鍵盤操作等等各方面都做到接近人類競賽的水平。 這種情況下,比拼榜單分數、在更複雜的榜單上得更高的分數會更容易,但這種評價方式已經過時了。

現在比拼的是定義問題的能力。 換句話說,AI 要在現實生活中解決什麼問題?

2025 年,這個答案是生產力 Agent。 當前,AI 的應用場景正在快速邁入 Agentic AI 時代,AI 逐漸能完成專業度較高、耗時較長的完整任務。 在這種情況下,火山引擎也為企業「定義自己的通用 Agent」搭建了一系列基礎設施。

其中最重要的是模型,能夠自主規劃、反思、端到端地自主決策和執行,走向核心生產環節。 同時,也需要多模態推理能力,讓其在真實世界可以通過耳朵、嘴巴和眼睛來共同完成任務。

模型之外,Infra 技術棧也需要不斷進化。 就比如隨著 MoE 架構顯示出更高效的優勢,逐漸成為模型的主流架構,隨之而來地,調度適配 MoE 模型需要更複雜、靈活的雲計算架構和工具。

現在在企業通用 Agent 的場景下,火山引擎推出了更好的架構和工具——OS Agent 解決方案,支持大模型來操作數字和物理世界,比如由 Agent 操作瀏覽器,搜索商品頁,實現 iPhone 比價的任務,甚至由 Agent 在遠程計算機上用剪映進行視頻編輯、配樂等等。

當前,火山引擎 OS Agent 解決方案包含豆包 UI-TARS 模型,以及 veFaaS 函數服務、雲服務器、雲手機等產品,實現對代碼、瀏覽器、電腦、手機以及其他 Agent 的操作。 其中,豆包 UI-TARS 模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一起,突破傳統自動化工具依賴預設規則的局限性,為 Agent 的智能交互提供了更接近人類操作的模型基礎。

在通用型 Agent 場景裡,火山引擎通過這套 OS Agent 解決方案讓企業內部、個人或特定領域,根據需要進行 Agent 定義和探索。

在垂直類 Agent 上,火山引擎則會基於自身優勢領域進行探索,比如之前推出「智能編程助手 Trae」以及數據產品「Data Agent」,後者通過構建數據飛輪,將數據處理能力發揮到極致。

另一方面,隨著 Agent 的滲透,也會帶來更大量的模型推理消耗。 面對大規模推理需求,火山引擎專門打造了 AI 雲原生 ServingKit 推理套件,讓模型部署更快、推理成本更低,GPU 消耗相比傳統方案降低 80%。

在譚待看來,為了滿足 AI 時代的需求,火山引擎會在三個方面持續發力:持續優化模型,保持競爭力;不斷降低成本,包括費用、延遲和提高吞吐率;讓產品更易於落地,比如像釦子、HiAgent 面向開發者的工具,還有云原生組件 OS Agent 等。 保持產品和技術領先,市場份額也會領先。 此前 IDC 發布的《中國公有云大模型服務市場格局分析,1Q25》顯示,火山引擎以 46.4% 的市場份額位居第一。

去年 12 月,豆包大模型的日均 tokens 調用量是 4 萬億。 截至今年 3 月底,這個數字已經超過了 12.7 萬億,相比豆包大模型剛發佈時,在短短不到一年的時間裡,實現了超過 106 倍的高速增長。 未來,隨著深度思考模型、視覺推理的進一步成熟和 AI 雲基礎設施的優化,Agent 還會帶動更大的 tokens 調用量。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列