BTCC / BTCC Square / TechFlowPost /
聊透 Agent,它是「同事」還是「工具」,創業機會和價值究竟是什麼?

聊透 Agent,它是「同事」還是「工具」,創業機會和價值究竟是什麼?

Published:
2025-06-13 18:23:25

整理:Moonshot

來源:極客公園

2025 年,是 Agent 按下加速鍵的一年。

從年初 DEEPSeek 引發的驚嘆,到 GPT-4o 和 Claude 3.5 接連登場,大模型的邊界一次次被重寫。 但真正讓 AI 產業鏈神經繃緊的,不是模型的性能迭代,而是 Agent 的橫空出世。

Manus、Devin 等產品的爆火,都在重申一個共識:大模型將不再只是工具,而是要成為可以自我調度的智能體。

Agent 由此成為繼大模型之後,全球科技圈最快形成共識的第二個風口。

從巨頭的戰略重構到創業賽道的快速跟進,Agent 正成為下一個全民下注的方向。 但在 C 端產品密集湧現、開發者為其狂熱的同時,真正跑通用戶價值閉環的項目卻鳳毛麟角,越來越多的產品陷入了「用老需求套新技術」的焦慮。

熱浪過後,市場也回歸冷靜:Agent 究竟是一場範式的重構,還是一次新的包裝? 所謂「通用」與「垂直」的路徑分野,是否真的帶來可持續的市場空間? 而「新入口」背後,是交互方式的進化,還是舊世界的投影?

順著這些疑問繼續下探,我們會發現,Agent 的真正門檻,或許並不在模型能力,而在其賴以生存的底層設施。 從可控運行環境,到記憶系統、上下文感知、工具調用,每一個基礎模塊的缺位,都是 Agent 從演示走向實用的最大阻力。

這些底層工程問題,構成了 Agent 從「潮流玩具」走向「生產力工具」的最大阻礙,也恰恰是當下最確定、最高價值的創業藍海。

在這樣一個供給溢出、需求未明的階段,我們想藉由這場對談,回答一個越來越緊迫的問題:Agent 的真問題與真機會,究竟藏在哪些地方?

在本次深度對談裡,我們邀請到了身處一線的拾象科技創始人李廣密與 拾象科技 AI ReseARch Lead 鍾凱祺,兩位從業者將從產品形態、技術路徑、商業模式、用戶體驗乃至 Infra 構建等多個維度,為我們拆解當下 Agent 的真問題與真機會。

我們將跟隨他們的思考,探尋在巨頭環伺的牌桌上,創業公司的真實機會藏於何處;一條從「COPilot」平滑過渡到「Agent」的務實成長路徑是如何被一步步驗證的 ;以及為何 Coding(編碼)這一看似垂直的領域,卻被視作通往 AGI 的「價值高地」與「關鍵指標」。

最終,這場對話將推向更遠的未來,一窺人與 Agent 之間全新的協作關係,以及構建下一代智能基礎設施所面臨的核心挑戰與無限機遇。

  • 通用 Agent 領域做得最好的是「模型即 Agent」(Model as Agent)。

  • 做 Agent 這件事,並不一定要「以終為始」,一開始就瞄著完全自動化的 Agent 去做,它可以先從 Copilot 做起。 在這個過程中收集用戶數據、做好用戶體驗、佔領用戶心智,然後慢慢地轉型。

  • AGI 有可能最先在 Coding(編碼)環境下實現,因為這個環境最簡單,它能鍛煉 AI 的核心能力。 Coding 是這個世界裡的「萬用之機」,有了它,AI 就可以去構建和創造。 Coding 有可能拿走整個大模型產業階段性 90% 的價值。

  • AI Native 的產品不只是給人用的,它必須同時服務於 AI。 一個真正的 AI Native 產品,應該是內建了服務 AI 和人類的雙向機制。

  • 今天的 AI 產品正在從「工具」走向「關係」。 人不會和工具建立關係,但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關係。

以下為當天《今夜科技談》直播沉澱,由極客公園整理。

01 熱潮之下,哪些 Agent 產品已嶄露頭角?

:在過去一段時間,所有人都在討論 Agent,認為這可能是現階段的一個重要議題,也是創業公司的難得發展機會。

我看到拾象科技對 Agent 體係做了比較深入的研究,也體驗和分析了很多相關產品。 我想先聽聽兩位,最近哪些 Agent 相關的產品給你們留下了比較深刻的印象? 為什麼?

:我自己印象最深的是兩個:一個是 Anthropic 的 Claude 在編程能力上的表現,另一個是 OpENAI ChatGPT 的 Deep Research 功能。

關於 Claude,主要是它的編程能力。 我有一個觀點:編程(Coding)是衡量 AGI 最關鍵的先驗指標。 如果 AI 不能規模化、端到端地進行軟件應用開發,那麼在其他領域的進展也會比較慢。 我們必須先在 Coding 這個環境下實現很強的 ASI(Artificial SUPERintelligence),其他領域才可能加速。 或者說,我們先在數字環境下實現 AGI,再拓展到其他領域。

全球首位 AI 程序員 Devin|圖源:Cognition Labs

關於 Deep Research,它對我自己的幫助非常大,我幾乎每天都在用。 它其實就是一個搜索 Agent,幫我檢索了大量的網頁和資料,體驗很好,極大地拓展了我的研究空間。

:凱祺,從你的視角看,哪些產品給你留下了深刻印象?

:我可以介紹一下我平時觀察和使用 Agents 的思維模型,然後在每個分類下介紹一兩個代表性產品。

首先,大家經常會問:通用 Agent 還是垂直 Agent? 我們認為通用 Agent 領域做得最好的是「模型即 Agent」(Model as Agent)。 比如廣密剛才提到的 OpenAI 的 Deep Research,以及 OpenAI 新發布的 o3 模型,它其實就是一個標準的「模型即 Agent」的範例。 它把 Agent 的所有組件——大語言模型(LLM)、上下文(Context)、工具使用(Tool Use)和環境(EnviRONment)——全都縫合到了一起,並進行了端到端的強化學習訓練。 訓練之後的結果就是,各類 Agent 執行信息檢索的任務它都能完成。

所以我的一個「暴論」是:通用 Agent 的需求基本上就是信息檢索和輕度代碼編寫這兩類,而 GPT-4o 已經完成得非常好了。 因此,通用 Agent 市場基本上是大模型公司的主戰場,創業公司很難僅僅服務於通用需求來做大。

讓我印像比較深刻的創業公司基本都聚焦在垂直(Vertical)領域。

如果我們先說 ToB 的垂直領域,可以類比人的工作分為前台工作和後台工作。

後台工作的特點是重複性強、對高並發要求高,通常有一條很長的 SOP(Standard Operating Procedure),其中很多任務非常適合 AI Agent 去一對一地執行,並且適合在比較大的探索空間裡進行強化學習。 這裡比較有代表性的,我想分享的是一些面向 AI for Science 的創業公司,他們做的是 Multi-agent system(多智能體系統)。

在這個系統裡,各種科研任務都包含在內,比如文獻檢索、實驗規劃、預測前沿進展以及數據分析等。 它的特點是,不再是像 Deep Research 那樣的單個 Agent,而是一個非常複雜的、能針對科研系統做到更高分辨率的系統。 它有一個很有意思的功能叫「Contradiction Finding」,可以處理對抗性的任務,例如發現兩篇頂級期刊論文之間的矛盾之處。 這代表了研究型 Agent 裡一種非常有意思的範式。

前台工作很多時候是和人打交道,需要做外聯,目前比較適合的是語音 Agent,例如醫療領域的護士電話回訪、招聘、物流溝通等。

這裡我想分享一家叫 HappyRobot 的公司,他們找到了一個聽起來很小的場景,專門在物流和供應鏈領域做電話溝通。 比如,一個卡車司機遇到問題,或者貨到了之後,Agent 能快速給他打電話。 這裡發揮了 AI Agent 一個很特別的能力:7 天 24 小時無間斷地響應并快速做出反應。 這對於物流的大部分需求來說已經足夠了。

除了以上兩大類,還有一些比較特別的,比如 Coding Agent。

02 從 Copilot 到 Agent,是否存在一條更務實的成長路徑?

鍾凱祺:在代碼開發這個領域,最近創業熱情很火熱,一個很好的例子是 Cursor。 Cursor 1.0 的發布,基本上把一個原來看起來是 CoPIlot(輔助駕駛)的產品,變成了一個完全的 Agent 產品。 它能後台異步操作,有記憶功能,這正是我們對 Agent 的想像。

它和 Devin 的對比很有意思,給我們的啟發是:做 Agent 這件事,並不一定要「以終為始」,一開始就瞄著完全自動化的 Agent 去做,它可以先從 CoPilot 做起。 在這個過程中收集用戶數據、做好用戶體驗、佔領用戶心智,然後慢慢地轉型。 國內做得不錯的,像 Minus AI,他們最早的產品也是從 Copilot 形態做起的。

最後,我還會用「環境」這個思維模型來區分不同 Agent。 比如,Manus 的環境是虛擬機(VIRTUAL Machine),Devin 的環境是瀏覽器,flowith 的環境是筆記本,SheetZero 的環境是表格,Lovart 的環境是畫布等等。 這個「環境」就對應了強化學習裡的環境定義,這也是一種值得參考的分類方式。

國內初創團隊打造的 FLOWith |圖源:flowith

:我們深入聊聊 Cursor 這個例子,它背後的技術棧和成長路徑是怎樣的?

鍾凱祺 (Cage):自動駕駛的例子就很有意思,直到今天,特斯拉也不敢真的把方向盤、剎車和油門去掉。 這說明在很多關鍵決策上,AI 還沒辦法完全超越人類。 只要 AI 的能力和人類差不多,一些關鍵決策就一定需要人類介入。 這正是 Cursor 一開始就想得比較明白的地方。

所以他們最早貼合的特性,就是一個人類最需要的功能:自動補全(AutoCOMPletion),它把這個功能做成了 Tab 鍵觸發,隨著 Claude 3.5 這樣的模型出來,Cursor 把 Tab 的準確率提高到 90% 以上。 在這種準確率下,我可以在一個任務流中連續使用 5 到 10 次,心流體驗就出現了。 這是 Cursor 作為 Copilot 的第一個階段。

第二個階段,他們做的功能是代碼重構(Code Refactoring)。 Devin 和 Cursor 都想做這個需求,但 Cursor 做得更巧妙。 它會跳出一個對話框,當我輸入需求時,它可以在文件外開啟一個平行的修改模式來重構代碼。

這個功能剛出來時準確率也不高,但因為用戶對它的預期是 Copilot,所以大家都能接受。 而且他們很準確地預判到,模型的 coding 能力一定會快速提升。 所以他們一邊打磨產品功能,一邊等待模型能力提升,Agent 能力就很順利地浮現了。

第三步就是我們今天看到的 Cursor 狀態了,一個相對端到端的、在後台(background)運行的 Agent。 它背後有一個像沙盒一樣的環境,我甚至可以在上班時把不想做的任務佈置給它,它可以在後台用我的計算資源去完成,與此同時,我能專注於自己最想做的核心任務。

最後,它以異步交互的形式,像發郵件或飛書消息一樣,把結果告訴我。 這個過程很順利地實現了從 Copilot 到 Autopilot(或者說 Agent)的轉型。

關鍵還是要抓住人的交互心智,從一開始讓用戶更樂於接受同步交互,這樣就能收集到大量的用戶數據和反饋。

03 為何 Coding 是通往 AGI 的「關鍵試煉場」?

:廣密剛才說「Coding 是通向 AGI 的關鍵,如果不能在這個領域實現 ASI(超級智能),其他領域也很難。」為什麼?

李廣密:有幾個邏輯。 第一,Code 這個數據是最乾淨、最容易閉環,並且結果是可以驗證的。 我有一個猜想,Chatbot 可能沒有數據飛輪(一種反饋循環機制,通過從交互或流程中收集數據,持續優化 AI 模型,進而產生更優的結果和更有價值的數據)。 但 Code 領域有機會跑出數據飛輪,因為它可以進行多輪的強化學習,而 Code 是跑多輪強化學習的關鍵環境。

我一方面把 Code 理解成編程工具,但更願意把它理解成一個實現 AGI 的環境。 AGI 有可能最先在這個環境下實現,因為這個環境最簡單,它能鍛煉 AI 的核心能力。 如果 AI 連一個端到端的應用軟件開發都做不了,那在其他領域就更難了。 如果它在未來一段時間無法大規模替代基礎的軟件開發工作,那在其他領域也很難。

而且,coding 能力上來了,模型的指令遵循能力也會上來。 比如處理很長的 PROMPT,Claude 就明顯要強一些,我們猜測這跟它的 coding 能力有邏輯關係。

另外一個點,我想未來的 AGI 會先在數字世界實現。 未來兩年,Agent 能做人在手機和電腦上操作的幾乎所有事情。 一方面通過簡單的 coding 完成,如果不行,它還可以調用其他虛擬工具。 所以,先在數字世界裡實現 AGI,讓它跑得比較快,這是一個大的邏輯。

04 如何判定一個好 Agent?

:Coding 是這個世界裡的「萬用之機」,有了它,AI 就可以去構建和創造。 而且編程這個領域相對結構化,適合 AI 發揮。 當評價一個 Agent 的好壞時,除了用戶體驗,你們會從什麼視角去評價一個 Agent 的潛力?

:一個好的 Agent 首先得有一個環境來幫助構建數據飛輪,而且這個數據本身要是可驗證的。

最近 Anthropic 的研究員提得比較多一個詞叫 RLVR(Reinforcement Learning from VerifiABle Reward),其中的「V」就是指可驗證的回報。 代碼和數學就是非常標準的可驗證領域,任務做完後,立馬能驗證對錯,數據飛輪就自然地建立起來了。

數據飛輪的工作機制|圖源:英偉達

所以,構建一個 Agent 產品,就是要構建這樣一個環境。 在這個環境裡,用戶執行任務的成功或失敗都不重要,因為現在的 Agent 一定會失敗。 關鍵是在失敗時,它能收集到有信號的數據,而不是噪音數據,來指導產品本身的優化。 這些數據甚至可以作為強化學習環境的冷啟動數據。

第二,產品是否做得足夠「Agent Native」。 就是說,在設計產品時,要同時思考人和 Agent 的需求。 一個典型的例子是 The Browser COMpany,它為什麼要做一款新的瀏覽器? 因為之前的 Arc 純粹是為了提升人類用戶的效率而設計的。 而他們新的瀏覽器在設計時,很多新功能未來是能給 AI Agent 自己使用的。 當產品的底層設計邏輯發生改變,這就非常重要了。

從結果上來說,客觀評估也很關鍵。

1.任務完成率 + 成功率:首先任務得能跑完,這樣用戶至少能收到一個反饋。 其次是成功率。 一個 10 步的任務,如果每一步準確率都是 90%,那最終成功率只有 35%。 所以必須優化好每一步之間的銜接。 目前行業裡一個及格線可能是五成以上的成功率。

2.成本和效率:包括計算成本(token cost)和用戶的時間成本。 如果 GPT-4o 跑一個任務 3 分鐘,而另一個 Agent 要跑 30 分鐘,這對用戶是很大的消耗。 而且這 30 分鐘裡,算力消耗是巨大的,這會影響規模效應。

3.用戶指標:最典型的是用戶粘性。 用戶在嚐鮮後是否願意反複使用? 比如日活 / 月活(DAU/MAU)比例、次月留存率、付費率等,這些是避免公司只有「虛假繁榮」(five minutes of fame)的根本指標。

:我再補充一個視角:Agent 與當前模型能力的匹配程度。 今天 Agent 80% 的能力依賴於模型這個引擎。 比如,GPT 到了 3.5,多輪對話的通用範式出現了,Chatbot 這種產品形態就行得通了。 Cursor 的崛起也是因為模型發展到了 Claude 3.5 的水平,它的代碼補全能力才得以成立。

像 Devin 其實出來就得偏早了,所以創始團隊對模型能力的邊界理解非常重要,要清楚今天以及未來六個月模型能到哪一步,這與 Agent 能實現的目標息息相關。

:什麼叫「AI Native」的產品? 我覺得 AI Native 的產品不只是給人用的,它必須同時服務於 AI。

換句話說,如果一個產品裡沒有合理的數據去調試,沒有為未來 AI 的工作環境做搭建,那它只是把 AI 當成一種降本增效的工具,這樣的產品生命力是有限的,很容易被技術浪潮淹沒。 一個真正的 AI Native 產品,應該是內建了服務 AI 和人類的雙向機制。 簡單來說,AI 在服務用戶的時候,用戶有沒有也在服務 AI?

:我非常喜歡這個概念。 Agent 的數據在現實世界裡是不存在的,沒有人會在完成任務時把思考過程一步步拆解清楚。 那怎麼辦? 一個方法是找專業的標註公司,另一個方法就是要撬動(leverage)用戶,把用戶的真實使用方式和 Agent 自身的運行過程捕捉下來。

:那如果要通過 Agent 的方式讓人類給 AI「投餵」數據,什麼樣的任務是最有價值的?

:與其想著用數據服務 AI,不如想 AI 有什麼長板應該被放大。 比如科學研究,在 ALPHAGo 之前,人類覺得圍棋和數學是最難的。 但用了強化學習之後發現,這些對 AI 反而是最簡單的。 在科學領域也一樣,人類歷史上已經很久沒有一個學者能通曉每個學科的犄角旮旯了,但 AI 可以。 所以我認為,科學研究這類任務對人類來說很難,但對 AI 不一定難。 正因如此,我們才要多找一些數據和服務來支持它。 這類任務的回報比大部分任務更 verifiable,未來甚至可能是人類幫 AI「搖試管」,然後告訴 AI 結果是對是錯,幫助 AI 一起去點亮科技樹。

:一開始的數據冷啟動是必要的。 做一個 Agent 就像做一個創業公司,創始人肯定要做冷啟動,要親力親為。 接下來,搭建環境就很重要,決定了 Agent 往哪個方向走。 再往後,更重要的是搭建獎勵(ReWard)系統。 我覺得環境和獎勵這兩個因素非常關鍵。 在這個基礎上,Agent 的創業者做好這個 Agent 的「CEO」就好了。 今天 AI 已經能寫出人類看不懂但能運行的代碼,我們不一定非要理解強化學習端到端的邏輯,只要搭好環境、設好獎勵就行。

05 Agent 的商業模式將走向何方?

:最近我們看到很多 ToB 領域的 Agent,尤其是在美國,它們的商業模式和增長模式有什麼變化嗎? 還是有新的模式出現?

:現在最大的一個特點就是,有越來越多的產品從偏 C 端切入,在公司組織裡自下而上(bottom-up)地被使用。 最典型的就是 Cursor。 除了它,還有很多 AI Agent 或 Copilot 產品,大家願意自己先用起來。 這就不再是傳統 SaaS 那種需要先搞定 CIO、一對一簽單的模式了,至少第一步不是這樣。

另一個有意思的產品是 OPEnEvidence,他們做的是醫生這個群體。 他們先把醫生群體打下來,然後漸漸植入醫療器械和藥品的廣告。 這些業務不需要一開始就和醫院談,因為和醫院談非常慢。 AI 創業最關鍵的就是速度,光靠技術護城河是沒用的,需要通過這種自下而上的方式增長。

AI 醫療獨角獸 OpenEvidence|圖源:OpenEvidence

關於商業模式,現在有一個趨勢,就是慢慢地從基於成本(Cost-based)定價走向基於價值(Value-based)定價。

1.基於成本:這像傳統雲服務,在 CPU/GPU 成本之上加一層軟件價值。

2.按次收費:在 Agent 這邊,一種是按「動作」(Action)收費。 比如我前面提到的物流 Agent,給卡車司機打一個電話收幾毛錢。

3.按工作流收費:更高一層的抽像是按「工作流」(WorkFlow)收費,比如完成一整個物流訂單。 這離成本端更遠,離價值端更近了,因為它真的參與到了工作中。 但這需要一個相對收斂的場景。

4.按結果付費:再往上,就是按「結果」(Result)付費。 因為 Agent 成功率不高,用戶希望為成功的結果付費。 這要求 Agent 公司對產品有極高的打磨能力。

5.按 Agent 本身付費:未來可能會真正地按「Agent」付費。 比如,有一家叫 HIPpocratic AI 的公司做 AI 護士,在美國招一個人類護士大概是每小時 40 美金,而他們的 AI 護士每小時只要 9 到 10 美金,降了四分之三的成本。 在美國這種人力昂貴的市場,這非常合理。 如果 Agent 未來能做得更好,我甚至可以給它發獎金、發年終獎。 這些都是商業模式上的創新。

:我們最期待的是按價值(Value-based)的計價方式。 比如 Manus AI 做一個網站,這個價值是不是值 300 美金? 它做一個應用,是不是值 5 萬美金? 但今天的任務價值還不好定價。 如何建立一個好的衡量計價方式,是值得創業者去探索的。

另外,剛才凱祺提到按 Agent 付費,這就像企業要和員工簽合同一樣。 未來我們僱傭了 Agent,是不是要給它發「身份證」? 是不是要簽「勞動合同」? 這其實就是智能合約。 我比較期待未來 Crypto 領域的智能合約如何應用到數字世界的 Agent 上,當任務完成後,通過一個好的衡量計價手段,去分配經濟利益。 這可能是 Agent 與 Crypto 智能合約結合的機會。

06 人類與 Agent 的協作關係會變成什麼形態?

:最近在 Coding Agent 這個方向,有兩個詞討論得比較多:「Human in the loop」和「Human on the loop」,這是在探討什麼?

:「Human on the loop」是指人盡可能減少在循環中的決策,只在關鍵時刻參與一下。 有點像特斯拉的 FSD,當系統遇到危險決策時,會警告人類接管油門剎車。 在虛擬世界中,這通常指非即時的、異步的人機協作。 人可以對 AI 拿不准的關鍵決策進行干預。

「Human in the loop」則更偏向於 AI 會時不時地「ping」你一下,來確認某件事。 比如 Minus AI,它的右半邊有一個虛擬機,我可以實時看到它在瀏覽器裡做什麼,這就像一個打開的白盒,我能大概知道 Agent 想做什麼。

這兩個概念不是非黑即白的關係,而是一個光譜。 現在更多的是「in the loop」,人還是要在很多關鍵點上做審批。 原因很簡單,軟件還沒到那個階段,出了問題總得有人負責。 油門和剎車一定是去不掉的。

可以預見的是,未來高重複性的任務,最終結果一定是人只看摘要,自動化程度會非常高。 對於一些難題,比如讓 AI 看病理報告,我們可以把 Agent 的「假陽率」調高一點,讓它更容易覺得「有問題」,然後「on the loop」地把這些案例作為郵件發給人類醫生。 這樣,雖然人類醫生需要復核的案例多了,但 Agent 所有判斷為「陰性」的案例都可以被順利審批掉。 如果病理報告中只有 20% 真的有難度,那人類醫生的工作帶寬就已經放大了 5 倍。 所以不用太糾結於「in」還是「on」,只要找到好的結合點,就能把人機協作做得很好。

:鵬哥問的這個問題背後,其實有一個巨大的機會,就是「新的交互」以及「人與 Agent 如何協同」。 這可以簡單理解成在線(同步)和離線(異步)。 比如我們開會直播,必須實時在線。 但如果我作為一個 CEO 給同事佈置任務,項目推進是異步的。

這裡面更大的意義在於,當 Agent 大規模落地後,人與 Agent 如何協同交互,以及 Agent 與 Agent 之間如何協同交互,這是非常值得探索的。 今天我們還是通過文本與 AI 交互,但未來與 Agent 的交互方式會有很多種。 有些可能在後台自動化運行,有些則需要人在前面看著。 探索新的交互是一個巨大的機會。

07 能力過剩、需求不足,Agent 的「殺手級應用」何時出現?

:Coding Agent 總體還是圍繞 IDE 的延長線在做。 未來會不會有變化? 如果大家都擠在這條路上,後來者要如何追趕 Cursor?

:IDE 只是一個環境,​​再去複刻一個 IDE 本身的價值不大。 但在 IDE 或另一個好的環境裡做 Agent,本身是有價值的。 我會思考它的用戶到底只是專業開發者,還是能拓展到專業開發者之外「平民開發者」——那些有很多自動化需求的白領工作者。

現在缺的是什麼? 不是供給能力,因為 Cursor 這類產品已經把 AI 的 coding 供給能力放大了 10 倍甚至 100 倍。 以前我要做一個產品,需要外包一個 IT 團隊,試錯成本很高。 現在理論上我只要說一句話,花 20 美元的月費就能試錯。

現在缺的是需求。 大家都在用老的需求去套新技術,有點「拿著錘子找釘子」的狀態。 目前的需求大多是做落地頁(Landing page)或者基礎的玩具網站。 未來需要找到一個收斂的產品形態。 這有點像當年推薦引擎出來的時候,它是一個很好的技術,後來出現了一種叫「信息流」的產品形態,把推薦引擎真正帶給了大眾。 但 AI Coding 領域還沒有找到像「信息流」這樣的殺手級產品。

:我覺得 Coding 有可能拿走整個大模型產業階段性 90% 的價值。 這個價值怎麼長出來? 今天的第一幕還是服務全球 3000 萬程序員。 我舉個例子,Photoshop 服務的是全球兩三千萬專業設計師,門檻很高。 但是當剪映、Canva、美圖秀秀出來後,可能有 5 億甚至更多的用戶都可以使用這些工具,並做出更火爆的內容。

Code 有一個好處,它是一個創意的表達平台。 這個社會上 90% 以上的任務都可以通過 Code 來表達,所以它有可能變成一個創意平台。 以前應用開發門檻非常高,大量的長尾需求沒有被滿足。 當門檻大幅降低後,這些需求就會被激發出來。 我期待的是「應用的大爆發」。 移動互聯網生成的最大數據是內容,而 AI 這一波生成的最大內容可能就是新的應用軟件。 這就像優酷、愛奇藝這種長視頻平台和抖音的區別。 你可以把大模型比作攝像頭,在它之上還能做出抖音和剪映這樣的殺手級應用。 這可能就是所謂的「Vibe Coding」(氛圍編程)的本質,它是一個新的創意平台。

:要提升 Agent 的輸出價值,輸入(input)也變得非常重要。 但在產品和技術上,有什麼方法可以提升輸入質量,從而確保更好的輸出呢?

:在產品上,我們不能覺得用戶用不好產品是用戶的問題。 要下功夫最關鍵的一個詞就是「上下文」(Context)。 一個 Agent 能否建立「上下文感知」(Context Awareness)?

舉個例子,如果我在互聯網大廠裡寫代碼,Agent 不光要看我手頭的代碼,還要看整個公司相關的代碼庫(Codebase),甚至要看我在飛書里和產品經理、同事的對話,以及我之前的編碼和溝通習慣。 把這些上下文都給 Agent,我的輸入才能更高效。

所以對於 Agent 開發者來說,最關鍵的就是要把記憶(Memory)機制和上下文的連接能力做得足夠好,這也是 Agent 基礎設施(Infra)的一大挑戰。

Agent 的挑戰:好記憶機制和上下文連接|圖源:零售科學

此外,對於開發者來說,怎麼做好強化學習的冷啟動數據、怎麼定義清晰的獎勵(Reward)也很重要。 這個獎勵背後意味著,當用戶表達不清晰時,你怎麼把他的需求拆解出來。 比如,OpenAI 的 Deep Research 在我問得不清晰時,會先給出四個引導性問題。 在和它交互的過程中,我其實也在想清楚自己的需求。

對於今天的用戶來說,最主要還是要想怎麼清晰地表達需求,以及怎麼驗收需求。 雖然不用做到「以終為始」,但要對好壞有一個大概的預期。 我們寫 Prompt 也要像寫代碼一樣,有清晰的指令和邏輯,這樣能避免很多無效的輸出。

:我補充兩點。 第一,上下文的重要性。 我們內部經常討論,上下文做好了,會有新的支付寶、PayPal 級別的機會。

以前電商看的是成交總額(GMV),以後看的是任務完成率。 而任務完成,一邊是智能,另一邊就是上下文。 比如我要做一個個人網站,如果把我的 Notion 筆記、微信數據、郵件數據都提供給 AI,那我的個人網站內容肯定會非常豐富。

第二,自主學習。 搭好環境後,Agent 要能迭代,這非常關鍵。 如果不能持續學習迭代,結果就是被模型本身吃掉,因為模型就是一個學習系統​​。 上一波移動互聯網,沒有做機器學習和推薦的公司都沒做大。 這一波如果 Agent 做不好端到端的自主學習和迭代,我覺得也做不起來。

08 巨頭博弈下,還有哪些變化和機會?

:我們怎麼判斷未來 Agent 的能力會以一個超級接口的形式出現,還是離散地分佈在各個場景裡?

:我看到一個比較大的趨勢是,第一,肯定是多智能體(Multi-agent)的。 即便是完成一個任務,在 Cursor 這類產品裡,做代碼補全和做單元測試的可能是不同的 Agent,因為它們需要的「性格」和擅長的點不一樣。

第二,入口會不會有變化? 我覺得入口是一個二階的問題。 首先要發生的是,大家有很多 Agent,並和它們協作。 這些 Agent 背後會支撐起一張網絡,我稱之為「Botnet」。 比如未來購物,60% 以上的固定消費可能都由 Agent 幫我完成。

在生產力場景也一樣,未來程序員的每日例會可能會被 Agent 之間的協作所取代,由它們推送指標異常和產品開發進展。 當這些發生後,入口的變化才可能出現。 那個時候,API 的調用也不再主要是人類調用,而是 Agent 之間互相調用。

:那些有能力的大廠,比如 OpenAI, Anthropic, Google, Microsoft,在 Agent 上都是什麼樣的決策和行動狀態?

:我腦子裡一個關鍵詞是「分化」。 去年大家都在追趕 GPT-4,但現在能做的事更多了,各家都開始分化。

第一個發生分化的就是 Anthropic。 因為它比 OpenAI 晚,綜合能力沒那麼強,所以它就專注在 Coding 上。 我感覺它摸到了通往 AGI 大方向的第一張大牌,就是 Coding Agent。 他們可能認為,通過 Coding 可以實現 AGI,可以帶來指令遵循能力和 Agent 能力,這是一個邏輯自洽的閉環。

但 OpenAI 手上的大牌就更多了。 第一張是 ChatGPT,Sam Altman 可能想把它做成 10 億日活的產品。 第二張是它的「o」系列模型(GPT-4o 等),預期很高,能帶來更多泛化能力。 第三張是多模態,它的多模態推理能力上來了,未來在生成上也能體現。 所以,Anthropic 摸到了一張大牌,OpenAI 摸到了三張。

另一個大廠是 Google。 我覺得到今年年底,Google 可能會在全方位趕上。 因為它既有 TPU,又有 Google Cloud,有頂尖的 Gemini 模型,還有 Android 和 Chrome。 你在全球找不到第二家擁有所有這些要素,還幾乎不依賴外部的公司。 Google 端到端能力是非常強的,很多人擔心它的廣告業務會被顛覆,但我感覺它未來可能會找到新的產品結合方式,從一個信息引擎變成一個任務引擎。

你看蘋果,因為沒有自己的 AI 能力,現在迭代就很被動。 而微軟是以開發者見長的,但 Cursor 和 Claude 其實搶了不少開發者的注意力。 當然微軟的盤子非常穩,有 GitHub 和 VS Code,但它也必須擁有非常強的 AGI 和模型能力。 所以你看它也宣布 GitHub 的首選模型之一變成了 Claude,並迭代自己的開發者產品。 微軟在開發者這塊必須守住,否則根基就沒了。

所以大家開始分化了。 可能 OpenAI 想成為下一個 Google,Anthropic 想成為下一個 Windows(靠 API 活著)。

:那與 Agent 相關的基礎設施(Infra)有哪些變化和機會?

:Agent 有幾個關鍵組件。 除了模型,第一個就是環境(Environment)。 Agent 開發最早期,80% 的問題都出在環境上。 像早期的 AutoGPT,要么用 Docker 啟動,非常慢,要么直接在本地電腦部署,非常不安全。 如果一個 Agent 要和我一起「上班」,我就得給它配一台「電腦」,所以環境的機會就出來了。

配「電腦」有兩大需求:

1、虛擬機 / 沙盒:提供一個安全的執行環境。 任務做錯了能回退,執行過程不能傷害實際環境,並且要能快速啟動、穩定運行。 像 E2B、Modal Labs 這樣的公司都在提供這類產品。

2、瀏覽器:信息檢索是最大需求,Agent 需要到各種網站上爬取信息。 傳統的爬蟲容易被封,所以需要給 Agent 搭一個專用的、能理解信息的瀏覽器。 這就應運而生了像 Browserbase、Browser Use 這樣的公司。

第二個組件是上下文(Context)。 這包括:

  • 信息檢索(Retrieval):傳統的 RAG 公司還在,但也有新的公司,比如 MemGPT,它為 AI Agent 開發輕量化的記憶和上下文管理工具。

  • 工具發現:未來工具會非常多,需要一個像「大眾點評」一樣的平台來幫助 Agent 發現和挑選好用的工具。

  • 記憶(Memory):Agent 需要一套能模擬人類複雜的長短期記憶結合能力的 Infra。

第三個組件是工具(Tools)。 包括簡單的搜索,也包括複雜的支付、自動化後端開發等。

最後,當 Agent 能力再強一些,一個重要的機會就是 Agent 安全(Agent Security)。

:Agent Infra 非常重要。 我們可以「以終為始」地想,三年後,當幾萬億的 Agent 在數字世界裡執行任務,那 Infra 的需求就太大了,這將重構整個雲計算和數字化世界。

但今天我們還不知道什麼樣的 Agent 能做大,它到底需要什麼樣的 Infra。 所以現在對創業者是一個非常好的窗口期,可以和那些做得好的 Agent 公司共同設計(co-design)和共創 Infra 工具。

我覺得今天最重要的,第一是虛擬機,第二是工具。 比如未來的 Agent 搜索肯定和人的搜索不一樣,會產生天量的機器搜索需求。 現在全網人類的搜索每天可能 200 億次,未來機器搜索可能是幾千億甚至上萬億次。 這種搜索不需要給人類做排序優化,可能一個大的數據庫就夠了,這裡有很大的成本優化和創業機會。

09 當 AI 不再只是大模型,它會往哪個方向進化?

:Agent 始終繞不開模型,站在今天,你覺得模型技術在過去兩年裡走過了哪些關鍵的台階?

:我覺得關鍵的里程碑(milesTONe)可能就兩個。 一個是 GPT-4 代表的規模化定律(Scaling Law)範式,即在預訓練階段,擴大規模仍然是有效的,它能帶來通用的泛化能力。

第二個大的里程碑是「o」系列模型所代表的「模型會思考」的範式。 它通過更長的思考時間(思維鏈),顯著提升了推理能力。

我覺得這兩個範式是今天 AGI 的左膀右臂。 在這個基礎上,Scaling Law 遠遠沒有停止,思考模式也會繼續。 比如,在多模態下可以繼續 Scaling,也可以把「o」系列的思考能力加到多模態上,這樣多模態就能有更長的推理能力,生成的可控性和一致性就會變得非常好。

我自己的感覺是,未來兩年可能比過去兩年進步要更快。 今天可能正處在一個全球幾千名頂尖 AI 科學家,共同推動人類科技文藝復興的狀態,資源充足,平台也具備了,很多地方都可能出現突破。

:你會比較期待接下來一兩年,在 AI 領域看到哪些技術台階的實現和跳躍?

:第一個是多模態。 現在多模態的理解和生成還是比較零散的,未來一定會走向「大一統」,即理解和生成一體化。 這會極大地打開產品的想像力。

第二個是自主學習。 我很喜歡 Richard Sutton(強化學習之父)提出的「經驗的時代」(the era of experience)這個概念,即 AI 通過在線執行任務的體驗來提升自己的能力。 這在以前是看不到影子的,因為沒有基座的世界知識。 但從今年開始往後,這會是一個持續發生的事情。

2024 年圖靈獎獲獎者 Richard Sutton |圖源:Amii

第三個是記憶。 如果模型真的能在產品和技術層面把 Agent 的記憶做好,帶來的突破會非常大。 產品的粘性才真正出現。 我感覺 GPT-4o 開始有記憶的那一刻,我才真正對 ChatGPT 這款應用產生了粘性。

最後是新交互。 會不會有不再是文字輸入框的新交互? 因為打字這個門檻其實挺高的。 未來會不會有更符合人類直覺和本能的交互方式? 比如,我有一個「永遠在線」(Always-on)的 AI 產品,它在後台不斷地聽我說話、異步思考,在我靈感迸發的那一刻,能捕捉到關鍵的上下文。 我覺得這些都是我比較期待的。

:確實,今天我們面臨的挑戰和機遇並存。 一方面,我們不能被技術發展的速度「拉爆」,要保持持續的關注。 另一方面,今天的 AI 產品正在從「工具」走向「關係」。 人不會和工具建立關係,但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關係。 這種關係本質上就是習慣和慣性,這也是未來重要的壁壘。

今天的探討非常深入,感謝廣密和凱祺的精彩分享。 也感謝直播間觀眾的陪伴。 我們下期《今夜科技談》再見。

:謝謝。

:謝謝。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列