對話 AI 招聘平台 Mercor 創始人:招聘中 AI 如何評估人,五年後人類還能做什麼?
作者:MD
出品:明亮公司

近日,美國紅點創投兩位合夥人JacobEffRON(中)、Patrick Achase(左)在播客“非監督學習“中與AI招聘平台Mercor的創始人、CEO Brendan Foody(右)展開了一場對談。 除了Mercor的核心業務AI招聘的變化之外,三人也一同探討了未來AI與人類未來在工作領域的關係。
Mercor由Brendan Foody在內的三位21歲的Thiel Fellows在2023年創立。 今年2月,公司宣布完成1億美元B輪融資,估值20億美元。 該輪融資由Felicis領投,BenchmARk、General Catalyst和DST Global等投資機構跟投。 Mercor通過AI技術自動化簡歷篩選、候選人匹配、AI面試和薪酬管理,旨在提升招聘效率並減少人為偏見。
在訪談中,Brendan Foody提到,目前Mercor實際上已經進入AI模型的評估和數據標註領域。 隨著AI模型能力的提升,大量複雜的問題已經無法通過模型本身或普通常識來得到驗證,因此模型的開發者需要藉助專業領域的高知人才,但往往這類工作並非長期職位,與“專家網絡”蕾絲,因此通過其平台為大量AI實驗室找到該領域的人才也就“順理成章”,Foody指出,“數據標註市場正從大規模、低門檻的眾包轉向高質量、專家型標註”。
而在其核心業務“AI招聘領域”,Brendan Foody認為,AI在通過文本進行人才評估方面已接近甚至超越人類,尤其是在簡歷篩選、面試文字分析等場景,但在多模態任務(如情感和氛圍判斷)方面,AI尚有不足。
其中,Brendan Foody還提到了一個觀點:比如,如果僱傭一個投資人,將其在播客中的觀點、平日會議記錄等數據輸入模型形成上下文,將無疑更有利於模型判斷這一候選人的認知、能力和求職偏好。 而在傳統的招聘中,這類數據的評估要么被完全忽視,要么需要耗費大量的精力,而AI實現的成本更低、效率更高。
因此,AI和人類的分工可能會變為,AI將很快主導人才評估環節,提高效率和準確率——人類則更多參與到“推銷”環節,如溝通崗位氛圍、激勵等,提升候選人體驗。
“我看到的趨勢是,Brendan Foody說。
以下為「明亮公司」編譯的訪談正文(有刪節):
Brendan Foody是Mercor的聯合創始人兼CEO,這是一家為AI-Native勞動力市場搭建基礎設施的公司。 Mercor平台已經被用於數據標註、人才篩選、績效預測,以及評估人類和AI候選人。
Brandon的團隊最近融資一億美元,他們正在與一些最先進的AI公司合作。 我們今天的對話涉及很多有意思的話題,包括未來人類在勞動力中的角色。 我們討論了哪些類型的數據標註對模型改進最重要,Brandon回顧了Mercor的快速崛起及他做出的一些關鍵決策,我們還談到了AI在招聘流程中哪些地方有效、哪些地方無效。 總之,這是一次非常有趣的對話,我相信你們會喜歡。 Brendan Foody,感謝你參加我們的播客。
非常感謝邀請。 我是你的忠實粉絲,非常興奮。
很高興你能來。 我想我們可以自上而下開始,對於我們的聽眾來說,我希望你能為大家梳理一下現在我們處在什麼階段? AI評估人才的現狀如何? 哪些有效,哪些無效? 現在的進展如何?
我對它的表現感到驚訝。 我認為,,無論是面試的文字記錄、書面評估,還是簡歷上的信號。 這其實是一個很有趣的二元對立,因為這些技術實際上在經濟中分佈得很少。 所以這裡有很大的空白地帶,這也是我們非常興奮想要去開發和建設的事情之一。
Jacob:有沒有哪些事情在推理模型出現之前是行不通的? 比如說過去六個月,這些模型變得更好了,有哪些終於開始奏效了?
Brendan:是的,我記得在GPT-4發佈時,我們構建了第一個AI面試官的原型,結果什麼都不行。 模型每兩三個問題就會出現幻覺等各種問題。 這一路走來,真的是順風順水。 我認為推理模型的出現顯然讓模型
不過,因為過去實驗室對此關注不多,而且用強化學習做這類事更難,但我們對這方面的進展也很期待。
你最期待模型什麼時候能實現哪些里程碑功能?
有一些事情,比如人類擅長做的事情,比如判斷“氛圍”(Vibe)——我是否願意和這個人共事,這個人是否有激情、是否真誠,這些模型很難做到。 即使對最優秀的人類來說也很難,更別說模型了。 所以我很期待這方面的突破,也在為此開發評估工具。 但每當我閱讀模型的推理鏈,試圖解讀我們評測的內容時,我總覺得模型比我們團隊裡負責創建評測的研究員要理性得多。
所以模型進步真的非常快,大家都能看到它們在代碼領域的表現,但我們其實還只是剛剛起步,很多其他領域也在以驚人的速度起飛。
你們做的很大一部分其實就是為人類設計評估,看他們能否勝任工作。 現在很多人在做AI員工,比如說讓AI代理完成員工的任務,你們在這方面有參與嗎?
Brendan:當然,我們在這方面做了很多。 簡單介紹一下公司的背景,,通過應用大模型,我們可以解決這個匹配問題,建立一個全球統一的勞動力市場,每個候選人都可以申請,每家公司都可以僱傭。 但後來我們發現,隨著新型知識工作崗位的出現,對人力的需求激增,尤其是評估大模型的人才需求。 所以現在我們為頂級AI實驗室招聘各種專家。不僅是為評估專家創建評測,也為模型和你提到的那些AI代理創建評測。
對我們的聽眾來說,Mercor也有很多AI用於篩選候選人、處理簡歷等場景。 你能介紹一下你們有哪些AI用例嗎? 你們現在用的技術棧是什麼樣的?
一個很好的方法就是把人類手動做的所有事情都創建評測,然後看我們能否自動化。 比如人如何評閱簡歷、面試、排序和決定錄用誰。 我們把所有流程自動化,比如評測我們解析簡歷的準確性、評分簡歷各部分的準確性、面試提問的準確性、面試評估的準確性,然後把這些全部輸入模型上下文,再結合推薦信等其他數據,最終做出錄用預測。
主要是用現成的模型,你們負責評測和上下文設計嗎?
是的,基礎任務用很多現成模型,但在最難的候選人最終評估環節,我們會做後訓練。 我們會從客戶的數據中學習,比如哪些人表現好,原因是什麼,從這些信號中學習,做出更好的未來招聘預測。
你們學到過哪些讓人意外的信號? 比如AI發現了什麼是你們人類沒想到的?
有很多這樣的例子。 我認為而人類因為“氛圍判斷”可能早就決定了。 比如簡歷裡如果有人表現出對某個領域極大的興趣或者有人曾在目標國家留學,可能溝通更順暢,更適合團隊環境。 這些小細節因項目和客戶而異。
你覺得有哪些事情是一定需要人做的? 你剛才提到多模態任務,但你怎麼看AI和人類面試官的協作? 未來會不會全是AI評估?
簡單來說,招聘過程分為評估和推銷。人類則會繼續在推銷環節發揮很大作用,比如讓候選人了解團隊、崗位、氛圍等。這樣能讓他們更好地幫助候選人了解崗位、團隊和激勵點。
你覺得大家會不會開始“刷分”——有意迎合評測信號? 你們遇到過嗎? 比如大家都說自己去目標國家留學過。
大家都說自己去目標國家留學過。
對,比如都說自己在招聘地留學過。
是的,所以有時候我們要對信號保密。 我們和所有大型招聘流程一樣,經常遇到這種情況。因為模型能為面試做大量準備,人才評估的深度和廣度前所未有。
比如我第一次面試高管候選人,可能只看幾分鐘LINKedIn和一些筆記,
你們的模型很擅長預測候選人表現,這個過程需要可解釋性嗎? 還是說模型黑箱給出結論就可以?
我認為可解釋性很重要,有兩個原因。 第一是讓客戶理解和信任模型的結論,建立信任和推理鏈。 第二是確保模型選人是基於正確的理由。 所以可解釋性很有價值。
,人們需要完成工作,或者需要一定的人類參與,然後只要一個置信區間預測這個人能否勝任,整個流程里人類的中介作用會大大減少。
這算是通往那個目標的信任里程碑,很有道理。 目前數據標註環節有明確的反饋迴路,比如多個人標註同一份數據。 你怎麼看把這種方法應用到更模糊的人類工作領域的挑戰? 也許你得等15年才能獲得反饋。
比如VC(笑)。
我的一個看法是,如果有100個人做同樣的工作,很容易給他們排名。 但如果100個人做的工作都不一樣,比如創始人,每個人的工作都很有差異,就很難找到共性,難以判斷哪些行為或信息和結果有關。 因為變量太多了。 所以對於大規模同質崗位,比如招20個客戶經理,模型可以從中學習信號並優化。 但對於復雜崗位,比如我們在評估一批Thiel FelloWs(蒂爾獎學金項目),這種情況就更具挑戰性,更依賴模型的推理能力。
有哪些具體挑戰?
主要挑戰是很多信息沒進到模型上下文裡,模型無法學習,人們也經常忘記補充信息。 比如我聽朋友說某公司產品很好,這種信息沒被輸入模型。我們發現,其實只要把必要數據輸入模型上下文,就解決了大部分問題。
也許未來我們每個人的智能眼鏡都在錄音,隨時把信息輸入模型。
對。
會不會變成橋水基金那樣的程度?
也許是。 但很多公司會排斥這種做法,出於法律和合規原因也不願意。 但我認為會有更好的流程,讓模型能更好地獲取上下文。 比如AI做離職面談,採訪經理和團隊成員,了解更多細節。
現在越來越多創始人和各種人都會帶AI參加會議,所以很多會議和交流都會被錄音,供AI學習。 非常有趣。
我們可以把自己的會議轉錄拿來給AI給我們打分排名。
哈哈!
前提是我能排在前面。
你怎麼看現在的數據標註市場? 不同玩家如何區分? ScaleAI似乎遙遙領先,但現在又有很多新玩家,你怎麼看這個格局?
我認為大多數人不了解數據標註和評估市場的關鍵變化。 市場和兩年前完全不同。 以前模型不夠好,很容易被難倒,經常出錯。 高中生或大學生就能做很多標註或評測,通過眾包方式做大規模數據收集,比如SFT(監督微調)、RHF(人類反饋強化學習),選擇不同的偏好選項。
但隨著模型變得很強,眾包模式失效了,設計複雜數據來難倒模型,反映現實世界要自動化的難題。 我們的平台正好能快速招到這些高質量人才。
這讓我們迅速發展,與大實驗室合作。 我認為這個趨勢會繼續。
你覺得數據標註流程裡對人類的需求會一直存在嗎? 模型越來越強,甚至能訓練小模型,你怎麼看未來的演變?
Brendan:我的看法是,只要經濟中還有人類能做、模型還不會做的事情,我們就需要創造或模擬環境讓模型去學習。但有些領域很開放,比如評估好創始人,或者很多知識型工作,本質上是開放性難題,難以驗證什麼是好,需要把人類的理解輸入模型。 這就是為什麼我預計人類數據(注:human data,通常指直接從人類或關於人類收集的數據)和評估市場會有數量級增長。
如果我理解沒錯你們顯然已經擴展到其他領域,比如編程本身是個完美的強化學習和評估用例,你們在進入這些更模糊的領域、招聘相關人才時,有哪些需要改變或改進的地方?
我認為,借鑒人類手動做事的啟發式方法是很好的做法。 例如,如果你想自動化顧問的工作,怎麼評估顧問? 那就給他們案例研究,也許是和他們背景相關的案例。
你們團隊的人可能都很擅長評估程序員,但如果要讓醫生加入平台,你們怎麼知道該用什麼啟發式來評估醫生?
你提到的這個點很有意思,就是當進入超出機器學習團隊能力範圍的領域時,就需要專家。 我們需要醫生來幫助我們設計醫生的評估和評測標準,其他領域也一樣。 同樣,這也是研究員需要做的事情。 比如做看高中物理題還容易判斷哪個答案對,但如果是博士級化學題,研究員沒有相關學歷就很難理解和改進評測。 所以這也是你之前問的評估大變化之一——。
我聽你說過,這種短期數據標註合同工作其實是你們最初市場的完美切入點,需求巨大,你能聊聊公司實現這個願景的路徑和階段性目標嗎?
我寫過一份“秘密大師計劃”有講到這個。 我的看法是,所以現在我們非常專注於抓住巨大的需求,擴大網絡效應,發展市場。
與此同時,我們也看到很多大科技公司客戶需要大量合同工,比如上百個數據科學家、軟件工程師等,以前是和埃森哲、德勤等公司競爭。 我們會把這作為第二重點,然後擴展到全職招聘。 但其實我們公司早期做的就是幫朋友和自己招合同工,很多後來轉正了。
所以這些業務是連續的,有很多共性。 所有公司都想要更多候選人、更快招聘速度、更高的勝任信心。 我們只要不斷衡量並提升這些指標,就能服務好公司發展的每個階段。
Jacob:有沒有哪一刻讓你們決定要轉向人類數據領域,覺得機會特別明顯?
Brendan:有,我還在大學時就遇到了。 公司背景是我和合夥人14歲時在高中認識,大家18歲一起創業,他們贏了很多比賽,我沒他們厲害,但一直在創業。 後來我們開始在印度招聘國際人才,比如和IIT Code Club合作,發現有很多聰明人找不到工作,我們覺得可以僱他們做項目,朋友們也願意付錢讓我們幫忙招聘。
我很自豪,但父母還是不滿意。 直到我們融資了,他們才滿意。 回到你的問題,2023年8月,有客戶把我們介紹給x.ai的聯合創始人,那時他們還在特斯拉辦公室。兩天后我們就進了特斯拉辦公室,見了x.ai幾乎全部創始團隊,除了Elon,就在他們和Elon開會前。 我們還在上大學,簡直不可思議。 我們都在想,他們為什麼這麼想要我們的產品?但他們那時還沒準備好用人類數據,大概六個月後我們才和前沿實驗室合作,把業務做大。
看到了浪潮來襲。
是的,我發現很多創始人在找PMF時太過強求,如果最初銷售都很難做成,後面規模化會更難。 要找到最痛點、最有錢的客戶,他們願意為解決問題付出一切,然後全力以赴。
你們現在已經超越了編程,比如醫生這個例子讓我想到,你們在和客戶合作時具體做什麼?
人類現在比AI強的一個關鍵點是能不斷學習和進步。 我們會尋找這些代理信號,比如候選人會問正確的問題,思考方式對,背景裡有高績效環境的經歷,這些都能幫助他們發現模型的漏洞、提升模型能力。
你們現在自己也用自家產品嗎? 具體怎麼用在招聘上?
當然,除了高管崗位,其他崗位我們都用。 高管崗位我們也掛了職位,但大多還是我先面試,我們的AI面試非常有效,很多時候是最有預測力的信號。
招聘其實是最早的“氛圍”行業。
VC們肯定沒有這種偏見。
所以我們要用業績數據來做決策。 比如我們招聘戰略項目負責人,以前是人類做案例分析,AI面試能讓比較更客觀、標準化,不用不同面試官各自為政。
評測環節你們是自己找人做,還是用市場上的人? 內部做得多嗎?
我們會用市場上的人來做自己的評測流程,和客戶流程類似。 當然研究員還是要參與,分析模型出錯原因、完善錯誤分類、優化後訓練數據,流程和用人都一樣。
你們提到用多模態能力判斷激情等特質,對未來的視頻、音頻等有何考慮?
我常想強化學習(RL)在提升視頻理解能力上的作用。 RL擅長搜索問題,而視頻信息量巨大,所以模型處理起來困難。 我們要思考如何在多模態上下文裡找到關鍵信號,比如候選人是否很激動、是否作弊等。 我們要創造合適的數據,讓模型關注這些信號,前沿實驗室也在做底層能力提升。
就像你說的,短短幾年,標註市場變化巨大。 你覺得兩年後會怎樣? 這塊業務還會存在嗎? 還是只剩下專家?
我認為會是很重要的一塊。 我們創業的初衷就是聚合勞動力,讓勞動力配置更高效。。
我看到的趨勢是,所以我高度看好知識型工作向評測轉型,可能形式會更動態,比如和AI面試官對話解決問題。 我認為這是經濟的重要組成部分,但大多數人還沒意識到,因為大家把它和SFT、RHF市場混淆了,
你覺得未來哪些技能最值得培養? 如果你建議在校生應該學什麼,你會怎麼說?
我一定會建議大家追求快速學習能力,因為變化太快了。 很多領域,人們以為模型很久都做不好,結果很快就突破了。 要多和AI協作。 我們市場上的人常說,他們喜歡能整天和模型打交道,思考模型做不到什麼、缺了什麼。 這些經驗能幫他們在實際工作中判斷哪些環節用AI更高效。 所以要盡量多用模型,熟悉它們在本領域的優缺點。 這很有幫助,但很難說一定要做軟件工程師還是別的什麼。
很有意思,未來我們可能都要花大量時間訓練模型。 硬技能有對錯,但主觀領域幾乎無限。
完全同意。比如軟件開發,經濟裡有100倍、1000倍的需求,哪怕不是1000倍新Web應用,也有大量功能迭代、排序算法優化等。 相比之下,會計師等需求就很固定。 所以要盡量去需求會大幅增長、能提升總生產力的領域,這樣更保險。
你說得很對。 我前幾天和一個創始人聊天,他說,大家都在說軟件工程師會被淘汰,但其實我真的很需要更多的軟件工程師。
我也很興奮。
你們創業之初,應該也有誘惑去做招聘協作工具或者為中介機構做軟件吧? 你們為什麼決定做端到端的服務? 這個決定是一開始就確定的嗎?
一開始我們有很多第一性原理的思考,反而有優勢,因為我們沒見過傳統做法。所以我們就把所有環節都包辦了。 但現在回頭看,我覺得越來越多公司會走向端到端,,更合理的是把整套流程自動化,讓它能從反饋中學習和優化。
確實,。 如果沒有這個市場,你們可能也會先做協作工具。
對,比如全職招聘,客戶肯定希望員工在自己名下。 所以我們很幸運,公司的運營模式和市場需求轉變高度契合。
一開始你們是幫朋友找合同工,最初你是不是覺得這是個副業,後來才變成主業? 什麼時候讓你下定決心全職創業?
其實我高中就一直創業,公司做得還不錯,所以我本來不想上大學,和父母說了他們也不高興,後來為了安撫他們還是申請了大學,但我一直說自己會退學,他們也不信,覺得既然我答應上學就不會退學。 但我每學期都和他們說同樣的話,最後真的退學了,也沒提前打招呼,因為我已經說了兩年了。
我早就知道你會退學。
對我來說,我很清楚自己想創業,想做有影響力的事情,而不是上那些感覺沒用的課。 我其實一直在尋找值得投入的事情。 我的合夥人最初也是當副業做,想拿到足夠證據說服父母退學。 他們父母的要求是必須融資成功,哪怕公司已經有百萬美金營收和利潤也不行,必須拿到種子輪投資。
沒錯,沒有家長就沒有VC。
Brendan:這就是“權威背書”。
說到融資,你們之前(注:今年2月)剛完成一億美元的B輪融資,恭喜! 這筆錢會怎麼用? 你們是怎麼判斷何時該融資的?
其實我們唯一主動去融資的就是種子輪,為了說服父母退學。我們的想法是保持稀釋率在5%左右,建立“彈藥庫”,用來投入產品研發,比如推薦激勵、創新的消費級產品,擴大市場供給端,也會投入更多後訓練數據,提升模型表現預測能力。 我們ML團隊最大的瓶頸其實就是做更多評測和訓練環境,這也正好和我們的主營業務吻合。
你們的客戶群有很多基礎模型公司,你怎麼看這個領域的未來? 有人說會只剩兩三家巨頭,你覺得最後會有多少玩家? 他們會怎麼差異化?
Brendan:這是個好問題。很多API能力會大宗商品化,但市場足夠大,每家都能在細分領域吸收大量價值。大家喜歡用經驗主義說這些公司估值虛高,但如果你從“自動化知識型工作”這個第一性原理出發,
現在模型跨領域泛化很強,所以感覺贏家通吃,還是會有細分領域的佼佼者? 你舉的對沖基金例子很有意思,說明應用層還有很多空間。
對,聚焦很有價值。 我覺得做通用APi不是好生意,最終只會剩下一家。 更多價值會在應用層,每個垂直領域和客戶場景都需要深度定制。
你覺得這些定制模型會需要很多複雜的標註嗎?
肯定會。 比如每個交易公司都能針對自己獨特的交易分析做評測,判斷哪些結論準確,哪些不准,能否轉化為盈利。 如果有一流的後訓練團隊專門優化交易分析,比人類交易員更快,那機會大得驚人。
感覺有些交易公司最優策略應該是暫停交易,花九個月專注後訓練模型。
我其實很驚訝,很多交易公司在後訓練上的投入比想像中少,可能是地理原因——他們主要在紐約,但我相信他們會大舉投資,和前沿實驗室形成九位數、十位數的合作,定制自己的應用。
你現在在AI領域最大的未知是什麼? 如果能知道答案,對公司運營會有什麼影響?
還是你剛才說的,這是個極難的問題,也是公司使命的一部分。 我們有各種直覺,但世界變化太快。 很多工作會被自動化,我們需要更好地理解未來人類的新機會和經濟角色,這很重要。
你覺得政策層面還有哪些事可以做? 其他機構應該扮演什麼角色?
當然。 很多監管者關注的事情其實離老百姓很遠。 我覺得未來兩三年大家會真正擔心的是,這不是那種小概率、大影響的風險,是必然趨勢。 所以監管者應該更主動地規劃未來,管理公眾預期,告訴大家幾年後世界會變成什麼樣。
確實,現在連再培訓什麼都還說不清。
沒錯。 但我希望這方面能有更多討論,更多關注下一代工作的形態,也給學生和求職者更多指引。
我們喜歡在採訪最後做一輪快問快答,問些寬泛的問題,想听聽你的簡短看法。 你覺得AI領域有什麼被高估、又有什麼被低估了?
好問題。 我覺得評測(E-vals)被嚴重低估了。 雖然現在已經很火,但我認為還是被低估了很多。
人類能力的最後堡壘。
我覺得被高估的是SFT、RHF這類傳統數據。 有公司在這上面花了幾十億美元,其實根本沒必要,花費應該減少一個數量級,這個趨勢會變。
過去一年你在AI領域有什麼觀點發生了變化?
有意思。 我對自動化軟件工程的時間線預期大幅提前了。 以前我對研究員說的“AI能寫出比人類更高命中率的PR”的時間表還持懷疑態度,現在我覺得今年晚些時候、明年上半年就會實現,這會非常酷。
是啊。 其實兩年前,如果說AI能有現在的能力,大家都會覺得要改變世界了,但真的實現後,反而沒那麼震撼。 你覺得這會不會導致軟件工程就業出現大規模變化,還是只是10%~20%的變化?
關鍵還是我們之前說的“需求彈性”。 短期內我不擔心工程師失業,因為工具讓他們更高效,反而會有更多軟件要寫。 但崗位性質肯定會變,懂產品、懂模型短板的人會更有比較優勢。
除了你們公司,你最看好哪家AI創業公司?
我很看好OpENAI的代碼能力,雖然這個答案不夠“逆風”。 我也覺得未來會有大量定制智能體,
那你肯定不能在播客裡說,等錄完我們再逼你透露(笑)。