人工智能現在比風險投資更擅長預測初創企業的成功
GPT-4 能否在專業人士之前在 2008 年發現 AirBNB,或在 2012 年發現 Figma?
一篇新論文牛津大學和 Vela ReseARch 的研究人員的研究表明,大型語言模型在挑選優勝者方面已經比大多數早期投資者做得更好。 在這個以模式匹配和熱情介紹而聞名的領域,人工智能能夠更早地發現有前途的創始人——甚至在不知道他們名字的情況下——這一前景可能會改變遊戲規則。
如果像 GPT-4o 這樣的模型能夠稍微提高命中率,那麼它們就可能成為每家公司交易採購堆棧中必備的工具,甚至可能使初創企業投資變得更加精英化。
該研究論文,“VCBench:風險投資法學碩士的基準測試”推出了 VCBench,這是首個旨在測試人工智能能否在初創企業成功之前預測其成功的開放式基準測試。 該團隊構建了一個包含 9,000 份匿名創始人資料的數據集,每份資料都與早期公司數據配對。 其中約 810 份資料被標記為“成功”——定義為實現了重要的增長里程碑,例如退出或 IPO——這為模型提供了稀疏但有意義的訓練信號。
至關重要的是,研究人員清理了數據集中的名稱和直接標識符,這樣模型就無法簡單地記住 Crunchbase 的瑣事。 他們甚至進行了對抗性測試,以確保法學碩士 (LLM) 不會通過從公開數據中重新識別創始人來作弊,從而將重新識別風險降低了 92%,同時保留了預測特徵。
經測試,這些模型的表現優於大多數人類基準。 論文指出,“市場指數”(本質上是所有早期風險投資押注的基準表現)的準確率僅為1.9%,即50次嘗試中只有一次成功。 Y COMbinator 的表現更好,達到了3.2%,大約是市場的1.7倍,而一級風險投資公司的準確率約為5.6%,大約是市場的兩倍。
然而,大型語言模型卻超越了這一基線。
例如,DEEPSeek-V3其精度是市場指數的六倍多,同時GPT-4o以最高的 F0.5 分數位居排行榜榜首,平衡了準確率和召回率。 克勞德 3.5 十四行詩 和 雙子座 1.5 專業版也輕鬆擊敗了市場,與精英風險投資公司處於同一業績水平。
換句話說,幾乎所有接受測試的前沿法學碩士在識別可能的贏家方面都比平均風險投資做得更好——而且有幾種模型的預測能力達到或超過了 Y Combinator 和頂級基金的預測能力。
研究人員已將 VCBench 作為公共資源發佈於vcbench.com邀請社區運行自己的模型並發布結果。 如果排行榜上充斥著表現優於市場的法學碩士,那麼這可能會重塑早期投資。 一個由人工智能代理在領英上搜索,而不是通過給合作夥伴發送冷郵件來發現創始人的世界,或許並不遙遠。