OpenAI 數據顯示,AI 尚未取代你的工作,但可能很快就會取代你
OpENAI 揭幕GDP值週四,這項基準測試試圖定性地評估人工智能是否能夠完成你的實際工作。
這些並非假設性的考試題目,而是真實的可交付成果:法律摘要、工程藍圖、護理計劃、財務報告——這類工作可以用來償還抵押貸款。 研究人員特意關注那些至少60%的任務基於計算機的職業——他們將這些職位描述為“以數字化為主”。
這一範圍涵蓋軟件開發人員、律師、會計師和項目經理等專業服務;分析師和客服代表等金融和保險職位;以及從記者、編輯到製作人和視聽技術人員等信息行業職位。 醫療保健管理、白領製造業職位以及銷售或房地產經理也佔據了顯著位置。
在這一集合中,最容易受到人工智能影響的工作與大型語言模型已經能夠很好地處理的數字化、知識密集型活動重疊:
該研究未納入體力勞動崗位,凸顯了其局限性:GDPval 的設計初衷並非衡量建築、維護或農業等領域的受自動化影響程度。 相反,它強調了第一波顛覆浪潮可能衝擊白領和辦公室工作——而這些工作曾被認為最不受自動化影響。
該報告基於兩年前 OPEnAI/賓夕法尼亞大學一項研究聲稱高達80%的美國勞動者可能會發現至少10%的工作內容會受到法學碩士(LLM)的影響,約19%的勞動者可能會發現至少50%的工作內容會受到影響。 受影響最嚴重(或發生轉變)的工作是白領、知識型工作,尤其是在法律、寫作、分析和客戶互動領域。
但令人不安的不是今天的數字,而是未來的發展軌跡。 按照這樣的速度,統計數據建議人工智能可以全面匹敵人類專家到2027年。 這非常接近 AGI 標準,並且可能意味著即使被認為不安全或過於專業而無法自動化的任務也可能很快會被機器所掌握,從而威脅到工作場所的快速轉型。
OPenAI 測試了 44 個職業的 1320 項任務——這些工作並非隨機的,而是構成美國 GDP 支柱的九大行業。 軟件開發人員、律師、護士、金融分析師、記者、工程師:這些人原本以為自己的學位可以保護自己免受自動化的侵害。
每項任務都出自平均擁有 14 年經驗的專業人士——他們並非實習生或應屆畢業生,而是經驗豐富的專家。 這些任務也並不簡單,平均需要 7 個小時,有些甚至需要數週時間才能完成。
OpenAI 表示,在一些特定 API 任務中,模型完成這些任務的速度比人類快 100 倍,而且成本明顯更低——這是意料之中的,而且幾十年來一直如此。 在更專業的任務上,改進速度較慢,但仍然顯著。
即使考慮到審查時間和人工智能產生奇怪幻覺時偶爾需要重做的情況,經濟學仍然傾向於自動化。
但別灰心:一項工作被曝光並不意味著它會消失。 它可能會被增強(例如,律師和記者利用法學碩士學位來提高寫作速度),而不是被取代。
就人工智能的發展而言,幻覺仍然是企業的痛點。 研究表明,人工智能在遵循指令方面最常失敗——gpt-5 35% 的失敗源於未能完全理解指令。 格式錯誤則導致另外 40% 的失敗。
這些模型在協作、客戶互動以及任何需要真正問責的事情上也表現不佳,而 OpenAI 的研究並未涵蓋這些方面。 目前還沒有人起訴人工智能存在瀆職行為。 但就單一的數字交付成果而言——佔據大多數知識工作者日常工作的報告、演示文稿和分析——兩者之間的差距正在迅速縮小。
OpenAI 承認,GDPval 目前涵蓋的人們在實際工作中執行的任務數量非常有限。 該基準無法衡量人際交往能力、個人表現,也無法衡量那些使一個人的價值超越其交付成果的數千個細微決策。
然而,當投資銀行開始比較人工智能生成的競爭對手分析與人類分析師的分析相比,醫院評價人工智能護理計劃與經驗豐富的護士的護理計劃以及律師事務所測試人工智能針對助理工作進行簡報——這不再是猜測,而是衡量。