OpenAI 在擴大重大合同之際發布 GPT-5.2
就在上次重大事件發生幾週後發布OpENAI 正積極地將其旗艦產品 ChatGPT 從面向消費者的新奇產品轉型為不可或缺的企業強大工具。
週四,該公司發布了gpt-5.2它聲稱,新的大型語言模型速度更快、更可靠,並且旨在處理複雜的專業工作流程。
OPEnAI 的最新動態表明,它正超越作業輔導和一般諮詢的範疇,轉而致力於將其技術打造成為商業世界中不可或缺的日常工具,這一點從其與眾多企業的豐厚交易中可見一斑。 美國政府和迪士尼.
OPenAI在一份聲明中表示:“我們設計GPT-5.2的目的是為了給人們創造更大的經濟價值。它在創建電子表格、製作演示文稿、編寫代碼、感知圖像、理解長篇上下文、使用工具以及處理複雜的多步驟項目方面都做得更好。”
工作場所自動化的新標杆
為了彰顯 GPT-5.2 的性能,該公司推出了專有的評估基準 GDPval,該基準模擬了 44 種職業中的任務。
該公司聲稱,GPT-5.2 在約 71% 的比較中達到或超過了人類員工的績效。
OpenAI 應用首席執行官 Fidji Simo 表示:“在 GDPval 測試中,該思維模型在 70.9% 的常見專業任務(例如電子表格、演示文稿和文檔創建)中,表現優於或與人類專家持平。”寫道X 表示:“它在通用智能、編寫代碼、工具調用、視覺和長期上下文理解方面也更勝一籌,因此可以為人們釋放更大的經濟價值。”
目前尚不清楚該基準是否經過外部審查,業內專家只能等待對這些說法進行獨立核實。
技術分解:三種模型,三種工作
GPT-5.2 於週四面向所有付費訂閱用戶推出,API 訪問權限也於當日開放。 開發者現在可以從三個不同的版本中進行選擇,每個版本都針對不同的專業需求進行了優化。
APi 定價為每百萬個輸入代幣 1.75 美元,每百萬個輸出代幣 14 美元。
除了 GDPval 基準測試之外,GPT-5.2 在其他既定的技術測試中也表現出色,在 GPQA Diamond 和 FRONtierMath 測試中取得了更高的分數。 據報導,它還展現出了更高的可靠性。 結果在編碼、數據分析和實驗設計等高要求任務中。
在公告中,該公司展示了早期測試者的一些高度評價。
更強大的工作場所人工智能的發布,正值勞動環境本已緊張之際。
企業高管們似乎普遍樂觀,最近Just Capital的一項報告也印證了這一點。 民意調查調查顯示,93%的商業領袖認為人工智能是一種積極的力量。 然而,同一項研究也發現,近一半的美國人預計這項技術會導致失業,而據報導,企業高管們對此擔憂的程度較低。