OpenAI 推出 Sora 2,搭載 TikTok 風格社交應用,讓你身臨其境
OpenAI 週二發布了 sora 2,將其最新的視頻生成模型與一款新的社交應用配對,讓用戶能夠創作、分享和出演 AI 生成的視頻片段。 該公司稱,此次發布是模擬物理現實的一大進步,該模型首次實現了與視頻同步的音頻。
更新後的模型可以生成展現早期系統難以處理的複雜物理交互的視頻片段。 在一些示例中,Sora 生成了奧運會體操動作、槳板上的後空翻以及人物表演的三周半跳,且沒有任何明顯的失真或變形。 與之前那些為了滿足文本提示而扭曲物理規律的視頻生成器不同,Sora 2 嘗試模擬現實結果,包括失敗。
OpENAI 在其報告中表示:“之前的視頻模型過於樂觀——它們會變形物體並扭曲現實,以便成功執行文本提示。”公告. Sora 2“與之前的系統相比,在遵守物理定律方面做得更好。”
該模型直接從文本提示生成背景音景、語音和音效。 到目前為止,唯一具有此功能的模型是谷歌Veo 3該系統還可以處理多鏡頭序列,同時保持場景變化的連續性,這也非常複雜,需要對角色和環境有深入的了解。
OPEnAI 將 Sora 2 宣傳為“視頻領域的 GPT-3.5 時刻”,並將其與 ChatGPT 之前的語言模型進行比較。 最初的 Sora 於2024年2月,代表了該公司所謂的“GPT-1時刻”——這是視頻生成開始大規模發揮作用的第一個跡象。
很多更好的模型很快就把 Sora 甩在身後,以至於當 OPenAI 決定發布其模型時,中國的替代方案已經能夠輸出更好的結果,更連貫的視頻使用相同的提示。
目前,測試該模型的唯一方法是通過新的 iOS 應用程序進行邀請,簡單地命名為 Sora與之前的只能通過網站訪問且專注於獨立視頻生成的模型不同,該應用程序看起來更加精緻和多功能,引入了一項名為“camEOS”的功能,讓用戶可以將自己插入生成的場景中。
錄製一段簡短的視頻驗證身份,並捕捉外貌和聲音後,用戶即可出現在任何 Sora 創造的環境中。 該功能適用於人類、動物或物體,用戶可以控制誰可以使用自己的肖像。
在演示過程中,OpenAI 團隊製作了自己的視頻,其中包含廣告、踢翻動作以及在不同情況下的表演,風格類似於 TikTok 視頻或 Instagram Reel。
該應用包含一個可定制的信息流,使用了OpenAI所謂的新型推薦算法,該算法可以接受自然語言指令。 系統默認顯示用戶關注或互動的用戶內容,該公司表示,它不會針對用戶滾動瀏覽的時間進行優化。 內置機制會定期調查用戶的健康狀況,並提供調整信息流設置的選項。
對於青少年,該應用包含對動態中每日可見代數的默認限制,以及對客串的更嚴格權限。 家長可以通過 ChatGPT 訪問控件,以管理滾動限制、算法個性化和私信設置。
用戶將完全掌控自己的客串,並可隨時撤銷訪問權限或刪除包含自己相似內容的視頻。 該應用會向用戶展示所有客串視頻,包括其他人創作的尚未發布的草稿。
Sora 2 正在美國和加拿大通過邀請制推出,併計劃迅速擴展到其他國家。 該服務將免費,但 OpenAI 稱其有“寬鬆的限制”,儘管這些限制仍然受到計算能力的限制。 ChatGPT Pro 訂閱用戶可以訪問名為 Sora 2 Pro 的實驗性更高質量版本。 該公司計劃通過其 API 發布 Sora 2,並保留早期的 Sora 1 Turbo 型號。
OpenAI 表示,如果需求超過可用的計算資源,Sora 2 最終將為用戶提供付費購買額外代次的選項。
目前,如果您沒有邀請碼、IPhone 或 ChatGPT Pro,唯一的選擇就是使用 Veo 3 的有限運行次數或使用 Wan 等本地視頻生成器。 當然,也有更便宜的選擇,例如 Kling、Seedance、Hailuo 或 Runway,但擁有一個高度逼真且具備社交媒體功能的視頻模型,無疑是業內其他公司無法比擬的優勢。