谷歌推出 Veo 3.1 與 OpenAI 的 Sora 2 競爭——但它能達到預期效果嗎？

BTCC / BTCC Square / 528BTC /

Author:

528BTC

Published:

2025-10-16 06:41:00

谷歌今天發布了 Veo 3.1，這是其 AI 視頻生成器的更新版本，它在所有功能中添加了音頻，並引入了新的編輯功能，旨在讓創作者更好地控制他們的剪輯。

這一聲明發布之際，OpenAI 的競爭對手 sora 2 應用程序在應用商店排行榜上名列前茅，並引發了關於人工智能生成內容充斥社交媒體的爭論。

這一時機表明，谷歌希望將 Veo 3.1 定位為 Sora 2 病毒式社交推送方式的專業替代品。 OpENAI 於 9 月 30 日發布了 Sora 2，其界麵類似 TikTok，優先考慮分享和混音。

這款應用在五天內下載量就達到了100萬次，並登上了蘋果App Store的榜首。 Meta也採取了類似的策略，推出了一款由人工智能視頻驅動的虛擬社交媒體。

用戶現在可以使用“視頻素材”創建具有同步環境噪音、對話和擬音效果的視頻，該工具將多個參考圖像組合成一個場景。

“幀到視頻”功能會在起始圖像和結束圖像之間生成過渡，而“延長”功能則通過延續現有視頻最後一秒的動作來創建長達一分鐘的剪輯。

新的編輯工具允許用戶通過自動陰影和燈光調整功能，在生成的場景中添加或刪除元素。該模型可以水平或垂直寬高比生成 1080p 分辨率的視頻。

該模型可通過 FLOW（面向消費者）、Gemini API（面向開發者）和 Vertex AI（面向企業客戶）獲取。使用“延長”功能可以創建長達一分鐘的視頻，該功能可以從現有視頻片段的最後一秒開始延續動作。

2025 年，AI 視頻生成市場已變得擁擠不堪，Runway 的 Gen-4 模型瞄準電影製作人，Luma LABs 為社交媒體提供快速生成，Adobe 將 Firefly Video 集成到 Creative Cloud，xAI、Kling、Meta 和 Google 的更新則瞄準真實感、聲音生成和及時遵守。

但它到底有多好呢？我們測試了該模型，以下是我們的印象。

測試模型

如果你想嘗試，最好有雄厚的財力。 Veo 3.1 是目前最昂貴的視頻一代型號，與 Sora 2 相當，僅次於 Sora 2 Pro，後者每代的價格是 Veo 3.1 的兩倍多。

免費用戶每月可獲得 100 個積分來測試系統，足夠每月生成大約 5 個視頻。通過 Gemini API，Veo 3.1 的費用約為每秒 0.40 美元生成的帶有音頻的視頻，而速度更快的版本 Veo 3.1 Fast 每秒花費 0.15 美元。

對於那些願意以這個價格使用它的人來說，它的優點和缺點如下。

文本轉視頻

Veo 3.1 相比其前代版本有了顯著的改進。該模型能夠很好地處理連貫性，並展現出對上下文環境的更好理解。

它適用於不同的風格，從照片寫實主義到風格化的內容。

我們要求模型混合場景一開始只是一幅畫，後來變成了實景拍攝的鏡頭。它比我們測試過的任何其他模型都處理得更好。

在沒有任何參考框架的情況下，Veo 3.1 在文本到視頻模式下產生的結果比使用帶有初始圖像的相同提示產生的結果更好，這令人驚訝。

代價是移動速度。 Veo 3.1 優先考慮連貫性而非流暢性，這使得生成快節奏的動作變得頗具挑戰性。

元素移動速度較慢，但在整個剪輯中保持一致性。 Kling 在快速移動方面仍然領先，儘管需要更多嘗試才能獲得可用的效果。

圖像轉視頻

Veo 憑藉圖像轉視頻生成技術建立了良好的聲譽，其結果依然出色——但也存在一些問題。這似乎是本次更新中比較薄弱的環節。當使用不同的寬高比作為起始幀時，該模型難以保持以往的一致性。

如果提示與輸入圖像的邏輯偏差過大，Veo 3.1 就會想辦法作弊。它會生成不連貫的場景或片段，在位置之間跳轉、設置或完全不同的元素。

這浪費了時間和信用，因為這些剪輯無法編輯成更長的序列，因為它們不符合格式。

一旦奏效，效果看起來棒極了。要達到這個目標，一部分需要技巧，一部分需要運氣——主要是運氣。

視頻元素

此功能類似於視頻修復，允許用戶在場景中插入或刪除元素。不過，不要指望它能保持完美的連貫性或使用與你完全相同的參考圖像。

例如，下面的視頻就是根據這三個參考資料和提示生成的：一個男人和一個女人在未來城市中奔跑時偶然相遇，那裡有一個旋轉的比特幣全息標誌。男人告訴女人：“快，比特幣崩潰了！我們必須買更多！”

作為你可以看到，城市和人物實際上都不存在。然而，人物穿著參考的服裝，城市與圖像中的城市相似，事物描繪的是元素的概念，而不是元素本身。

Veo 3.1 將上傳的元素視為靈感，而非嚴格的模板。它會根據提示生成場景，並包含與你提供的內容相似的對象，但不要浪費時間嘗試將自己插入電影中——這行不通。

解決方法：使用 Nanobanana 或 Seedream 上傳元素，並先生成一個連貫的起始幀。然後將該圖像輸入 Veo 3.1，它會生成一個視頻，其中的人物和物體在整個場景中幾乎不會變形。

帶對話的文本轉視頻

這是谷歌的賣點。 Veo 3.1 處理唇形同步的能力比目前市面上任何其他型號都要好。在文本轉視頻模式下，它能生成連貫的環境聲音與場景元素相匹配。

對話、語調、聲音和情感都很準確，優於競爭模型。

其他生成器可以產生環境噪音，但只有 Sora、Veo 和 GROK 可以生成實際的單詞。

在這三者中，Veo 3.1 在文本轉視頻模式下需要的嘗試次數最少，就能獲得良好的效果。

圖像轉為帶對話的視頻

這就是問題所在。帶對話的圖像轉視頻與標準的圖像轉視頻生成存在同樣的問題。 Veo 3.1 過於注重連貫性，以至於忽略了即時性以及參考圖像。

例如，這一幕是使用元素到視頻部分中顯示的參考生成的。

如你所見，我們的測試生成的主體與參考圖像完全不同。視頻質量極佳——語調和手勢都準確無誤——但生成的主體並非我們上傳的本人，因此結果毫無意義。

Sora 的混音功能是此用例的最佳選擇。該模型可能受到審查，但其圖像轉視頻功能、逼真的唇形同步以及對語調、口音、情感和真實感的關注使其成為當之無愧的贏家。

Grok 的視頻生成器排名第二。它比 Veo 3.1 更尊重參考圖像，並產生了更出色的效果。這是一代人使用相同的參考圖像和提示。

如果你不想使用 Sora 的社交應用，或者無法訪問它，Grok 或許是你的最佳選擇。它也是未經審查的，但會進行審核，所以如果你需要這種特殊的方式，馬斯克可以滿足你的需求。

來源:

前一篇

<< 在 1.92 億美元的 SOL 鯨魚轉移中，Solana 面臨 KEY 阻力！ >>

|Square

下載BTCC APP，您的加密之旅從這啟程

Download on the App Store GEI IT ON Google Play

立即行動 掃描加入我們的 100M+ 用戶行列

推薦

最新活動

谷歌推出 Veo 3.1 與 OpenAI 的 Sora 2 競爭——但它能達到預期效果嗎？

測試模型

文本轉視頻

圖像轉視頻

視頻元素

帶對話的文本轉視頻

圖像轉為帶對話的視頻

|Square