BTCC / BTCC Square / 528BTC /
最佳短視頻AI生成器? Kling 2.1 vs Google Veo 3

最佳短視頻AI生成器? Kling 2.1 vs Google Veo 3

Author:
528BTC
Published:
2025-06-02 01:56:00

AI 視頻生成技術剛剛迎來重大升級。 快手的 Kling 2.1 現在可以製作出真正具有電影質感的視頻——幾個月前,這種素材還需要專業的團隊和昂貴的設備才能製作出來。 人物動作自然流暢,情感真實,複雜的動作序列流暢展開,不再出現那些通常會讓人覺得“這是 AI 做的”的瑕疵。

Kling 是知名的先進視頻生成平台之一,由快手於一年前推出。 快手是一家以社交媒體創新而聞名的中國科技公司。 它尤其以能夠製作長達兩分鐘的高清視頻而聞名,並成為許多人的首選。 模因製作者激發他們的政治諷刺特朗普、埃隆·馬斯克等有影響力的人物。

新的技術改進包括更快的生成速度、更好的即時一致性、更逼真的效果以及更少的偽影。 Master 層利用先進的 3D 時空注意力機制和專有的 3D VAE 技術,實現了該公司所稱的影院級輸出。

時機再合適不過了。 快手在谷歌發布 2.1 版本幾天后就發布了推出 Veo 3,鞏固了AI視頻排行榜上看似壟斷的地位。 競爭如此激烈,以至於人們對“AI視頻”的興趣達到了歷史最高根據 Google Trends 的數據,本月的排名上升了 10 位,其中大部分是由模型的優秀程度推動的。

搶先體驗用戶一直在社交媒體平台上分享演示視頻,稱讚大師版能夠製作“令人驚嘆”的電影效果。

基準 比較Kling 的前身 Kling 2.0 的表現超越了除谷歌 Veo 2 和 3 之外的所有競品模型。 2.1 版本增強了現有功能,並解決了之前關於生成速度和一致性的擔憂。 雖然發佈時間尚短,尚未被納入當前的 AI 排行榜,但預計很快就會發布包含全面測試數據的更新。 2.1 Master 模型預計將擴大谷歌和 Kling 與其競爭對手之間的性能差距。

Veo 與 Kling:它們有何不同?

我們測試了這兩款機型,看看它們的表現如何。 AI 視頻中的佼佼者並不便宜——Kling 2.1 Master 的價格幾乎10秒視頻3美元——而且它距離真正視頻編輯所需的精細度還很遠。 然而,Veo 和 Kling 都比上一代型號有了明顯的升級,任何愛好者都會對它們的性能感到非常滿意。

快手的策略之所以引人注目,是因為與競爭對手不同,Kling 2.1 提供三種版本:720p 標準模式,每 5 秒視頻 20 個積分;1080p 專業模式,每 5 秒視頻 35 個積分;以及 1080p 大師模式,每 100 個積分。 模型越好,渲染成本就越高,耗時也越長——但即使是最基礎的版本,效果也比之前的 Kling 1.6 Pro 更好。

等待時間很長:Veo3 通常讓我每個視頻耗時 5 分鐘左右,有時甚至超過 15 分鐘。 同樣,系統堵塞導致我遇到很多錯誤,不得不重新生成。

定價結構體現了非線性遞進,專業模式的視覺質量非常接近大師級,但價格不到大師級的一半。 在我們的主觀評估中,對於需要高清清晰度但又不想追求極致影院級畫質的專業創作者來說,中端模式是最經濟實惠的選擇。

文本生成

迅速的: 一個肚子上寫著“EMERGE”字樣的可愛機器人走近鏡頭,用它的數字臉微笑,然後飛走。

Kling 2.1,尤其是 Master 版本,相比之前的 1.6 版本有了顯著的改進。 文本渲染更加清晰,並且在各個幀之間更加均勻。

然而,單從這一特定特徵來看,Veo 3 略佔優勢。 兩種模型都能生成文本,但 Veo 3 的表現更為穩定。

例如,兩種模型都成功生成了一個帶有單詞“EMERGE”的小型機器人。 然而,當我們生成的場景中該機器人不是主要焦點時,Veo 3 仍然提供了準確的文本,而 Kling 則產生了亂碼。

現實主義與人類情感

迅速的: 一位女子懷著深深的悲傷走向河邊。 她一邊哭泣,一邊哀悼著自己的離去,撿起了一個刻有“出現”字樣的無生命機器人。

如果說 Kling 1.6 Pro 專注於動態場景和流暢的動作,那麼 Kling 2.1 似乎將重點轉向了真實感。 該模型在復雜的運動序列中表現出色,能夠精準渲染關節對齊等細節,並呈現車輛特技中逼真的物理效果。 該模型增強的即時貼合性使其能夠精確控制攝像機運動和情緒表達。

與 Kling 1.6 Pro 甚至 Veo 2 相比,其反應更加真實。

然而,與 Veo 3 相比,Veo 3 可以生成音頻這一事實成為增強場景情感衝擊力的主要因素。

當被要求生成相同提示的場景時,Veo 3 採用了更具電影感的方式。 攝像機角度和色彩分級有助於刻畫場景中的情感。

而Kling 2.1則注重情感本身的描繪。

由於缺乏音頻,加上不同的處理方式,很難說哪款更勝一籌。 這取決於每個用戶的喜好,以及對不同版本的運氣,以及你更看重什麼——場景的整體氛圍還是演員的表演。

在這個場景中,Kling 2.1 Master 未能正確渲染“Emerge”一詞。 需要注意的是,死去的機器人並非場景中的主角,因此模型將更多精力放在了提示中常見的其他元素上。

圖像轉視頻

迅速的: 場景一開始與畫面一模一樣,然後加速進入一段催眠般的延時攝影,數十年的光陰在數秒間流逝。 這輛復古出租車定格在時間的長河中,而周圍的城市則在不斷變化——霓虹燈從繁體中文演變為全息顯示屏,建築形態各異,層層疊疊,層層疊疊,人們的衣著隨著時代的變遷而變化,飛行器開始在建築物之間穿梭。 鏡頭緩緩環繞著靜止的出租車,它逐漸成為城市演變漩渦中一個時間錨點,最終,這輛出租車出現在充滿未來感的城市景觀中。

圖像轉視頻是一種技術,用戶提供場景的起始幀,AI 模型會以該圖像為起點構建生成過程。 它提供了最佳的控制水平,並讓用戶了解每次生成的結果。

Kling 2.1 的標準模式和專業模式目前僅支持圖像轉視頻,需要用戶提供源圖像。 該公司宣布,文本轉視頻功能將很快添加到這些版本中,而大師模式已包含此功能以及增強的動態效果和快速遵循功能。

Kling 2.1 Master 和 Veo 3 均支持圖像轉視頻,但 Veo 3 需要使用 FLOW 而非普通的 Gemini UI。 使用 Flow 時,生成的視頻缺少音頻。

在我們的測試中,Kling 2.1 的表現優於 Veo 3,但遠非完美。 它能夠理解相機的運動、元素以及場景的意圖。 然而,它未能將焦點集中在主要拍攝對像上,而是將注意力集中在周圍環境(隨著時間推移的城市)上,因為它成為了場景中的關鍵元素。

另一方面,Veo 3 仍然專注於拍攝主體(汽車),但未能渲染提示中的任何其他元素。 結果,它生成的是一輛靜態汽車,帶有靜態鏡頭,城市也一樣,只是有一些飛行汽車在周圍飛馳。 它未能提供準確的結果。

總的來說,這是意料之中的。 Kling 2.1 將在更少的生成周期內提供更好的結果,從而減少對提示符工程的需求。 它還提供了輸入負面提示符的選項,這對於獲得預期結果大有幫助。

動漫/卡通和 2D 藝術

我嘗試了三次生成動漫風格的視頻,但都失敗了。 用這些模型生成 2D 藝術作品似乎是不可能的,可能是因為它們專注於寫實主義。

最好的替代方法似乎是使用圖像生成器生成初始 2D 幀,然後利用圖像到視頻功能來獲取所需的場景。

多主題場景

迅速的: 五隻灰狼幼崽在一條僻靜的碎石路上嬉戲追逐,路邊長滿了青草。 它們奔跑跳躍,互相追逐,互相啃咬,嬉戲玩耍。

對於 AI 模型來說,處理多主體場景仍然頗具挑戰性。 當主角超過三個且場景動態時,模型會失去一致性,出現角色合併、新角色生成,並出現大量的偽影。

Kling 2.1 依然如此。 該模型相比前幾代有了顯著的改進,但仍然無法準確處理複雜場景。 在我們的測試中,它生成的狼不是五隻,而是三隻。

不過,Veo 3 嘗試生成完整的狼群。 起初效果不佳,但在場景接近尾聲時,模型將所有狼分開,重新獲得了連貫性,最終成功生成了全部五隻狼。

然而,Kling 2.1 犧牲了一些及時性,以換取連貫性的大幅提升 —— 這似乎是更好的結果。

動態鏡頭

迅速的: 動態跟踪鏡頭跟隨一位身著鮮豔深紅色連衣裙的女子,她拼命地穿過紐約市中心霓虹閃爍的摩天大樓。 她飄逸的長發在高聳的數字廣告牌上閃爍著電藍色的光芒,塵土和碎片在她周圍亂飛。 在她身後,一隻巨大的機械蜘蛛,有著閃亮的鍍鉻腿和閃爍的LED傳感器,在城市景觀中飛馳,金屬肢體在混凝土上迸發出火花,它無情地追逐著……(完整提示在 YouTube 描述中)

動態鏡頭的評估非常棘手,因為細節決定成敗。 通常情況下,當場景快速發生,且焦點集中在主角身上時,其他元素就會被忽略。 這就是為什么生成視頻模型往往會生成一些有趣的鏡頭,但仔細觀察後,就會發現它們並不出色。

令人欣喜的是,在我們的測試中,Kling 2.1 的動態效果遠超 2.0 和 1.6。 它能夠生成快節奏的場景、戲劇性的鏡頭和引人入勝的動作序列。 之前幾代 Kling 機型通常會在進入動作之前出現一些靜止或緩慢的幀。 這個問題已經得到解決。

Veo 3 通過優美的配樂增添了一些動感。 該模型還生成了精彩動作序列所需的一切——運動、爆炸、動態鏡頭、塵埃和混亂——並且感覺更加真實,減少了 2.5D 或綠幕的元素。

然而,與 Veo 3 相比,Kling 2.1 在快速依從性方面更勝一籌。 我們的一位女士遠離巨型蜘蛛,而 Veo 3 則生成了一個奔跑的女人朝向蜘蛛——一個很棒的場景,但最終卻毫無用處。

此外,Veo 3 代中的女性在該代的中間點附近開始不自然地奔跑,這代表了人工智能公司在處理長篇內容時必須應對的挑戰之一——在持續時間足夠長以至於破壞模型連貫性的連續鏡頭中保持一致性。

結論

我不想這麼說,但實際上並沒有明顯的贏家,而且在生成 AI 視頻領域,最好的選擇第一次取決於你的期望以及你願意支付多少錢。

Veo 3 憑藉其音頻生成技術擁有顯著優勢。 其聲音連貫清晰,以至於任何無聲視頻現在都感覺像是倒退了一步。 在後期製作中添加連貫的音頻仍然是一項眾所周知的難題,因此這對許多人來說可能是成敗的關鍵。

另一方面,Kling 2.1 在圖像轉視頻方面表現優異,它允許用戶拍攝真實照片或使用 Flux 或 Ideogram 等專業模型創建的圖像,並將其轉換為引人入勝的動畫。 Gemini 不支持圖像轉視頻,你需要 Flow,但它仍處於測試階段,並且僅支持 Veo 3,訂閱費為每月 250 美元,且僅支持寬屏模式。 即便如此,它的質量也比 Kling 略低。

除了這兩個關鍵區別之外,其餘的則取決於具體情況或個人偏好。 它們都非常逼真、連貫(以今天的標準來看)、富有創意,並且能夠提供您所需的最佳 AI 生成視頻。 如果差異是基於偏好的,那麼您需要根據每個模型調整提示,結果的差異將會顯而易見。

如果您不想花太多錢,即使是 Kling 2.1 標準也能提供比業內任何其他型號更好的驚人效果,並且足夠接近最先進的水平。

總體而言,根據我們的測試,生成視頻排名中,Veo 3 和 Kling 2.1 Master 基本持平。 對於開源愛好者來說,第三名是前往 Wan 2.1——而且很可能還會持續一段時間。 它的 VACE、LoRA 和工作流程已經將這種免費、不受審查的模式變成了一頭獨樹一幟的巨獸。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列