中國的 Z-Image 取代 Flux 成為 AI 藝術之王——而且你的土豆電腦也能運行它

BTCC / BTCC Square / 528BTC /

Author:

528BTC

Published:

2025-12-02 10:05:00

阿里巴巴統一實驗室Z-Image Turbo上週發布的這款擁有 60 億參數的圖像生成模型，做出了一個簡單的承諾：在你實際擁有的硬件上實現最先進的質量。

這一承諾正在迅速兌現。發布幾天后，開發者們就開始大量開發 LoRA（定制的微調自適應設備），其速度已經超過了 Flux2——Black Forest LABs 備受矚目的 Flux 型號的繼任者，後者廣受歡迎。

Z-Image 的最大優勢在於其高效性。雖然像 Flux2 這樣的競爭對手至少需要 24GB 的顯存（完整版甚至高達 90GB），但 Z-Image 只需 6GB 顯存即可在量化配置下運行。

這相當於 RTX 2060 的性能水平——基本上是 2019 年的硬件。根據分辨率的不同，用戶最快可以在 30 秒內生成圖像。

對於業餘愛好者和獨立創作者來說，這是一扇以前緊閉的大門。

人工智能藝術界很快就對這個模型給予了讚揚。

“這才是SD3應該有的樣子，”用戶SARuhey在CivitAI（全球最大的開源AI藝術工具庫）上寫道。 “它對提示的響應非常出色……一個能立即處理文本的模型簡直是顛覆性的。它擁有與Flux不相上下甚至更強大的能力，這本身就是魔法。中國人在AI領域遙遙領先。”

Z-Image Turbo 已上市西維泰自上週四發布以來，該遊戲已獲得超過 1200 條好評。作為對比，Flux2——比 Z-Image 早幾天發布——已經……157.

該模型完全未經任何審查，從零開始製作。名人、虛構人物，以及露骨內容，統統都在考慮範圍內。

截至目前，僅在 Civitai 上就有大約 200 個與該模型相關的資源（微調、LoRA、工作流程），其中許多資源不適合工作場所觀看。

在Reddit上，用戶Regular-Forever5876用一些血腥的提示測試了該模型的極限，結果驚呆了：“我的天哪！！！這東西對血腥場面的理解簡直絕了！它能完美地生成血腥畫面！”寫道.

Z-Image Turbo 的技術秘訣在於其 S3-DiT 架構——一種單流 TransFORMer 模型，它從一開始就將文本和圖像數據一起處理，而不是稍後合併。這種緊密集成，結合先進的數據蒸餾技術，使得該模型能夠達到通常需要五倍於其規模的模型才能達到的質量基準。

模型測試

我們對 Z-Image Turbo 進行了多維度的廣泛測試。以下是我們的發現。

速度：SDXL 速度，次世代品質

Z-Image Turbo 採用九步生成圖像，其速度與 SDXL 的通常 30 步生成圖像的速度大致相同——SDXL 是 2023 年推出的一款機型。

區別在於，Z-Image 的輸出質量與 Flux 相當甚至更勝一籌。在一台配備 RTX 2060 GPU 和 6GB 顯存的筆記本電腦上，處理一張圖像耗時 34 秒。

相比之下，Flux2 生成類似圖像所需的時間大約是原來的十倍。

現實主義：新的標杆

Z-Image Turbo 是目前消費級硬件上最逼真的開源模型。它完全超越了 Flux2，而且其基礎精簡模型的性能也優於 Flux 的各種專門針對真實性進行微調的版本。

皮膚和頭髮紋理看起來細緻自然。臭名昭著的“Flux下巴”和“塑料皮膚”基本消失了。身體比例勻稱，而且用於進一步增強真實感的LoRA渲染器也已開始流通。

文本生成：終於，有了有效的詞語

這正是 Z-Image 的真正優勢所在。它是最好的開源圖像內文本生成模型，性能與穀歌的 Nanobanana 和 Seedream 不相上下——而這兩款模型正是目前的行業標準。

對於普通話使用者來說，Z-Image 無疑是最佳選擇。它能原生理解中文，並正確渲染字符。

專業提示：一些用戶報告稱，用普通話進行提示實際上有助於模型產生更好的輸出，開發人員甚至發布了一個普通話的“提示增強器”。

英文文本同樣強大，只有一個例外：像“decentralized”這樣不常見的長詞可能會讓它出錯——Nanobanana 也存在同樣的局限性。

空間感知能力和快速響應能力：卓越

Z-Image 的響應速度非常出色。它對風格、空間關係、位置和比例的理解極其精準。

例如，考慮以下提示：

一隻戴著紅帽子的狗站在一台電視機上，屏幕上顯示著“Decrypt 是世界上最好的加密貨幣與人工智能媒體網站”。左邊，一位身穿職業套裝的金發女子手裡拿著一枚硬幣；右邊，一個機器人站在一個急救箱上，箱子後面是一個綠色的金字塔。整個場景超現實。一隻貓倒立在一個白色足球上，就在狗的旁邊。一位美國宇航局的宇航員舉著一塊寫著“Emerge”（現身）的牌子，放在機器人旁邊。

值得注意的是，它只有一個拼寫錯誤，可能是由於語言混合造成的，但除此之外，所有元素都準確地呈現了出來。

畫面溢出現像極少，即使是包含多個主體的複雜場景也能保持清晰度。在這方面，它優於 Flux，並且與 Nanobanana 相比毫不遜色。