推薦
充幣
為合約帳戶即時儲值加密貨幣資產
USDT永續合約
多種以USDT結算的合約
VIP費率折扣
不同等級VIP享受不同費率
幣本位永續合約
多種以加密貨幣結算的合約
買幣
只需幾秒,即可購買加密貨幣
代理返傭
推薦好友,賺取收益
閃兌
即時兌換 加密貨幣
幫助中心
帳戶常見問題
公告中心
關注BTCC最新官方消息
學院
區塊鏈及加密資產學習平台
資訊
聚焦加密貨幣市場動態
最新活動
邀請好友
活動中心
資產
充幣
買幣
閃兌
劃轉
提幣
我的卡券
資金記錄
總覽
帳戶安全
身分驗證
API管理
交易報表
登出
登入
註冊帳號
BTCC
/
BTCC Square
/
Blocktempo
/
AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事
AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事
Author:
Blocktempo
發佈時間:
2026-04-05 17:21:49
0
從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭,一個讓 AI 知識「流動」的技術,如何改變了整個產業的成本結構與地緣競爭格局。 (前情提要:Claude Code 新增雲端定時任務:不用開電腦,AI 自動幫你審 PR、升級依賴) (背景補充:Cursor 用 Kimi K2.5 訓模型卻沒說,開發者抓包、刪推、官方急轉彎全紀錄) 最近你在網路上,尤其是中國的AI 社群上,可以看到越來越多「蒸餾模型」宣傳效能堪比最新的頂尖大模型。DeepSeek、Moonshot AI 與 MiniMax…這些公司幾乎以每月一個的速度,將蒸餾過後的模型,以極低成本複製後推出。 快速演變的背後,也引發了 AI 界最激烈的道德爭議之一。Anthropic 近期就指控上述三家公司「竊取」Claude 的知識;OpenAI 也向美國立法者提交公開信,要求立法限制。 但這場圍堵,可能比你想像中的要困難。 蒸餾的本質是觀察與學習,而不是複製與竊取。你無法起訴一個學生「看了太多老師的解題過程」。更何況,蒸餾所需要的,只是一台電腦、一批問題、和足夠多的耐心:這三樣東西,中國的 AI 實驗室從來不缺。當技術門檻低到任何有算力的團隊都能執行,監管能做的,頂多是讓這件事變得更貴一點、更慢一點。知識的流動,很難被一紙禁令攔住。 要理解這是怎麼做到的?我們必須先回到 2015 年的一篇論文。 老師的暗知識 2015 年,Google 的三位研究者:Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean,發表了一篇名為《Distilling the Knowledge in a Neural Network》(蒸餾神經網路中的知識)的論文。 它提出了一個看似簡單的問題:一個大型 AI 模型,究竟「知道」什麼? 傳統的機器學習訓練,是讓模型學會「給出正確答案」。你給模型看一張貓的照片,它輸出「貓:99%,狗:1%」,訓練的目標就是讓這個 99% 更高、更準確。這叫做「硬標籤」(hard labels)訓練。 但 Hinton 注意到了一件事:大型模型在輸出「貓:99%」的同時,也輸出了「狗:0.7%、老虎:0.2%、獅子:0.1%」。 這些幾乎為零的小數字,看起來沒什麼用。但它們其實包含了大量的資訊:這個模型「知道」貓和老虎之間有某種相似性,貓和香蕉之間幾乎沒有相似性。這些隱藏在機率分佈裡的知識,Hinton 稱之為「暗知識」(dark knowledge)。 翻譯過來就是:大模型不只學會了「答案是什麼」,它還學會了答案之間的關係是什麼。而這些關係,才是真正有價值的知識。 模型蒸餾的核心,就是把這個「暗知識」從一個大模型(老師),傳遞給一個小模型(學生)。 老師不再告訴學生「這是貓」,而是告訴學生「這 99% 像貓、0.7% 像狗、0.2% 像老虎」。學生從這些「軟標籤」(soft labels)中學習,吸收的資訊遠遠多於直接從正確答案中學習。 結果是:學生模型的體積遠小於老師,但它繼承了老師對世界的理解方式。 溫度越高,知識越多 但要讓暗知識真正「流動」起來,還有一個關鍵機制:溫度縮放(temperature scaling)。 在標準的 AI 輸出中,模型使用 softmax 函數把內部計算值轉換成機率分佈。 低溫度下,輸出會非常「尖銳」:最可能的答案機率接近 100%,其他選項接近 0 高溫度下,輸出會變得「平滑」:各種可能的答案都有一定的機率,分佈更加均勻 Hinton 的洞察是:在蒸餾訓練時,把溫度調高。這讓老師模型輸出更豐富的軟標籤,讓暗知識得以充分展露;等訓練完成、學生模型部署時,再把溫度降回來,讓它輸出精確的答案。 這個「訓練時高溫、推論時低溫」的機制,是蒸餾有效運作的技術核心。 用一個類比來說:老師教學生的時候,不是直接說「答案是 A」,而是詳細解釋「A、B、C 之間的差異,以及為什麼在這個情況下 A 更合適」。學生理解了背後的邏輯,而不只是記住了答案。 這個框架,從 2015 年提出後,在 AI 產業逐漸普及。OpenAI 的 GPT-4o Mini、Meta 的 Llama 蒸餾版本、Google 的 Gemini Flash…都是這套邏輯的延伸。 而真正把蒸餾技術發揮到極致的,是 DeepSeek。 DeepSeek 的算盤 DeepSeek 在 2025 年發佈的 R1 模型,是一個 6,710 億(671B)參數的混合專家模型。這是一個大到必須用數百張高階 GPU 才能運行的模型。 但 DeepSeek 同時發佈了一系列「蒸餾版本」:從 1.5B 到 70B 參數不等,七個大小不同的模型,全部是從 R1 蒸餾而來的學生模型。 結果令業界震驚。 DeepSeek 蒸餾出的 7B 模型,在數學推理基準測試上擊敗了 OpenAI 的 o1-mini。DeepSeek-R1-Distill-Qwen-32B,在多項基準上超越了 OpenAI o1。一個 320 億參數的學生,擊敗了由更大模型支撐的競爭對手。 而 DeepSeek-R1 的 API 定價,是每百萬 token 輸入 0.55 美元、輸出 2.19 美元;相比之下,GPT-4o 的定價是 2.50 美元 / 10 美元。差距接近 4 倍。翻譯過來就是: 蒸餾讓 AI 的知識成本急劇降低。你不需要花 1 億美元訓練出一個 1,000 億參數的大模型,你只需要找到一個更聰明的老師,然後讓學生把它的暗知識吸收乾淨。 這是兩種完全不同的 AI 開發哲學。 OpenAI、Anthropic 的邏輯是:用最多的算力、最多的資料、最多的錢,訓練出最聰明的大腦,然後透過 API 把它租給全世界。他們的護城河,是「我的老師比你的老師更聰明」。 DeepSeek 的邏輯是:找到最聰明的老師,然後把它的知識最大化地壓縮進盡可能小的學生,讓任何人都能以最低成本部署。他們的護城河,是「我的蒸餾效率比你更高」。 這個邏輯上...
來源:
登入回覆
登入分享您的看法
0/500
提交
評論
顯示更多評論
前一篇
<< 中國兩男私接油田高壓線「竊電挖比特幣」廢棄豬圈藏 36 臺礦機,遭判 15 年 >>
本站轉載文章皆來自公開網絡,部分由AI整理,僅為傳遞產業訊息,不代表BTCC立場。原創權益歸原作者所有。如發現版權問題,請透過
[email protected]
聯絡我們,我們將依法處理。 BTCC不對資訊準確性、時效性及完整性作任何保證,不承擔因依賴資訊而產生的任何責任。內容僅供參考,不構成投資、法律或商業建議。
相關文章
華邦電(2344)做什麼的?可以買嗎?華邦電合理價及未來展望
華邦電(2344)是台灣重要的記憶體(DRAM / Flash)廠商。近年隨著 AI/資料中心與手機、車用等需…
2025-12-15
Terra詐騙案創辦人Do Kwon判刑15年!Do Kwon是誰?Terra Luna 崩盤回顧
2022 年初,Do Kwon(權渡衡)曾被稱為加密圈的「天才少年」,與 Terraform Labs 推出的…
2025-12-12
Pepe2.0是什麼?會是下一個暴富機會嗎?$PEPE2幣價分析和價格預測
自前兩年以 Pepe 幣為代表的迷因(meme)幣出現驚人漲幅以來,迷因幣已經成為加密貨幣投資者暴富的選擇。 …
2025-12-12
SOON幣是什麼?未來如何?SOON價格走勢分析及預測
SOON 幣於 2025 年 5 月在幣安 Alpha 上線,引發社群關注。SOON 是一個高效能 SVM(S…
2025-12-12
Nvidia GTC大會是什麼?2025輝達GTC大會黃仁勳演講重點及影響一次看
GTC 大會(GPU Technology Conference,GPU 技術大會)是全球最具影響力、最權威的…
2025-12-12
|
Square
下載BTCC APP,您的加密之旅從這啟程
Download on the
App Store
GEI IT ON
Google Play
立即行動
掃描 加入我們的 100M+ 用戶行列
登入回覆
登入分享您的看法評論