谷歌最新應用讓你的手機在口袋中運行人工智能——完全離線
谷歌發布了一款沒人要求但每個人都想嘗試的新應用。
AI Edge Gallery 於 5 月 31 日悄然推出,它將人工智能直接放在您的智能手機上——無需雲、無需互聯網,也不會與大型科技公司的服務器共享您的數據。
實驗性應用程序——根據 Apache 2.0 許可證發布,允許任何人使用它來做幾乎任何事情——可以在 GitHub 上獲取,從 Android 平台開始.iOS版本即將推出。
它完全離線運行 Google Gemma 3n 等模型,僅使用手機硬件即可處理從圖像分析到代碼編寫的所有操作。
而且效果出奇的好。
該應用程序目前似乎主要針對開發人員,包括三個主要功能:用於對話的 AI Chat、用於視覺分析的 Ask Image 和用於重寫文本等單次任務的 PROMPT Lab。
用戶可以從 Hugging Face 等平台下載模型,但選擇仍然僅限於 Gemma-3n-E2B 和 QWen2.5-1.5 B 等格式。
Reddit 用戶立即質疑該應用的新穎性並將其與 PocketPal 等現有解決方案進行比較。
一些提出安全問題儘管該應用託管在谷歌官方 GitHub 上,反駁了其存在冒充指控。 目前尚未發現任何惡意軟件的證據。
我們在三星 GALAxy S24 Ultra 上測試了該應用程序,下載了可用的最大和最小的 Gemma 3 型號。
每個 AI 模型都是一個獨立的文件,包含其所有“知識”——可以將其視為下載模型在訓練期間所學內容的壓縮快照,而不是像本地維基百科應用程序那樣下載一個巨大的事實數據庫。 應用內最大的 Gemma 3 模型約為 4.4 GB,最小的約為 554 MB。
下載後,無需進一步的數據 - 模型完全在您的設備上運行,僅使用發布前學到的知識來回答問題和執行任務。
即使在低速 CPU 推理中,體驗也與 GPT-3.5 在發佈時提供的體驗相匹配:對於更大的模型來說速度不是很快,但絕對可用。
較小的 Gemma 3 1B 型號實現了每秒超過 20 個令牌的速度,在監督下提供了流暢的體驗和可靠的準確性。
當您離線或處理不想與 Google 或 OpENAI 的訓練算法共享的敏感數據時,這一點很重要,除非您選擇退出,否則它們會默認使用您的數據。
在最小的 Gemma 模型上,GPU 推理實現了令人印象深刻的預填充速度,每秒超過 105 個令牌,而 CPU 推理則達到每秒 39 個令牌。 令牌輸出(即模型經過思考後生成響應的速度)在 GPU 上平均達到每秒約 10 個令牌,在 CPU 上平均達到每秒 7 個令牌。
多模式功能在測試中表現良好。
此外,似乎在較小模型上進行 CPU 推理比進行 GPU 推理產生的結果更好,儘管這可能只是傳聞;然而,這已在各種測試中觀察到。
例如,在一項視覺任務中,CPU 推理模型準確地猜出了測試照片中我和我妻子的年齡:我 30 多歲,她 20 多歲。
據稱更好的 GPU 推斷功能錯誤地估計了我的年齡,猜測我 20 多歲(不過,我隨時都願意相信這個“信息”而不是真相。)
谷歌的模型受到嚴格的審查,但只需付出很少的努力就可以實現基本的越獄。
與禁止用戶規避嘗試的集中式服務不同,本地模型不會報告您的提示,因此使用越獄技術是一種很好的做法,而不會冒著訂閱的風險或向模型詢問審查版本不會提供的信息。
有第三方模型支持,但有些有限。
該應用程序僅接受 .task 文件,而不是競爭對手喜歡的廣泛採用的 .safetensor 格式奧拉馬 支持。
這極大地限制了可用的模型,儘管有方法將 .safetensor 文件轉換為 .task,但並不適合所有人。
代碼處理已經足夠好了,儘管像 Codestral 這樣的專用模型可以比 Gemma 3 更有效地處理編程任務。 同樣,它必須有一個 .task 版本,但它可以是一個非常有效的替代方案。
對於復述、總結和解釋概念等基本任務,這些模型無需將數據發送到三星或谷歌的服務器就能表現出色。
因此,用戶無需授予大型技術訪問其輸入、鍵盤或剪貼板的權限,因為他們自己的硬件正在處理所有必要的工作。
4096 個標記的上下文窗口感覺受到 2025 年標準的限制,但與兩年前的標準相符。
在這些限制條件下,對話自然流暢。 這或許是定義體驗的最佳方式。
考慮到您正在智能手機上運行 AI 模型,此應用程序將在速度和文本準確性方面為您提供與早期 ChatGPT 類似的體驗,並具有多模態和代碼處理等一些優勢。
但是,為什麼你要在手機上運行你最喜歡的人工智能的速度較慢、質量較差的版本,佔用大量存儲空間,並使事情變得比簡單地輸入 ChatGPT.cOM 更複雜呢?
隱私仍然是關鍵要素。 例如,處理患者數據的醫護人員、現場記者或任何處理機密信息的人現在都可以訪問 AI 功能,而無需將數據離開他們的設備。
“無需互聯網”意味著該技術可以在偏遠地區或旅行時使用,所有響應僅根據模型在訓練時現有的知識生成。
成本節省立竿見影。 雲端 AI 服務按使用量收費,而本地模型僅需手機的處理能力。 小型企業和業餘愛好者無需持續投入即可進行實驗。 如果您在本地運行模型,則可以可以隨心所欲地與其互動,無需消耗配額、積分,或訂閱,並且無需支付任何費用.
延遲的改善顯而易見。 無需服務器往返意味著實時應用(例如聊天機器人或圖像分析)的響應速度更快。 這也意味著您的聊天機器人永遠不會下去.
總的來說,對於基本任務來說,這對於任何用戶來說都已經足夠了,有了 ChatGPT 的免費版本,克勞德, 雙子座, 元, 雷卡, 和 米斯特拉爾在需要進行更大量計算時提供良好的備份。
當然,它短期內還無法取代你最喜歡的聯網聊天機器人。 早期採用它還面臨一些挑戰。
電池消耗問題仍然存在,特別是對於較大的模型;設置的複雜性可能會讓非技術用戶卻步;與雲產品相比,模型種類相形見絀,而谷歌決定不支持 .safetENSor 模型(幾乎佔互聯網上所有 LLM 的 100%)令人失望。
然而,谷歌的實驗性發布標誌著人工智能部署理念的轉變。 該公司不再強迫用戶在強大的人工智能和隱私之間做出選擇,而是兩者兼顧,即使體驗尚未完全達到。
AI Edge Gallery 的 ALPHA 版本帶來了令人驚喜的精緻體驗。 谷歌的優化展現了其打造的可能是目前本地運行 AI 模型的最佳 UI 的能力。
添加 .saFETensor 支持將解鎖現有模型的龐大生態系統,將優秀的應用程序轉變為註重隱私的 AI 用戶必不可少的工具。
編輯喬什·奎特納 和 塞巴斯蒂安·辛克萊