蘋果正式發(fā)布FastVLM:專為移動設(shè)備優(yōu)化的視覺語言模型

?? 由 文心大模型 生成的文章摘要

蘋果正式發(fā)布了FastVLM,這是一款專為高分辨率圖像處理優(yōu)化的視覺語言模型(VLM),其在iPhone等移動設(shè)備上展現(xiàn)出的高效運行能力和卓越性能,瞬間引發(fā)了行業(yè)的廣泛熱議。FastVLM通過創(chuàng)新的FastViTHD視覺編碼器,成功實現(xiàn)了高達85倍的編碼速度提升,為實時多模態(tài)AI應(yīng)用提供了強有力的支持。?

FastVLM的核心技術(shù)在于其全新設(shè)計的FastViTHD混合視覺編器,該編碼器針對高分辨率圖像處理進行了深度優(yōu)化。它采用了動態(tài)分辨率調(diào)整技術(shù),通過多尺度特征融合,能夠智能識別圖像關(guān)鍵區(qū)域,從而減少冗余計算。同時,其層次化令牌壓縮技術(shù)可將視覺令牌數(shù)量從 1536壓縮至576,大幅減少了62.5%的計算量。在硬件優(yōu)化方面,F(xiàn)astVLM 針對蘋果硅片(如 M2、A18)對矩陣運算進行了優(yōu)化,并支持FP16和INT8量化,確保了在移動設(shè)備上的低功耗運行。?

FastVLM模型系列包含0.5B、1.5B和7B參數(shù)變體,能夠覆蓋從輕量級到高性能的多種應(yīng)用場景。其中最小模型FastVLM – 0.5B在編碼速度上比LLaVA – OneVision – 0.5B快85倍,且視覺編碼器體積縮小了3.4倍,卻仍能保持相近的性能。

基準測試結(jié)果顯示,F(xiàn)astVLM在視覺語言任務(wù)中性能出色。在 SeedBench 的多模態(tài)理解任務(wù)中,它與 LLaVA – OneVision 性能持平,但推理速度有顯著提升;在處理高分辨率圖像的復(fù)雜推理任務(wù) MMMU 中,展現(xiàn)出了強大的上下文理解能力;在TextVQA與DocVQA任務(wù)中,相較于 ConvLLaVA,TextVQA性能提升了8.4%,DocVQA 提升了12.5%。此外,F(xiàn)astVLM 通過單一圖像編碼器實現(xiàn)多任務(wù)支持,無需額外令牌裁剪,簡化了模型設(shè)計。其 7B 變體基于 Qwen2 – 7B,在COCO Caption基準上達到了82.1%的準確率,同時在首次令牌時間(TTFT)上保持著7.9倍的優(yōu)勢,為實時應(yīng)用奠定了堅實基礎(chǔ)。?

FastVLM專為蘋果生態(tài)進行了優(yōu)化,支持通過MLX框架在 iPhone、iPad和Mac上本地運行。借助CoreML集成,通過CoreML工具鏈實現(xiàn)模型轉(zhuǎn)換后,可支持60FPS的連續(xù)對話體驗。其INT8動態(tài)量化技術(shù)減少了40%的內(nèi)存使用率,同時還能保持98%的準確率。在iPad Pro M2上,F(xiàn)astVLM能夠?qū)崿F(xiàn)高幀率多模態(tài)推理,適用于AR、圖像編輯和醫(yī)療影像分析等多種場景。?

蘋果還發(fā)布了iOS演示應(yīng)用,展示了FastVLM在移動設(shè)備上的實時性能。例如,在肺結(jié)節(jié)檢測中,F(xiàn)astVLM實現(xiàn)了93.7%的準確率,診斷效率提升了40%;在智能手機生產(chǎn)線質(zhì)檢中,將缺陷誤報率從2.1%降至0.7%。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」