蘋果自研Manzano模型突破AI瓶頸:圖像理解與生成實(shí)現(xiàn)一體化

?? 由 文心大模型 生成的文章摘要

蘋果公司近日通過一篇核心成員以華人為主的預(yù)印本論文,披露了其在多模態(tài)AI領(lǐng)域的重大進(jìn)展——代號(hào)為Manzano的新型圖像模型研發(fā)項(xiàng)目。這款模型以創(chuàng)新性混合架構(gòu)打破技術(shù)壁壘,首次在單一系統(tǒng)中實(shí)現(xiàn)圖像理解與生成能力的高效融合,其性能在內(nèi)部測(cè)試中已可媲美OpenAI GPT-4o與谷歌Gemini2.5 Flash等行業(yè)標(biāo)桿。

長(zhǎng)期以來,圖像理解與生成的“任務(wù)沖突”是AI領(lǐng)域的核心難題。蘋果在論文中指出,現(xiàn)有模型普遍面臨表征體系的根本性矛盾:連續(xù)數(shù)據(jù)流能精準(zhǔn)捕捉圖像細(xì)節(jié),更適合文檔解讀、圖表分析等理解任務(wù);而離散符號(hào)系統(tǒng)則便于進(jìn)行創(chuàng)造性生成,但二者采用獨(dú)立工具鏈時(shí)易引發(fā)邏輯沖突,導(dǎo)致在文字密集型場(chǎng)景中表現(xiàn)拉胯。

Manzano的革命性解決方案在于混合圖像分詞器的設(shè)計(jì):通過單一視覺Transformer主干搭配雙適配器結(jié)構(gòu),同步輸出兩類互補(bǔ)標(biāo)記——連續(xù)浮點(diǎn)標(biāo)記用于深度理解,離散分類標(biāo)記支撐創(chuàng)意生成。這種共享編碼器架構(gòu)使兩種表征處于統(tǒng)一語義空間,徹底改變了傳統(tǒng)“雙分詞器”設(shè)計(jì)的參數(shù)冗余問題,經(jīng)消融實(shí)驗(yàn)驗(yàn)證,任務(wù)沖突率較現(xiàn)有方案降低60%以上。

Manzano采用模塊化三段式架構(gòu),實(shí)現(xiàn)語義推理與像素生成的解耦優(yōu)化:

混合視覺分詞器:通過3×3空間壓縮層與量化模塊,將圖像轉(zhuǎn)化為雙類型標(biāo)記,兼顧理解精度與生成效率;

統(tǒng)一語言模型:基于自回歸LLM構(gòu)建,可同時(shí)處理文本與圖像標(biāo)記,支持跨模態(tài)推理;

可擴(kuò)展圖像解碼器:提供9億、17.5億、35.2億三種參數(shù)版本,覆蓋256至2048像素全分辨率輸出。

訓(xùn)練過程采用三階段遞進(jìn)策略:先在33億對(duì)圖文樣本(含23億圖像-文本對(duì)與10億文本-圖像對(duì))中完成基礎(chǔ)訓(xùn)練,再通過DALL-E3、ShareGPT-4o等合成數(shù)據(jù)進(jìn)行優(yōu)化,最終以指令微調(diào)提升實(shí)用能力,累計(jì)處理標(biāo)記量達(dá)1.6萬億。這種數(shù)據(jù)策略使模型展現(xiàn)出極強(qiáng)的擴(kuò)展性——30億參數(shù)版本在ScienceQA等基準(zhǔn)測(cè)試中,較最小模型得分提升超10分,且與專業(yè)系統(tǒng)的差距縮小至1分以內(nèi)。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」