蘋果AI新突破!自研圖像生成技術(shù)比肩DALL-E與Midjourney

?? 由 文心大模型 生成的文章摘要

在人工智能圖像生成領(lǐng)域,蘋果的機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)帶來(lái)重磅突破,成功開發(fā)出一款全新的人工智能系統(tǒng)——STARFlow。該系統(tǒng)致力于生成高分辨率圖像,有望撼動(dòng)擴(kuò)散模型在該領(lǐng)域的主導(dǎo)地位,而擴(kuò)散模型正是支撐DALL-E和Midjourney等熱門圖像生成器的核心技術(shù)。?

這一重大進(jìn)展在近期發(fā)表的研究論文中得到詳細(xì)闡述。STARFlow由蘋果研究人員攜手加州大學(xué)伯克利分校、佐治亞理工學(xué)院等學(xué)術(shù)伙伴共同打造。該系統(tǒng)創(chuàng)造性地將規(guī)范化流與自回歸變換器相結(jié)合,據(jù)蘋果團(tuán)隊(duì)稱,其性能已達(dá)到與當(dāng)前最先進(jìn)的擴(kuò)散模型相媲美的水平。?

這一成果的問(wèn)世,正值蘋果在人工智能領(lǐng)域備受爭(zhēng)議的關(guān)鍵時(shí)期。在周一舉行的全球開發(fā)者大會(huì)(WWDC)上,蘋果對(duì)其Apple Intelligence平臺(tái)的人工智能更新內(nèi)容寥寥無(wú)幾。這一情況不僅凸顯出蘋果在人工智能賽道上面臨的激烈競(jìng)爭(zhēng)壓力,也讓外界愈發(fā)質(zhì)疑其在人工智能軍備競(jìng)賽中的掉隊(duì)?wèi)B(tài)勢(shì),此前蘋果已因在AI領(lǐng)域的發(fā)展遲緩而飽受批評(píng)。?

研究團(tuán)隊(duì)在論文中明確指出:“據(jù)我們所知,這項(xiàng)工作首次成功展示了在這種規(guī)模和分辨率下有效運(yùn)行的規(guī)范化流程。”團(tuán)隊(duì)成員除了蘋果機(jī)器學(xué)習(xí)研究人員Jiatao Gu、Joshua M. Susskind和Shuangfei Zhai,還有來(lái)自各大高校的學(xué)術(shù)合作者。?

STARFlow的誕生,是蘋果為打造獨(dú)特AI功能所做出的廣泛努力的縮影。盡管谷歌、OpenAI等企業(yè)憑借生成式AI領(lǐng)域的創(chuàng)新頻頻登上媒體頭條,但蘋果另辟蹊徑,持續(xù)探索能為自身帶來(lái)差異化競(jìng)爭(zhēng)優(yōu)勢(shì)的AI技術(shù)路徑。?

一直以來(lái),擴(kuò)展正則化流以高效處理高分辨率圖像,都是人工智能圖像生成領(lǐng)域的一大難題。正則化流作為一種能將簡(jiǎn)單分布轉(zhuǎn)化為復(fù)雜分布的生成模型,在圖像合成應(yīng)用中,長(zhǎng)期被擴(kuò)散模型和生成對(duì)抗網(wǎng)絡(luò)的光芒所掩蓋。而STARFlow的研發(fā),正是蘋果團(tuán)隊(duì)攻克這一根本性挑戰(zhàn)的成果。?

研究人員表示:“STARFlow在類條件和文本條件圖像生成任務(wù)中均展現(xiàn)出極具競(jìng)爭(zhēng)力的表現(xiàn),樣本質(zhì)量與最先進(jìn)的擴(kuò)散模型相差無(wú)幾?!边@充分證明了該系統(tǒng)在應(yīng)對(duì)不同類型圖像合成挑戰(zhàn)時(shí)的強(qiáng)大適應(yīng)性與多功能性。?

為突破現(xiàn)有規(guī)范化流方法的局限,蘋果研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)關(guān)鍵創(chuàng)新。STARFlow采用“深淺設(shè)計(jì)”架構(gòu),以一個(gè)深度Transformer塊為核心,用于捕捉模型的大部分表征能力,同時(shí)搭配若干計(jì)算高效且效果顯著的淺層Transformer塊作為補(bǔ)充。此外,該系統(tǒng)選擇在 “預(yù)訓(xùn)練自動(dòng)編碼器的潛在空間” 中進(jìn)行操作,這種處理方式比直接進(jìn)行像素級(jí)建模更為高效,能夠讓模型處理圖像的壓縮表示,大幅提升運(yùn)行效率。?

與依賴迭代去噪過(guò)程的擴(kuò)散模型不同,STARFlow保留了標(biāo)準(zhǔn)化流的數(shù)學(xué)特性,這使得它能夠在連續(xù)空間中進(jìn)行精確的最大似然訓(xùn)練,無(wú)需進(jìn)行離散化處理。這種訓(xùn)練方式賦予STARFlow獨(dú)特優(yōu)勢(shì),在需要對(duì)生成內(nèi)容進(jìn)行精確控制的應(yīng)用場(chǎng)景,或是理解模型不確定性對(duì)決策至關(guān)重要的情況下,STARFlow能夠發(fā)揮重要作用,這對(duì)于蘋果所重視的企業(yè)應(yīng)用程序以及設(shè)備端AI功能而言,具有潛在的巨大價(jià)值。?

目前,蘋果在人工智能領(lǐng)域承受著巨大壓力。彭博社的分析文章曾指出,Apple Intelligence和Siri在與競(jìng)爭(zhēng)對(duì)手的較量中處于劣勢(shì),而本周WWDC上蘋果在AI方面的低調(diào)表現(xiàn),也進(jìn)一步反映出其面臨的挑戰(zhàn)。但STARFlow的出現(xiàn),證明了擴(kuò)散模型并非圖像生成的唯一路徑,通過(guò)另辟蹊徑同樣能夠?qū)崿F(xiàn)優(yōu)異成果。這一突破或?qū)樘O果開辟新的創(chuàng)新方向,充分發(fā)揮其在軟硬件集成以及設(shè)備處理能力方面的固有優(yōu)勢(shì),助力蘋果在人工智能領(lǐng)域?qū)崿F(xiàn)突圍。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」