蘋(píng)果SF-LLaVA-1.5橫空出世:128幀搞定長(zhǎng)視頻分析,多參數(shù)版本刷新基準(zhǔn)測(cè)試紀(jì)錄

?? 由 文心大模型 生成的文章摘要

蘋(píng)果研究人員成功開(kāi)發(fā)出SlowFast-LLaVA模型的改進(jìn)版本——SlowFast-LLaVA-1.5(簡(jiǎn)稱(chēng)SF-LLaVA-1.5),該模型在長(zhǎng)視頻分析與理解領(lǐng)域的表現(xiàn),已然超越了眾多大型模型。這一突破究竟意味著什么??

簡(jiǎn)單來(lái)講,當(dāng)大型語(yǔ)言模型(LLM)接受視頻理解訓(xùn)練時(shí),會(huì)遵循一套標(biāo)準(zhǔn)化流程:先將視頻拆解為若干幀,借助計(jì)算機(jī)視覺(jué)技術(shù)提取視覺(jué)特征,分析這些特征隨時(shí)間的變化規(guī)律,再將視覺(jué)信息與語(yǔ)言體系深度融合,最終以文本形式實(shí)現(xiàn)對(duì)視頻的描述或推理。?

不過(guò),有一種極為低效的視頻處理方式,即逐幀分析視頻。這種方式會(huì)產(chǎn)生海量重復(fù)信息,因?yàn)樵诖蠖鄶?shù)情況下,相鄰幀之間的差異微乎其微,幾乎不存在顯著變化。?

海量重復(fù)信息的存在,極易導(dǎo)致LLM超出其上下文窗口(指模型單次能夠承載的最大信息量)。一旦超出這一限制,為保證對(duì)話(huà)或分析持續(xù)推進(jìn),LLM會(huì)停止對(duì)較早標(biāo)記信息的處理,為預(yù)測(cè)新標(biāo)記騰出空間,這無(wú)疑會(huì)影響視頻理解的完整性與準(zhǔn)確性。?

當(dāng)然,業(yè)界已有更高效的視頻LLM訓(xùn)練方案(NVIDIA近期就發(fā)布了一篇相關(guān)的重要研究論文),但上述內(nèi)容是理解蘋(píng)果此次研究的核心背景,需重點(diǎn)關(guān)注。?

正如蘋(píng)果研究人員在其論文《SlowFast-LLaVA-1.5:用于長(zhǎng)篇視頻理解的一系列高效標(biāo)記視頻大型語(yǔ)言模型》中所闡述的:?

視頻大型語(yǔ)言模型(LLM)將視頻感知能力集成到預(yù)訓(xùn)練LLM中,能夠處理視頻信息并針對(duì)用戶(hù)指令生成響應(yīng)。盡管該領(lǐng)域已取得顯著進(jìn)展,但現(xiàn)有視頻LLM仍存在三大明顯局限性:?

現(xiàn)有模型往往過(guò)度依賴(lài)長(zhǎng)上下文窗口與大量視頻幀,不僅效率低下,還難以適配參數(shù)規(guī)模更小的模型;?

多數(shù)模型需經(jīng)過(guò)復(fù)雜的多階段訓(xùn)練流程(且通常依賴(lài)私有數(shù)據(jù)集),導(dǎo)致訓(xùn)練過(guò)程難以復(fù)現(xiàn);?

許多模型僅針對(duì)視頻任務(wù)進(jìn)行優(yōu)化,限制了其作為通用模型在圖像理解領(lǐng)域的應(yīng)用價(jià)值。?

為解決這些痛點(diǎn),蘋(píng)果團(tuán)隊(duì)首先將目光投向開(kāi)源模型SlowFast-LLaVA。該模型通過(guò)獨(dú)特的雙流架構(gòu)融合空間與時(shí)間信息,已展現(xiàn)出出色的性能:其中“慢速流”以更高的細(xì)節(jié)精度處理較少的幀,用于捕捉場(chǎng)景中的核心內(nèi)容;“快速流”則以較低的細(xì)節(jié)精度處理更多的幀,用于追蹤事物隨時(shí)間的運(yùn)動(dòng)軌跡。?

在此基礎(chǔ)上,蘋(píng)果團(tuán)隊(duì)采取了兩步優(yōu)化策略:第一步,在圖像數(shù)據(jù)上對(duì)SlowFast-LLaVA進(jìn)行微調(diào),構(gòu)建起通用的視覺(jué)推理能力;第二步,利用公共數(shù)據(jù)集對(duì)模型進(jìn)行圖像與視頻聯(lián)合訓(xùn)練,確保模型在學(xué)習(xí)視頻時(shí)間結(jié)構(gòu)的同時(shí),不犧牲原有的圖像理解能力。?

最終,SF-LLaVA-1.5應(yīng)運(yùn)而生。該模型系列包含10億、30億和70億三種參數(shù)規(guī)模,研究人員指出,在一系列視頻任務(wù)測(cè)試中,其性能甚至超越了參數(shù)規(guī)模更大的模型,部分場(chǎng)景下優(yōu)勢(shì)“極為顯著”。?

事實(shí)上,在LongVideoBench、MLVU等長(zhǎng)視頻基準(zhǔn)測(cè)試中,蘋(píng)果的SF-LLaVA-1.5模型在所有參數(shù)規(guī)模下均刷新了最佳成績(jī),即便是參數(shù)最小的10億版本也不例外。?

此外,該模型還成功克服了前文提及的三大局限性之一,并且在圖像任務(wù)中同樣表現(xiàn)出色,包括知識(shí)問(wèn)答、數(shù)學(xué)推理、光學(xué)字符識(shí)別(OCR)以及富文本場(chǎng)景等基準(zhǔn)測(cè)試,均取得了優(yōu)異成果。?

研究團(tuán)隊(duì)還嘗試了多種視頻壓縮策略,但對(duì)比后發(fā)現(xiàn),當(dāng)前的模型設(shè)置在處理速度、分析準(zhǔn)確性與令牌數(shù)量之間達(dá)到了最佳平衡。?

對(duì)于SF-LLaVA-1.5,蘋(píng)果研究人員將其最大輸入幀長(zhǎng)度設(shè)定為128幀。這意味著,無(wú)論分析的是幾分鐘還是幾小時(shí)的長(zhǎng)視頻片段,模型始終僅處理最多128幀——其中快速流選取96個(gè)均勻間隔的幀,慢速流選取32個(gè)均勻間隔的幀。?

針對(duì)這一設(shè)計(jì),研究人員也客觀指出:“這種方法可能會(huì)遺漏長(zhǎng)視頻中的部分關(guān)鍵幀,進(jìn)而導(dǎo)致模型對(duì)視頻播放速度的判斷出現(xiàn)偏差。(……)SF-LLaVA-1.5的性能仍有提升空間,例如通過(guò)調(diào)整包括視覺(jué)編碼器在內(nèi)的所有參數(shù)來(lái)優(yōu)化效果。然而,我們發(fā)現(xiàn),對(duì)于長(zhǎng)視頻LLM而言,這并非易事,因?yàn)榫彺婕せ钪禃?huì)帶來(lái)高昂的GPU內(nèi)存成本。未來(lái)的研究可探索集成內(nèi)存節(jié)省技術(shù),如隨機(jī)神經(jīng)網(wǎng)絡(luò)(BP)等?!?

盡管存在上述可優(yōu)化方向,蘋(píng)果的研究方案仍使SF-LLaVA-1.5成為該領(lǐng)域的先進(jìn)模型,且具備一項(xiàng)額外優(yōu)勢(shì)——完全基于公共數(shù)據(jù)集訓(xùn)練,極大降低了應(yīng)用門(mén)檻。目前,SF-LLaVA-1.5已在GitHub和HuggingFace平臺(tái)開(kāi)源,完整的研究論文也可在arXiv上查閱。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」