
抖音SAIL團(tuán)隊(duì)與新加坡國(guó)立大學(xué)LV-NUS實(shí)驗(yàn)室聯(lián)合發(fā)表的研究成果引發(fā)AI業(yè)界震動(dòng)——雙方共同開(kāi)發(fā)的多模態(tài)大模型SAIL-VL2正式開(kāi)源。這款參數(shù)規(guī)模僅2B至8B的“輕量級(jí)選手”,在106個(gè)跨領(lǐng)域數(shù)據(jù)集測(cè)試中全面突破,其中8B參數(shù)版本的推理能力更比肩參數(shù)規(guī)模超千億的GPT-4o,為多模態(tài)AI的高效化發(fā)展開(kāi)辟新路徑。?
SAIL-VL2的突破性表現(xiàn)源于數(shù)據(jù)、訓(xùn)練、架構(gòu)三大維度的系統(tǒng)性創(chuàng)新。在數(shù)據(jù)處理層面,研發(fā)團(tuán)隊(duì)摒棄傳統(tǒng)“大鍋飯”式數(shù)據(jù)投喂,打造了堪比“專業(yè)營(yíng)養(yǎng)師”的精細(xì)化數(shù)據(jù)流水線。通過(guò)升級(jí)SAIL-Caption數(shù)據(jù)集并開(kāi)發(fā)雙質(zhì)檢模型(準(zhǔn)確率均超90%),成功剔除15%—20%的低質(zhì)描述數(shù)據(jù),同時(shí)構(gòu)建自動(dòng)圖表生成系統(tǒng)與視頻篩選機(jī)制,確保輸入數(shù)據(jù)的視覺(jué)豐富度與圖文匹配度。例如在視頻數(shù)據(jù)處理中,團(tuán)隊(duì)從600萬(wàn)樣本中精選510萬(wàn)高質(zhì)量樣本,嚴(yán)格把控“幀-指令對(duì)齊”與任務(wù)難度平衡。?
訓(xùn)練策略上,SAIL-VL2采用“從爬行到奔跑”的三階段漸進(jìn)式框架:第一階段通過(guò)看圖說(shuō)話等基礎(chǔ)任務(wù)完成“熱身適應(yīng)”;第二階段引入視頻數(shù)據(jù)實(shí)現(xiàn)“精細(xì)對(duì)齊”;第三階段解鎖全參數(shù)進(jìn)行“世界知識(shí)注入”,涵蓋數(shù)學(xué)推理、開(kāi)放式問(wèn)答等復(fù)雜任務(wù)。配合AdaLRS自適應(yīng)學(xué)習(xí)率策略,模型能像“智能教練”般動(dòng)態(tài)調(diào)整學(xué)習(xí)節(jié)奏,大幅提升訓(xùn)練效率。?
架構(gòu)設(shè)計(jì)的巧思更讓“小身材”釋放大能量。視覺(jué)編碼器SAIL-ViT推出支持1792×1792超高分辨率的AnyRes版本,通過(guò)2DRoPE插值技術(shù)避免傳統(tǒng)固定分辨率處理的細(xì)節(jié)損失,在RefCOCO視覺(jué)定位任務(wù)中平均精度達(dá)57.82,遠(yuǎn)超固定版本的53.28。8B及以上版本采用稀疏混合專家(MoE)架構(gòu),31.1B參數(shù)模型每次推理僅激活3B參數(shù),通過(guò)負(fù)載均衡策略將專家激活熵提升20%,實(shí)現(xiàn)性能與效率的完美平衡。?
嚴(yán)苛的實(shí)測(cè)數(shù)據(jù)印證了SAIL-VL2的硬實(shí)力。在基礎(chǔ)性能層面,2B參數(shù)版本在OpenCompass基準(zhǔn)以70.31分超越Qwen2.5-VL-3B(65.36分)等模型,穩(wěn)居4B參數(shù)以下開(kāi)源模型榜首;8B版本進(jìn)一步將MMStar細(xì)粒度任務(wù)分?jǐn)?shù)提升至70.73,OCRBench光學(xué)字符識(shí)別準(zhǔn)確率達(dá)91.30,均為同量級(jí)最優(yōu)。








