抖音SAIL團隊與新加坡國立大學LV-NUS實驗室聯合發(fā)表的研究成果引發(fā)AI業(yè)界震動——雙方共同開發(fā)的多模態(tài)大模型SAIL-VL2正式開源。這款參數規(guī)模僅2B至8B的“輕量級選手”,在106個跨領域數據集測試中全面突破,其中8B參數版本的推理能力更比肩參數規(guī)模超千億的GPT-4o,為多模態(tài)AI的高效化發(fā)展開辟新路徑。?
SAIL-VL2的突破性表現源于數據、訓練、架構三大維度的系統(tǒng)性創(chuàng)新。在數據處理層面,研發(fā)團隊摒棄傳統(tǒng)“大鍋飯”式數據投喂,打造了堪比“專業(yè)營養(yǎng)師”的精細化數據流水線。通過升級SAIL-Caption數據集并開發(fā)雙質檢模型(準確率均超90%),成功剔除15%—20%的低質描述數據,同時構建自動圖表生成系統(tǒng)與視頻篩選機制,確保輸入數據的視覺豐富度與圖文匹配度。例如在視頻數據處理中,團隊從600萬樣本中精選510萬高質量樣本,嚴格把控“幀-指令對齊”與任務難度平衡。?
訓練策略上,SAIL-VL2采用“從爬行到奔跑”的三階段漸進式框架:第一階段通過看圖說話等基礎任務完成“熱身適應”;第二階段引入視頻數據實現“精細對齊”;第三階段解鎖全參數進行“世界知識注入”,涵蓋數學推理、開放式問答等復雜任務。配合AdaLRS自適應學習率策略,模型能像“智能教練”般動態(tài)調整學習節(jié)奏,大幅提升訓練效率。?
架構設計的巧思更讓“小身材”釋放大能量。視覺編碼器SAIL-ViT推出支持1792×1792超高分辨率的AnyRes版本,通過2DRoPE插值技術避免傳統(tǒng)固定分辨率處理的細節(jié)損失,在RefCOCO視覺定位任務中平均精度達57.82,遠超固定版本的53.28。8B及以上版本采用稀疏混合專家(MoE)架構,31.1B參數模型每次推理僅激活3B參數,通過負載均衡策略將專家激活熵提升20%,實現性能與效率的完美平衡。?
嚴苛的實測數據印證了SAIL-VL2的硬實力。在基礎性能層面,2B參數版本在OpenCompass基準以70.31分超越Qwen2.5-VL-3B(65.36分)等模型,穩(wěn)居4B參數以下開源模型榜首;8B版本進一步將MMStar細粒度任務分數提升至70.73,OCRBench光學字符識別準確率達91.30,均為同量級最優(yōu)。