
阿里巴巴中國電商事業(yè)群首席科學(xué)家、技術(shù)總裁鄭波在CNCC2025大會上重磅發(fā)布淘寶全模態(tài)大模型“TStars-Omni”的最新進(jìn)展,并推出視頻生成模型升級版“淘寶星辰?視頻生成模型3.0”,系統(tǒng)展現(xiàn)了多模態(tài)智能在電商場景的深度落地成果,標(biāo)志著阿里“AI電商”戰(zhàn)略進(jìn)入實質(zhì)性落地階段。?
作為淘寶AIGX技術(shù)體系的核心支柱,全模態(tài)大模型“TStars-Omni”實現(xiàn)了對文本、圖像、視頻、音頻四大輸入模態(tài)的全面支持,輸出覆蓋文本與音頻形式,構(gòu)建起對齊人類感官的智能交互體系。鄭波在演講中強(qiáng)調(diào),該模型通過在基座架構(gòu)、視覺編碼器、音頻理解及語音合成等關(guān)鍵模塊的深度優(yōu)化,達(dá)成了“體量小、吞吐快”的技術(shù)優(yōu)勢,綜合性能躋身行業(yè)第一梯隊。現(xiàn)場演示的案例令人矚目:當(dāng)用戶同時上傳冰箱產(chǎn)品圖與廚房平面圖并提問“能否適配安裝”時,模型可快速分析空間尺寸與布局關(guān)系,給出“無法直接嵌入”的精準(zhǔn)判斷,并同步提供調(diào)整建議,展現(xiàn)出強(qiáng)大的商品理解與深度推理能力。這一突破意味著電商智能交互從單一關(guān)鍵詞匹配邁入多維度場景化理解的新階段。?
此次同步推出的淘寶星辰?視頻生成模型3.0,在技術(shù)架構(gòu)上實現(xiàn)重大升級。該模型采用更緊湊的16x16x4時空壓縮VAE結(jié)構(gòu),在大幅提升DIT參數(shù)規(guī)模的同時保持高效推理性能,配合類別平衡的高品質(zhì)訓(xùn)練數(shù)據(jù)與強(qiáng)化后的語義理解模塊,使生成內(nèi)容呈現(xiàn)“動作更靈動、語義更精確、畫面更原生”的顯著特征。鄭波現(xiàn)場展示了其在電商場景的應(yīng)用閉環(huán):商家僅需上傳一件連衣裙的平鋪照片,系統(tǒng)即可自動生成虛擬模特、多場景擺拍圖,進(jìn)而生成帶轉(zhuǎn)場效果的視頻片段,結(jié)合虛擬模特講解功能與自動剪輯技術(shù),全程無需人工干預(yù)即可產(chǎn)出完整帶貨視頻,大幅降低中小商家的內(nèi)容制作門檻與成本。?
值得關(guān)注的是,這兩款新模型的發(fā)布是淘寶AIGX技術(shù)體系的重要組成部分。鄭波在大會上透露,多模態(tài)智能已全面賦能淘寶核心業(yè)務(wù),其中自研推薦大模型RecGPT已落地手機(jī)淘寶“猜你喜歡”信息流,該百億參數(shù)模型可處理10萬量級上下文、理解十年用戶行為數(shù)據(jù),實現(xiàn)數(shù)億商品的全模態(tài)認(rèn)知與世界知識融合推理,數(shù)據(jù)顯示其帶動用戶點擊量增長超16%,加購次數(shù)與停留時長均提升超5%。此外,淘寶近期開源的強(qiáng)化學(xué)習(xí)訓(xùn)練框架ROLL與生成式預(yù)估訓(xùn)練框架RecIS,也為行業(yè)共享多模態(tài)大模型訓(xùn)練技術(shù)提供了重要支撐。?
鄭波在演講中提出一個重要判斷:AI處理問題的復(fù)雜度正以每年5-10倍速度增長,錯誤率年降50%,推理成本每年降低一個數(shù)量級,按此趨勢狹義AGI有望在未來5-10年實現(xiàn)。對于淘寶而言,自2003年成立以來始終堅持技術(shù)與商業(yè)雙向驅(qū)動,在AI時代,多模態(tài)智能已成為“萬能的淘寶”最重要的技術(shù)戰(zhàn)略方向。此次發(fā)布的兩大模型,不僅完善了淘寶從智能交互、內(nèi)容生成到精準(zhǔn)推薦的全鏈路AI能力,更與此前推出的AI萬能搜、AI試穿、AI清單等功能形成協(xié)同,構(gòu)建起“無需獨立App、嵌入購物全流程”的AI原生電商體驗,既為消費(fèi)者解決復(fù)雜購物需求,也為商家提供降本增效的經(jīng)營工具,推動電商行業(yè)從“流量分配”向“智能匹配”的深層變革。








