AI領(lǐng)域新品密集發(fā)布:Stability AI、百度、阿里各展所長,技術(shù)突破引關(guān)注

?? 由 文心大模型 生成的文章摘要

近期,人工智能領(lǐng)域再度迎來創(chuàng)新熱潮,多家公司接連發(fā)布新的AI產(chǎn)品與技術(shù),為行業(yè)發(fā)展注入強(qiáng)勁動力。

9月14日,Stability AI正式推出企業(yè)級音頻生成模型StableAudio2.5。該模型在音頻細(xì)節(jié)和生成速度方面實現(xiàn)顯著提升,號稱能夠“僅用2秒鐘即可創(chuàng)建3分鐘音頻曲目”。其核心改進(jìn)聚焦于音樂生成能力,生成結(jié)果更貼合真實編曲邏輯,可呈現(xiàn)完整的前奏、發(fā)展與結(jié)尾等多段式結(jié)構(gòu)。同時,新版模型對提示詞的理解更為精準(zhǔn),在情緒描述和音樂風(fēng)格詞匯的把握上,能給出更符合預(yù)期的響應(yīng)。生成速度的顯著提升,得益于研發(fā)團(tuán)隊提出的后訓(xùn)練方法ARC。這一技術(shù)通過結(jié)合相對式對抗訓(xùn)練與對比判別器,在保證音軌質(zhì)量的同時,大幅降低GPU推理耗時。此外,StableAudio2.5還新增音頻修補(bǔ)功能,用戶導(dǎo)入自己的音頻文件并指定“延展位置”后,模型可依據(jù)音頻前后內(nèi)容及整體曲風(fēng),一鍵“延長”音頻,為剪輯等場景提供便利。目前,該模型已可通過StableAudio官網(wǎng)直接試用,也支持本地化部署。不過,官方規(guī)定用戶上傳的音頻文件不得包含受版權(quán)保護(hù)的內(nèi)容,網(wǎng)站將利用自帶的內(nèi)容識別系統(tǒng)進(jìn)行檢測,以確保不侵犯他人版權(quán)。

百度也在模型領(lǐng)域發(fā)力,推出開源權(quán)重“思考”模型ERNIE-4.5。該模型總參數(shù)量達(dá)210億,在性能表現(xiàn)上十分亮眼。據(jù)百度相關(guān)負(fù)責(zé)人介紹,ERNIE-4.5在多模態(tài)理解能力方面取得顯著進(jìn)步,能夠進(jìn)行圖形推理、圖表分析,還具備理解漫畫、歌曲、電影等多模態(tài)內(nèi)容的能力。作為深度思考模型,它在性能上對標(biāo)DeepSeek-R1,擁有“長思維鏈”,尤其擅長中文知識問答、文學(xué)創(chuàng)作、邏輯推理等任務(wù)。同時,該模型增加了多模態(tài)能力和多工具調(diào)用功能,不僅能理解和生成圖片,還可調(diào)用工具生成代碼和圖表等,并且大幅降低了推理成本。

阿里巴巴通義千問團(tuán)隊同樣成果豐碩,推出“Qwen3-Next”系列模型,并開源前沿混合專家模型Qwen-Next-80B-A3B等。Qwen3-Next是Qwen系列的最新成員,基于Qwen3架構(gòu)改進(jìn)優(yōu)化。其模型總參數(shù)約800億(80B),但推理時僅啟用約3B參數(shù)(active參數(shù))參與,大幅減少推理時的計算資源消耗,同時保留強(qiáng)大的表達(dá)能力。該模型引入混合注意力機(jī)制,如“線性注意力+門控注意力”的混合設(shè)計,提升了長輸入(longcontext)下的處理效率。

在輸入32,000token或更高時,“prefill”階段比Qwen3-32B快約10.6倍,decode階段快約10倍。通過架構(gòu)設(shè)計與活躍參數(shù)控制,Qwen3-Next的訓(xùn)練成本低于Qwen3-32B,更具成本效益。并且,它支持思考模式與非思考模式,用戶可依據(jù)任務(wù)復(fù)雜性進(jìn)行選擇,以平衡速度與準(zhǔn)確性。在性能表現(xiàn)上,Qwen3-Next在長上下文情景下,輸出第一個token的速度以及decode階段速度均有大幅提升,在某些任務(wù)中的評測結(jié)果已等同甚至優(yōu)于Qwen3-32B。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」