
國(guó)內(nèi)AI領(lǐng)域迎來(lái)一項(xiàng)重大進(jìn)展,最大AI圖像創(chuàng)作平臺(tái)LiblibAI成功接入阿里通義系列大模型。這一合作標(biāo)志著AI創(chuàng)作領(lǐng)域?qū)⒂瓉?lái)新一輪的革新,為廣大創(chuàng)作者帶來(lái)更為強(qiáng)大且高效的創(chuàng)作工具。?
在此次接入后,基于萬(wàn)相最新開源模型打造的文生視頻、圖生視頻功能備受矚目。用戶只需輸入提示詞,或者上傳一張圖片,平臺(tái)就能生成一段時(shí)長(zhǎng)10秒的視頻。以萬(wàn)相2.1(Wan2.1)為例,其性能卓越,在Hugging Face及魔搭社區(qū)的總下載量已超200萬(wàn),在Github的Star數(shù)超8.7k。
萬(wàn)相視頻生成模型在算法設(shè)計(jì)上獨(dú)具匠心,它基于主流DiT架構(gòu)和線性噪聲軌跡范式,研發(fā)了高效的因果3D VAE、可擴(kuò)展的預(yù)訓(xùn)練策略等。像在3D VAE 中,為了高效支持任意長(zhǎng)度視頻的編碼和解碼,萬(wàn)相在因果卷積模塊中實(shí)現(xiàn)了特征緩存機(jī)制,代替直接對(duì)長(zhǎng)視頻端到端的編解碼過(guò)程,從而實(shí)現(xiàn)了無(wú)限長(zhǎng)1080P視頻的高效編解碼。并且,通過(guò)將空間降采樣壓縮提前,模型在推理時(shí)能夠在不損失性能的情況下,進(jìn)一步減少29%的內(nèi)存占用。此外,1.3B 版本的視頻生成模型僅需8.2GB顯存即可生成高質(zhì)量視頻,在消費(fèi)級(jí)顯卡上就能運(yùn)行,適用于二次模型開發(fā)和學(xué)術(shù)研究。?
除了視頻生成功能的升級(jí),LiblibAI在提示詞優(yōu)化方面也取得了重大突破。LiblibAI基于Qwen – turbo打造了全新的提示詞窗口,通過(guò)預(yù)先設(shè)置好的系統(tǒng)提示(System Prompt),能幫助用戶對(duì)提示詞進(jìn)行優(yōu)化。不僅如此,該窗口還具備一項(xiàng)實(shí)用功能,可將中文提示詞精準(zhǔn)翻譯為模型能夠理解的英文提示詞。
據(jù)LiblibAI官方介紹,在接入Qwen – turbo后,平臺(tái)的提示詞優(yōu)化時(shí)間大幅縮短,超過(guò)了50%。這意味著創(chuàng)作者能夠更快地獲得更符合模型需求的提示詞,極大地提升了創(chuàng)作效率。以一位經(jīng)常使用AI創(chuàng)作的插畫師為例,以往他花費(fèi)在優(yōu)化提示詞上的時(shí)間可能要20分鐘左右,接入新功能后,同樣的工作僅需不到10分鐘就能完成,大大加快了他的創(chuàng)作流程。








