快手發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型

?? 由 文心大模型 生成的文章摘要

快手舉行“靈感成真”可靈AI 2.0模型發(fā)布會(huì),并宣布基座模型再次升級(jí),面向全球正式發(fā)布可靈2.0視頻生成模型及可圖 2.0圖像生成模型。?

據(jù)介紹,可靈2.0模型在動(dòng)態(tài)質(zhì)量、語(yǔ)義響應(yīng)、畫面美學(xué)等維度,保持全球領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。?

快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤透露,自去年6月發(fā)布以來(lái),可靈AI已累計(jì)完成超20次迭代。截至目前,可靈AI全球用戶規(guī)模突破2200萬(wàn),過(guò)去的10個(gè)月里,其月活用戶量增長(zhǎng)25倍,累計(jì)生成超過(guò)1.68億個(gè)視頻及3.4億張圖片。?

蓋坤介紹稱,兩款模型在團(tuán)隊(duì)內(nèi)部的多項(xiàng)勝負(fù)率評(píng)測(cè)中,均穩(wěn)居業(yè)內(nèi)第一。例如在文生視頻領(lǐng)域,可靈2.0對(duì)比谷歌Veo2的勝負(fù)比為205%,對(duì)比Sora的勝負(fù)比達(dá)367%,在文字相關(guān)性、畫面質(zhì)量、動(dòng)態(tài)質(zhì)量等維度上顯著超越對(duì)手。

基于MVL理念,可靈AI正式推出多模態(tài)編輯功能?!皬慕裉炱?,大家可以在可靈AI的平臺(tái)上體驗(yàn)我們的多模態(tài)編輯能力。用戶可以非常直接地把自己的想法用圖像等方式作為輸入,生成符合自己想法的創(chuàng)意視頻?!鄙w坤介紹,MMW(多模態(tài)描述詞)將不只局限于圖片和視頻,也可以引入其它模態(tài)的信息,例如聲音、運(yùn)動(dòng)軌跡等,讓用戶實(shí)現(xiàn)更加豐富的表達(dá)。?

全新的可靈2.0大師版在語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量、畫面美學(xué)等方面顯著提升生成效果??伸`2.0 大師版全面升級(jí)視頻及圖像創(chuàng)作可控生成與編輯能力,上線全新的多模態(tài)視頻編輯功能,能靈活理解用戶意圖。支持在一段視頻的基礎(chǔ)之上,通過(guò)輸入圖片或文字,對(duì)生成的視頻內(nèi)容實(shí)現(xiàn)元素的增加、刪減、替換,幫助創(chuàng)作者們實(shí)現(xiàn)更加靈活的二次編輯和處理。

據(jù)官方介紹,當(dāng)前圖生視頻約占到可靈AI視頻創(chuàng)作量的85%。在圖像生成大模型領(lǐng)域,快手的可圖 2.0 處于行業(yè)領(lǐng)先水平,擁有多項(xiàng)核心優(yōu)勢(shì),諸如強(qiáng)大的復(fù)雜語(yǔ)義理解能力、電影級(jí)的畫面質(zhì)感、多條件的可控風(fēng)格化生成等。在團(tuán)隊(duì)內(nèi)部的多項(xiàng)勝負(fù)率評(píng)測(cè)中,相較于 Midjourney V7、FLUX1.1 (pro) 以及Reve等行業(yè)領(lǐng)先的圖像模型,均保持明顯優(yōu)勢(shì)。

包括大幅提升指令遵循能力、顯著增強(qiáng)電影美學(xué)表現(xiàn)力以及更多元的藝術(shù)風(fēng)格。在風(fēng)格化響應(yīng)上,可圖2.0可支持60多種風(fēng)格化的效果轉(zhuǎn)繪,模型出圖創(chuàng)意和想象力實(shí)現(xiàn)大幅躍升。?

同時(shí),可圖2.0也上線了實(shí)用的圖像可控編輯功能——局部重繪和擴(kuò)圖,支持圖片的增加、修改和修復(fù)。在圖像的多模態(tài)可控生成中,可圖2.0還上線了全新的風(fēng)格轉(zhuǎn)繪功能,只需要上傳一張圖片加上風(fēng)格描述,就能一鍵切換圖片的藝術(shù)風(fēng)格,同時(shí)精準(zhǔn)保留原圖的語(yǔ)義內(nèi)容。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」