快手可靈AI首部AI單元?jiǎng)∈子常虡I(yè)化顯著但技術(shù)存挑戰(zhàn)

?? 由 文心大模型 生成的文章摘要

6月25日,快手科技旗下的可靈AI與星芒短劇攜手,共同為全球觀眾帶來了一場別開生面的視覺盛宴——全球首部AI單元故事集《新世界加載中》的首映禮隆重舉行。這部融合了科幻、歷史、奇幻、荒誕喜劇等多元題材的作品,自籌備之初便備受矚目,其借助可靈AI強(qiáng)大的技術(shù)支撐,將不同風(fēng)格的故事巧妙融合,為觀眾呈現(xiàn)了一個(gè)充滿想象力與創(chuàng)造力的“新世界”。?

首映禮現(xiàn)場氣氛熱烈非凡,各界嘉賓、媒體以及AI與影視領(lǐng)域的專業(yè)人士齊聚一堂。在觀看完整部作品后,不少觀眾對其創(chuàng)新性給予了高度評價(jià)。劇中通過詳細(xì)動(dòng)作腳本與首尾幀技術(shù),成功攻克了快速連續(xù)打斗動(dòng)作難以流暢銜接的難題,使得動(dòng)作場面緊張刺激且行云流水,為觀眾帶來了震撼的視覺沖擊。然而,不可忽視的是,這部作品也暴露出一些當(dāng)下AI創(chuàng)作難以避免的問題,如人物一致性不足,部分角色在不同場景下外貌特征出現(xiàn)細(xì)微偏差;人物情感情緒表達(dá)欠缺,使得角色形象不夠豐滿立體;群像畫面中人臉崩壞現(xiàn)象偶有發(fā)生,一定程度上影響了整體觀影體驗(yàn)。?

可靈AI在商業(yè)化方面取得的成績令人矚目。此前官方披露的ARR(年度經(jīng)常性收入)數(shù)據(jù)顯示,其已成功突破1億美元大關(guān)。高盛更是樂觀預(yù)測,可靈AI在2025年的收入規(guī)模有望超過1.2億美元。這一斐然成績的背后,是可靈AI精準(zhǔn)的市場定位與多元化的商業(yè)策略??伸`AI依托快手龐大的內(nèi)容生態(tài)與創(chuàng)作者資源,從誕生之初便明確了降低視頻創(chuàng)作門檻、賦能內(nèi)容生產(chǎn)者的核心定位。其推出的面向C端用戶的會(huì)員收費(fèi)模式以及面向B端企業(yè)的API訂閱模式,吸引了大量具有付費(fèi)能力的專業(yè)創(chuàng)作者群體。

數(shù)據(jù)顯示,約70%的營收來自Prosumer(專業(yè)消費(fèi)者)的訂閱付費(fèi),這類用戶兼具個(gè)人創(chuàng)作需求和商業(yè)變現(xiàn)訴求,形成了穩(wěn)定的付費(fèi)基本盤。同時(shí),可靈AI與網(wǎng)易《逆水寒》等游戲的深度合作,通過定制化角色動(dòng)畫生成功能,不僅拓展了應(yīng)用場景,更驗(yàn)證了垂直領(lǐng)域付費(fèi)的可行性。?

但在技術(shù)表現(xiàn)層面,可靈AI產(chǎn)品及運(yùn)營負(fù)責(zé)人李楊坦言,可靈AI在穩(wěn)定性、運(yùn)動(dòng)表現(xiàn)、清晰度等方面仍存在一定問題。在實(shí)際使用中,視頻生成效果的不確定性較為突出,即便是專業(yè)創(chuàng)作者,也需要通過反復(fù)編寫和調(diào)整prompt(提示詞),多次嘗試生成視頻,這一過程被形象地稱為“抽卡”。目前,可靈AI在生成較長視頻時(shí),容易出現(xiàn)內(nèi)容斷層、情節(jié)不連貫的現(xiàn)象,嚴(yán)重影響視頻的質(zhì)量與觀賞性。在運(yùn)動(dòng)表現(xiàn)方面,人物或物體的運(yùn)動(dòng)速度、質(zhì)量、美感以及自然度,與真實(shí)場景下的運(yùn)動(dòng)規(guī)律仍存在差距,使得生成的視頻在動(dòng)作呈現(xiàn)上顯得生硬、不真實(shí)。清晰度方面,雖然可靈AI支持1080P高清視頻輸出,但在復(fù)雜場景或細(xì)節(jié)較多的畫面中,仍會(huì)出現(xiàn)模糊、噪點(diǎn)等問題。?

面對這些技術(shù)挑戰(zhàn),可靈AI團(tuán)隊(duì)正全力以赴進(jìn)行優(yōu)化與完善。目前,團(tuán)隊(duì)將重點(diǎn)聚焦于語義遵從、運(yùn)動(dòng)表現(xiàn)等方面。在語義遵從方面,通過持續(xù)優(yōu)化算法模型,提升AI對用戶輸入提示詞的理解能力,確保生成的視頻內(nèi)容能夠精準(zhǔn)貼合用戶的創(chuàng)作意圖。在運(yùn)動(dòng)表現(xiàn)優(yōu)化上,深入研究物理運(yùn)動(dòng)規(guī)律,引入先進(jìn)的模擬技術(shù),力求使人物和物體的運(yùn)動(dòng)更加自然流暢,符合真實(shí)世界的運(yùn)動(dòng)邏輯。同時(shí),在提升清晰度方面,加大對圖像渲染技術(shù)的研發(fā)投入,提高視頻畫面的細(xì)節(jié)還原度,減少模糊和噪點(diǎn)現(xiàn)象。?

盡管存在技術(shù)短板,但可靈AI自發(fā)布以來,憑借其強(qiáng)大的技術(shù)實(shí)力和創(chuàng)新的產(chǎn)品理念,在視頻模型行業(yè)中始終占據(jù)頭部位置。根據(jù)Artificial Analysis視頻生成榜單,谷歌Veo系列和快手可靈系列分別在文生視頻、圖生視頻領(lǐng)域位列一二位,東方證券分析師更是將二者的技術(shù)實(shí)力評定為T0梯隊(duì)。

今年5月,谷歌發(fā)布的Veo3視頻大模型新品,憑借更強(qiáng)的音視頻同步生成、參考圖視頻生成、相機(jī)控制視頻生成等功能,在創(chuàng)作者群體中引發(fā)廣泛熱議。對此,李楊對谷歌Veo3的技術(shù)能力表示認(rèn)可,她指出,谷歌Veo3的音視頻同步生成功能確實(shí)令人眼前一亮,但可靈AI有著自己獨(dú)特的發(fā)展路徑。可靈AI更側(cè)重于技術(shù)落地與產(chǎn)品體驗(yàn),例如Veo3的音效同步生成功能雖然便捷,但由于音效很難通過prompt保持一致,容易導(dǎo)致音色不可控。而可靈AI選擇盡早與用戶群體進(jìn)行交互,深入了解用戶需求,并據(jù)此進(jìn)行針對性的迭代更新,不斷優(yōu)化產(chǎn)品功能與體驗(yàn)。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」