騰訊混元開(kāi)源端到端視頻音效生成模型Hunyuan-Foley,打破AI視頻“無(wú)聲”局限

?? 由 文心大模型 生成的文章摘要

騰訊混元正式開(kāi)源端到端視頻音效生成模型Hunyuan-Foley。這一舉措宛如一顆投入平靜湖面的石子,在AI視頻領(lǐng)域激起層層漣漪,其最大的亮點(diǎn)便是打破了長(zhǎng)期以來(lái)AI生成視頻“無(wú)聲”的局限。從此,用戶(hù)只需輕松輸入視頻以及對(duì)應(yīng)的文字描述,就能為視頻匹配上令人贊嘆的電影級(jí)音效。?

在以往,AI生成視頻技術(shù)雖在畫(huà)面呈現(xiàn)上取得了長(zhǎng)足進(jìn)步,能生成高質(zhì)量、精美的視覺(jué)內(nèi)容,可一旦涉及音頻部分,就顯得捉襟見(jiàn)肘。沒(méi)有合適音效配合的視頻,仿佛失去了靈魂,大大削弱了用戶(hù)的沉浸感。而傳統(tǒng)的Foley藝術(shù),雖能通過(guò)專(zhuān)業(yè)人士逐幀精心創(chuàng)建音效,達(dá)到極高的藝術(shù)水準(zhǔn),但整個(gè)過(guò)程耗時(shí)費(fèi)力,成本高昂,根本無(wú)法與現(xiàn)代快速發(fā)展的視頻生成系統(tǒng)效率相匹配。至于現(xiàn)有的一些自動(dòng)化Foley生成方法,如基于文本的音頻合成(TTA)和視頻到音頻(V2A)的生成方法,也因多模態(tài)數(shù)據(jù)稀缺、模態(tài)不平衡和音頻質(zhì)量有限等問(wèn)題,難以滿足人們對(duì)優(yōu)質(zhì)視頻音效的需求。?

Hunyuan-Foley的出現(xiàn),恰似一場(chǎng)及時(shí)雨,精準(zhǔn)地解決了這些痛點(diǎn)。從官方展示的效果來(lái)看,其表現(xiàn)堪稱(chēng)驚艷。無(wú)論是模擬引擎從怠速到高速運(yùn)轉(zhuǎn)時(shí)的轟鳴聲,精準(zhǔn)還原每一個(gè)動(dòng)態(tài)變化細(xì)節(jié);還是細(xì)膩呈現(xiàn)小狐貍踩踏樹(shù)葉時(shí)發(fā)出的沙沙聲,都能做到惟妙惟肖。它真正實(shí)現(xiàn)了“看懂畫(huà)面、讀懂文字、配準(zhǔn)聲音”,讓視頻中的“畫(huà)面-文字-聲音”達(dá)到完美協(xié)同,為觀眾帶來(lái)身臨其境般的沉浸式視聽(tīng)體驗(yàn)。?

深入探究Hunyuan-Foley的技術(shù)亮點(diǎn),會(huì)發(fā)現(xiàn)其背后蘊(yùn)含著諸多創(chuàng)新之處。首先,它具備卓越的多模態(tài)理解能力。該模型能夠同步解析視頻中的視覺(jué)內(nèi)容以及用戶(hù)輸入的語(yǔ)義指令,進(jìn)而動(dòng)態(tài)生成豐富多樣的環(huán)境音、擬音等。例如,當(dāng)輸入一段包含海浪、沙灘人群及海鷗的視頻,且文字描述僅為“海浪聲”時(shí),Hunyuan-Foley不僅能敏銳捕捉海浪畫(huà)面,生成與之同步的波浪音效,精準(zhǔn)響應(yīng)文本需求,還能巧妙地捕捉視頻中人群交談的聲音、海鷗盤(pán)旋的鳴叫聲,甚至依據(jù)整體場(chǎng)景氛圍,自然融入輕柔的背景環(huán)境音,形成層次豐富、真實(shí)感十足的復(fù)合音效。這種對(duì)文本描述與視頻細(xì)節(jié)的雙重響應(yīng)機(jī)制,成功避免了過(guò)往模型容易出現(xiàn)的“顧文失畫(huà)”問(wèn)題,使得生成的音頻與整體場(chǎng)景高度契合,極大地提升了視頻觀看的沉浸感。?

其次,Hunyuan-Foley擁有專(zhuān)業(yè)級(jí)別的音頻保真度。無(wú)論是模擬汽車(chē)駛過(guò)濕滑路面時(shí),輪胎與地面摩擦產(chǎn)生的獨(dú)特質(zhì)感,還是營(yíng)造環(huán)境音時(shí)所展現(xiàn)出的空間層次感,均達(dá)到了專(zhuān)業(yè)制作水準(zhǔn)。它生成的音頻能夠精準(zhǔn)還原各種復(fù)雜聲音效果,通過(guò)聲場(chǎng)變化體現(xiàn)物體運(yùn)動(dòng)時(shí)的空間位移感,為視頻增添更多真實(shí)感和立體感。?

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」