文本生旋律、音頻配伴奏!OpenAI新工具攪動(dòng)AI音樂(lè)產(chǎn)業(yè)

?? 由 文心大模型 生成的文章摘要

OpenAI正以突破性技術(shù)重構(gòu)音樂(lè)創(chuàng)作邏輯。據(jù)《The Information》披露的最新進(jìn)展,其研發(fā)的新一代音樂(lè)生成工具已實(shí)現(xiàn)兩大核心能力:通過(guò)文本描述生成適配場(chǎng)景的音樂(lè),例如輸入“懸疑片高潮段落、弦樂(lè)主導(dǎo)”即可生成對(duì)應(yīng)旋律;更可基于音頻片段創(chuàng)作伴奏,用戶(hù)上傳清唱錄音后,系統(tǒng)能實(shí)時(shí)生成鋼琴、吉他等多樂(lè)器伴奏軌。這種“文本-音頻雙驅(qū)動(dòng)”模式,較此前僅支持單一輸入的AI音樂(lè)工具實(shí)現(xiàn)了質(zhì)的飛躍。?

支撐這一突破的是OpenAI積淀多年的技術(shù)體系。新工具延續(xù)了MuseNet模型采用的Sparse Transformer架構(gòu),通過(guò)72層神經(jīng)網(wǎng)絡(luò)與4096個(gè)token的上下文窗口,精準(zhǔn)捕捉音樂(lè)的長(zhǎng)期結(jié)構(gòu)關(guān)系,同時(shí)融合Jukebox的多尺度VQ-VAE編碼技術(shù),實(shí)現(xiàn)從底層音色到頂層語(yǔ)義的全維度音樂(lè)生成。更關(guān)鍵的是,OpenAI與茱莉亞音樂(lè)學(xué)院展開(kāi)深度合作,由專(zhuān)業(yè)音樂(lè)生對(duì)海量樂(lè)譜進(jìn)行結(jié)構(gòu)化標(biāo)注,構(gòu)建出包含古典、爵士、世界音樂(lè)等多元風(fēng)格的高質(zhì)量訓(xùn)練數(shù)據(jù)集,使模型能深度理解和弦進(jìn)行、曲式結(jié)構(gòu)等專(zhuān)業(yè)音樂(lè)理論。?

盡管核心功能已逐步清晰,新工具的最終形態(tài)仍籠罩在迷霧中。內(nèi)部消息顯示,OpenAI正評(píng)估兩種發(fā)布方案:一是推出獨(dú)立音樂(lè)創(chuàng)作應(yīng)用,主打?qū)I(yè)創(chuàng)作者市場(chǎng);二是將技術(shù)整合至ChatGPT或視頻生成工具Sora,形成“文本-視頻-音樂(lè)”的全鏈路內(nèi)容生成生態(tài)。若選擇后者,用戶(hù)在Sora中生成視頻后,可直接通過(guò)自然語(yǔ)言指令生成適配背景音樂(lè),實(shí)現(xiàn)創(chuàng)作流程的無(wú)縫銜接。?

這種戰(zhàn)略模糊性實(shí)則暗藏深意?;仡橭penAI的產(chǎn)品演進(jìn),從GPT系列的文本生成到Sora的視頻創(chuàng)作,其始終以多模態(tài)融合為核心方向。此次音樂(lè)工具的研發(fā),被業(yè)內(nèi)解讀為補(bǔ)全“文本-圖像-音頻-視頻”四大內(nèi)容形態(tài)的關(guān)鍵拼圖。有分析師指出,若技術(shù)最終整合入現(xiàn)有生態(tài),將借助ChatGPT的10億級(jí)用戶(hù)基數(shù)實(shí)現(xiàn)快速滲透,形成難以復(fù)制的競(jìng)爭(zhēng)壁壘。?

OpenAI的入場(chǎng),正打破谷歌、Suno主導(dǎo)的AI音樂(lè)市場(chǎng)平衡。目前谷歌憑借MusicLM模型的多風(fēng)格生成能力占據(jù)專(zhuān)業(yè)領(lǐng)域優(yōu)勢(shì),其Coconet模型曾成功復(fù)刻巴赫合唱和聲風(fēng)格,展現(xiàn)出深厚的古典音樂(lè)處理功底;而Suno則以V3模型在大眾創(chuàng)作市場(chǎng)快速崛起,支持“歌詞-旋律-伴奏”一體化生成,累計(jì)生成量已突破1億首。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」