
面壁智能正式宣布推出旗下“小鋼炮”系列的新成員——VoxCPM語(yǔ)音生成基座模型。該模型的參數(shù)量為0.5B,由面壁智能與清華大學(xué)深圳國(guó)際研究生院人機(jī)語(yǔ)音交互實(shí)驗(yàn)室(THUHCSI)聯(lián)合研發(fā),在合成語(yǔ)音的自然度、音色相似度及韻律表現(xiàn)力等方面均達(dá)到了當(dāng)前的最優(yōu)(SOTA)水平。目前,VoxCPM已在GitHub、HuggingFace等平臺(tái)開(kāi)源,向全球開(kāi)發(fā)者開(kāi)放。?
據(jù)介紹,VoxCPM是一款端到端的擴(kuò)散自回歸語(yǔ)音生成模型,其設(shè)計(jì)目標(biāo)是從輸入文本直接合成高質(zhì)量的連續(xù)語(yǔ)音表征,并且支持流式地實(shí)時(shí)輸出生成音頻片段。與當(dāng)前CosyVoice、FireRedTTS及SparkTTS等普遍遵循將連續(xù)的語(yǔ)音信號(hào)轉(zhuǎn)換為離散的聲學(xué)詞元(Speechtoken)序列進(jìn)行處理的方法不同,VoxCPM采用融合層次化語(yǔ)言建模和局部擴(kuò)散生成的端到端TTS方案。?
在性能表現(xiàn)上,VoxCPM在Seed-TTS-EVAL等權(quán)威語(yǔ)音合成評(píng)測(cè)榜單中,相似度、詞錯(cuò)誤率等關(guān)鍵指標(biāo)上均達(dá)到了業(yè)界SOTA水平。在單NVIDIARTX4090顯卡上實(shí)現(xiàn)了RTF(Real-TimeFactor)≈0.17的高效推理速度,且理論上支持流式輸出無(wú)限長(zhǎng)度的音頻。該模型通過(guò)融合層次化語(yǔ)言建模和局部擴(kuò)散生成的連續(xù)表征端到端TTS方案,顯著提升了語(yǔ)音生成的表現(xiàn)力、自然度、穩(wěn)定性。?
在實(shí)際應(yīng)用中,VoxCPM能夠根據(jù)對(duì)文本內(nèi)容的理解,自主選擇合適的聲音、腔調(diào)、韻律風(fēng)格生成音頻。無(wú)論是模擬天氣預(yù)報(bào)員字正腔圓的播報(bào)、英雄將領(lǐng)戰(zhàn)前慷慨激昂的演講,還是還原方言主播的特色腔調(diào),VoxCPM都能通過(guò)調(diào)整韻律參數(shù)實(shí)現(xiàn)精準(zhǔn)還原。特別是在中文語(yǔ)境下,VoxCPM還支持公式、符號(hào)音頻合成,同時(shí)支持音素標(biāo)記替換,實(shí)現(xiàn)自定義讀音糾正等功能。?
面壁智能表示,VoxCPM的推出,將為智能客服、有聲讀物、教育輔導(dǎo)、語(yǔ)音助手等多個(gè)領(lǐng)域帶來(lái)新的技術(shù)解決方案,助力相關(guān)行業(yè)實(shí)現(xiàn)更自然、流暢的人機(jī)語(yǔ)音交互體驗(yàn)。隨著模型的開(kāi)源,也期待全球開(kāi)發(fā)者能夠基于VoxCPM開(kāi)發(fā)出更多創(chuàng)新應(yīng)用,推動(dòng)語(yǔ)音生成技術(shù)的進(jìn)一步發(fā)展。








