面壁智能聯(lián)合清華發(fā)布語(yǔ)音生成基座模型VoxCPM

William2025年9月19日 · 大模型 ·

?? 由文心大模型生成的文章摘要

面壁智能正式宣布推出旗下“小鋼炮”系列的新成員——VoxCPM語(yǔ)音生成基座模型。該模型的參數(shù)量為0.5B，由面壁智能與清華大學(xué)深圳國(guó)際研究生院人機(jī)語(yǔ)音交互實(shí)驗(yàn)室（THUHCSI）聯(lián)合研發(fā)，在合成語(yǔ)音的自然度、音色相似度及韻律表現(xiàn)力等方面均達(dá)到了當(dāng)前的最優(yōu)（SOTA）水平。目前，VoxCPM已在GitHub、HuggingFace等平臺(tái)開(kāi)源，向全球開(kāi)發(fā)者開(kāi)放。?

據(jù)介紹，VoxCPM是一款端到端的擴(kuò)散自回歸語(yǔ)音生成模型，其設(shè)計(jì)目標(biāo)是從輸入文本直接合成高質(zhì)量的連續(xù)語(yǔ)音表征，并且支持流式地實(shí)時(shí)輸出生成音頻片段。與當(dāng)前CosyVoice、FireRedTTS及SparkTTS等普遍遵循將連續(xù)的語(yǔ)音信號(hào)轉(zhuǎn)換為離散的聲學(xué)詞元（Speechtoken）序列進(jìn)行處理的方法不同，VoxCPM采用融合層次化語(yǔ)言建模和局部擴(kuò)散生成的端到端TTS方案。?

在性能表現(xiàn)上，VoxCPM在Seed-TTS-EVAL等權(quán)威語(yǔ)音合成評(píng)測(cè)榜單中，相似度、詞錯(cuò)誤率等關(guān)鍵指標(biāo)上均達(dá)到了業(yè)界SOTA水平。在單NVIDIARTX4090顯卡上實(shí)現(xiàn)了RTF（Real-TimeFactor）≈0.17的高效推理速度，且理論上支持流式輸出無(wú)限長(zhǎng)度的音頻。該模型通過(guò)融合層次化語(yǔ)言建模和局部擴(kuò)散生成的連續(xù)表征端到端TTS方案，顯著提升了語(yǔ)音生成的表現(xiàn)力、自然度、穩(wěn)定性。?

在實(shí)際應(yīng)用中，VoxCPM能夠根據(jù)對(duì)文本內(nèi)容的理解，自主選擇合適的聲音、腔調(diào)、韻律風(fēng)格生成音頻。無(wú)論是模擬天氣預(yù)報(bào)員字正腔圓的播報(bào)、英雄將領(lǐng)戰(zhàn)前慷慨激昂的演講，還是還原方言主播的特色腔調(diào)，VoxCPM都能通過(guò)調(diào)整韻律參數(shù)實(shí)現(xiàn)精準(zhǔn)還原。特別是在中文語(yǔ)境下，VoxCPM還支持公式、符號(hào)音頻合成，同時(shí)支持音素標(biāo)記替換，實(shí)現(xiàn)自定義讀音糾正等功能。?

面壁智能表示，VoxCPM的推出，將為智能客服、有聲讀物、教育輔導(dǎo)、語(yǔ)音助手等多個(gè)領(lǐng)域帶來(lái)新的技術(shù)解決方案，助力相關(guān)行業(yè)實(shí)現(xiàn)更自然、流暢的人機(jī)語(yǔ)音交互體驗(yàn)。隨著模型的開(kāi)源，也期待全球開(kāi)發(fā)者能夠基于VoxCPM開(kāi)發(fā)出更多創(chuàng)新應(yīng)用，推動(dòng)語(yǔ)音生成技術(shù)的進(jìn)一步發(fā)展。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

標(biāo)簽:

VoxCPM

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

面壁智能聯(lián)合清華發(fā)布語(yǔ)音生成基座模型VoxCPM

相關(guān)文章

The Information：微軟正開(kāi)發(fā)AI推理模型以與OpenAI競(jìng)爭(zhēng)

Tevogen Bio強(qiáng)調(diào)了人工智能驅(qū)動(dòng)藥物開(kāi)發(fā)的未來(lái)

Snowflake正洽談以超10億美元收購(gòu)人工智能初創(chuàng)公司Reka AI

騰訊推出自研深度思考模型混元T1正式版

蘋(píng)果AI戰(zhàn)略：在慢節(jié)奏中構(gòu)筑技術(shù)壁壘

OpenAI 2025開(kāi)發(fā)者日發(fā)布五大核心工具重構(gòu)AI生態(tài)格局

推薦

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競(jìng)逐市場(chǎng)

混合現(xiàn)實(shí)障礙游戲《激光舞》搶先體驗(yàn)定檔11月6日，Vanbo BV披露更新計(jì)劃與平臺(tái)信息

全球首款超小型移動(dòng)式類(lèi)腦智算體“智者一號(hào)”發(fā)布開(kāi)啟智算便攜化新時(shí)代

Vimeo與YouTube視頻格式支持對(duì)比及Apple Immersive Video相關(guān)動(dòng)態(tài)

AI應(yīng)用推薦

熱門(mén)

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競(jìng)逐市場(chǎng)

混合現(xiàn)實(shí)障礙游戲《激光舞》搶先體驗(yàn)定檔11月6日，Vanbo BV披露更新計(jì)劃與平臺(tái)信息

友情鏈接

推薦

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競(jìng)逐市場(chǎng)

混合現(xiàn)實(shí)障礙游戲《激光舞》搶先體驗(yàn)定檔11月6日，Vanbo BV披露更新計(jì)劃與平臺(tái)信息

全球首款超小型移動(dòng)式類(lèi)腦智算體“智者一號(hào)”發(fā)布開(kāi)啟智算便攜化新時(shí)代

Vimeo與YouTube視頻格式支持對(duì)比及Apple Immersive Video相關(guān)動(dòng)態(tài)