小米AI實(shí)驗(yàn)室發(fā)布ZipVoice系列語(yǔ)音合成TTS模型，解決零樣本語(yǔ)音合成痛點(diǎn)

William2025年9月13日 · 大模型 ·

?? 由文心大模型生成的文章摘要

小米集團(tuán)AI實(shí)驗(yàn)室宣布，旗下Kaldi團(tuán)隊(duì)上個(gè)月發(fā)布了基于FlowMatching架構(gòu)的ZipVoice系列語(yǔ)音合成（TTS）模型，包括ZipVoice（零樣本單說(shuō)話人語(yǔ)音合成模型）、ZipVoice-Dialog（零樣本對(duì)話語(yǔ)音合成模型）。?

據(jù)官方介紹，作為zipformer在語(yǔ)音生成任務(wù)上的應(yīng)用和探索，ZipVoice解決了現(xiàn)有零樣本語(yǔ)音合成模型的參數(shù)量大、合成速度慢的痛點(diǎn)，在輕量化建模和推理加速上取得了重要突破。ZipVoice-Dialog則解決了現(xiàn)有對(duì)話語(yǔ)音合成模型在穩(wěn)定性和推理速度上的瓶頸，實(shí)現(xiàn)了又快又穩(wěn)又自然的語(yǔ)音對(duì)話合成。?

從小米官方獲悉，ZipVoice首次將原本為自動(dòng)語(yǔ)音識(shí)別（ASR）設(shè)計(jì)的Zipformer架構(gòu)引入TTS任務(wù)作為模型的骨干網(wǎng)絡(luò)，Zipformer中的三大設(shè)計(jì)：基于U-Net的多尺度高效率結(jié)構(gòu)、卷積與注意力機(jī)制的協(xié)同處理、以及注意力權(quán)重的多次復(fù)用都高度適配語(yǔ)音合成任務(wù)，從而實(shí)現(xiàn)了語(yǔ)音合成模型的高效建模。得益于這一設(shè)計(jì)，相比基于DiT的語(yǔ)音合成模型，在性能相似的情況下，ZipVoice的參數(shù)量減少了約63%。?

性能方面，ZipVoice和ZipVoice-Distill在具備更小參數(shù)量和更快推理速度的同時(shí)，在三個(gè)客觀指標(biāo)，即說(shuō)話人相似度（SIM-o）、詞錯(cuò)誤率（WER）和UTMOS，以及兩個(gè)主觀指標(biāo)（CMOS、SMOS）上都極具競(jìng)爭(zhēng)力，達(dá)到了零樣本語(yǔ)音合成模型的SOTA性能水平，同時(shí)顯著減少了模型參數(shù)量，加快了推理速度。?

小米官方表示，ZipVoice零樣本語(yǔ)音合成模型具備了低參數(shù)量、高推理速度、高語(yǔ)音質(zhì)量三大優(yōu)點(diǎn)，ZipVoice-Dialog提供了又快又穩(wěn)又好的對(duì)話語(yǔ)音合成新方案。ZipVoice系列模型為輕量化、高速度要求的語(yǔ)音交互應(yīng)用場(chǎng)景提供了新的解決方案。?

此外，小米表示未來(lái)團(tuán)隊(duì)將持續(xù)對(duì)ZipVoice系列模型進(jìn)行優(yōu)化，致力于讓每一個(gè)人都能享受到低成本高質(zhì)量的語(yǔ)音合成技術(shù)。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

標(biāo)簽:

ZipVoice系列語(yǔ)音合成TTS模型

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

小米AI實(shí)驗(yàn)室發(fā)布ZipVoice系列語(yǔ)音合成TTS模型，解決零樣本語(yǔ)音合成痛點(diǎn)

相關(guān)文章

海藝AI正式回歸國(guó)內(nèi)市場(chǎng)，模型系統(tǒng)國(guó)際受贊譽(yù)

國(guó)內(nèi)科技巨頭持續(xù)大力發(fā)展人工智能

The Information：蘋果在將百度AI模型應(yīng)用于中國(guó)市場(chǎng)時(shí)面臨障礙

螞蟻Ling-1T重磅開(kāi)源：萬(wàn)億參數(shù)破效率困局，22項(xiàng)SOTA領(lǐng)跑AI賽道

2025孔子文化節(jié)啟幕：AI數(shù)字孔子全球首發(fā)，千年智慧“破屏”對(duì)話世界

蘋果CEO庫(kù)克稱贊DeepSeek

推薦

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日XR產(chǎn)業(yè)動(dòng)態(tài)回顧

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日AI產(chǎn)業(yè)動(dòng)態(tài)回顧

科技賦能紅色敘事上海大學(xué)牽頭打造建軍百年VR電影同期VR影像展綻放視聽(tīng)魅力

三星Galaxy XR開(kāi)放性解析：側(cè)載優(yōu)勢(shì)與Android XR平臺(tái)競(jìng)爭(zhēng)格局

AI應(yīng)用推薦

熱門

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日XR產(chǎn)業(yè)動(dòng)態(tài)回顧

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日AI產(chǎn)業(yè)動(dòng)態(tài)回顧

友情鏈接

推薦

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日XR產(chǎn)業(yè)動(dòng)態(tài)回顧

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日AI產(chǎn)業(yè)動(dòng)態(tài)回顧

科技賦能紅色敘事上海大學(xué)牽頭打造建軍百年VR電影同期VR影像展綻放視聽(tīng)魅力

三星Galaxy XR開(kāi)放性解析：側(cè)載優(yōu)勢(shì)與Android XR平臺(tái)競(jìng)爭(zhēng)格局