
小米集團(tuán)AI實(shí)驗(yàn)室宣布,旗下Kaldi團(tuán)隊(duì)上個(gè)月發(fā)布了基于FlowMatching架構(gòu)的ZipVoice系列語(yǔ)音合成(TTS)模型,包括ZipVoice(零樣本單說(shuō)話人語(yǔ)音合成模型)、ZipVoice-Dialog(零樣本對(duì)話語(yǔ)音合成模型)。?
據(jù)官方介紹,作為zipformer在語(yǔ)音生成任務(wù)上的應(yīng)用和探索,ZipVoice解決了現(xiàn)有零樣本語(yǔ)音合成模型的參數(shù)量大、合成速度慢的痛點(diǎn),在輕量化建模和推理加速上取得了重要突破。ZipVoice-Dialog則解決了現(xiàn)有對(duì)話語(yǔ)音合成模型在穩(wěn)定性和推理速度上的瓶頸,實(shí)現(xiàn)了又快又穩(wěn)又自然的語(yǔ)音對(duì)話合成。?
從小米官方獲悉,ZipVoice首次將原本為自動(dòng)語(yǔ)音識(shí)別(ASR)設(shè)計(jì)的Zipformer架構(gòu)引入TTS任務(wù)作為模型的骨干網(wǎng)絡(luò),Zipformer中的三大設(shè)計(jì):基于U-Net的多尺度高效率結(jié)構(gòu)、卷積與注意力機(jī)制的協(xié)同處理、以及注意力權(quán)重的多次復(fù)用都高度適配語(yǔ)音合成任務(wù),從而實(shí)現(xiàn)了語(yǔ)音合成模型的高效建模。得益于這一設(shè)計(jì),相比基于DiT的語(yǔ)音合成模型,在性能相似的情況下,ZipVoice的參數(shù)量減少了約63%。?
性能方面,ZipVoice和ZipVoice-Distill在具備更小參數(shù)量和更快推理速度的同時(shí),在三個(gè)客觀指標(biāo),即說(shuō)話人相似度(SIM-o)、詞錯(cuò)誤率(WER)和UTMOS,以及兩個(gè)主觀指標(biāo)(CMOS、SMOS)上都極具競(jìng)爭(zhēng)力,達(dá)到了零樣本語(yǔ)音合成模型的SOTA性能水平,同時(shí)顯著減少了模型參數(shù)量,加快了推理速度。?
小米官方表示,ZipVoice零樣本語(yǔ)音合成模型具備了低參數(shù)量、高推理速度、高語(yǔ)音質(zhì)量三大優(yōu)點(diǎn),ZipVoice-Dialog提供了又快又穩(wěn)又好的對(duì)話語(yǔ)音合成新方案。ZipVoice系列模型為輕量化、高速度要求的語(yǔ)音交互應(yīng)用場(chǎng)景提供了新的解決方案。?
此外,小米表示未來(lái)團(tuán)隊(duì)將持續(xù)對(duì)ZipVoice系列模型進(jìn)行優(yōu)化,致力于讓每一個(gè)人都能享受到低成本高質(zhì)量的語(yǔ)音合成技術(shù)。








