
字節(jié)跳動近日發(fā)布其最新的文本轉(zhuǎn)語音(TTS)模型MegaTTS3。根據(jù)技術(shù)社區(qū)反饋和官方信息,MegaTTS3被譽為語音合成領(lǐng)域的一次重要進步。
MegaTTS3是一款由字節(jié)跳動與浙江大學(xué)合作開發(fā)的開源語音合成工具,其主干模型僅包含 0.45億個參數(shù),相較于傳統(tǒng)大型TTS模型顯得異常輕量。這一設(shè)計不僅降低了計算資源需求,還使其更適合在資源受限的設(shè)備上部署,例如移動設(shè)備或邊緣計算場景。
該模型支持中文和英文語音生成,并具備獨特的中英混合朗讀能力,能夠自然流暢地處理雙語文本。在實際應(yīng)用場景中,無論是雙語教學(xué)材料的音頻制作,還是跨國商務(wù)場景中的語音交互,MegaTTS3 都能輕松應(yīng)對,打破語言切換時可能出現(xiàn)的生硬感。此外,MegaTTS3 還引入了口音強度控制功能,用戶可以通過調(diào)整參數(shù)生成帶有不同程度口音的語音,為個性化語音應(yīng)用提供了更多可能性。比如,語言學(xué)習(xí)者可以利用這一功能,生成帶有特定外語口音的句子,進行口音模仿練習(xí);影視配音愛好者也能借此創(chuàng)造出更貼合角色設(shè)定的語音效果。?
技術(shù)專家在評論中特別指出:“支持口音強度控制,這一點非常亮眼?!盡egaTTS3的輕量級架構(gòu)設(shè)計,其核心TTS Diffusion Transformer 主干網(wǎng)絡(luò)參數(shù)量僅為 0.45B,卻在追求高質(zhì)量語音合成的道路上取得了顯著成效。它不僅能夠生成清晰、自然、韻律豐富的語音,還能學(xué)習(xí)并模仿目標(biāo)說話人的獨特音色,實現(xiàn)高質(zhì)量的語音克隆。在語音合成的過程中,MegaTTS3 通過先進的模型架構(gòu)設(shè)計,將語音分解為內(nèi)容、音色、韻律等獨立屬性進行建模。
音色建模使用全局向量捕捉音色這一隨時間緩慢變化的全局屬性;韻律建模利用基于潛在碼的語言模型,捕捉韻律在句子中快速變化的特性以及局部和長距離依賴關(guān)系;內(nèi)容建?;?VQGAN的聲學(xué)模型生成語譜圖;相位建?;贕AN的聲碼器構(gòu)建相位,無需語言模型參與。?
MegaTTS3 在包含20,000小時語音數(shù)據(jù)的大規(guī)模多領(lǐng)域數(shù)據(jù)集上進行訓(xùn)練,并引入稀疏對齊算法,有效降低了對齊難度,最終實現(xiàn)了高自然度的語音合成。從應(yīng)用前景來看,MegaTTS3 的適用范圍極為廣泛。在語音合成領(lǐng)域,它能為有聲讀物、智能客服等場景提供高質(zhì)量的語音解決方案;在語音編輯方面,創(chuàng)作者可以輕松對語音進行個性化處理;跨語言語音合成場景中,其出色的中英混合朗讀及口音控制能力更是大顯身手。








