
小紅書(shū)智創(chuàng)音頻技術(shù)團(tuán)隊(duì)正式對(duì)外發(fā)布新一代對(duì)話合成模型——FireRedTTS-2。這款全新模型的推出,不僅是團(tuán)隊(duì)在音頻技術(shù)領(lǐng)域的又一次重要突破,更針對(duì)當(dāng)前對(duì)話合成領(lǐng)域普遍存在的靈活性差、發(fā)音錯(cuò)誤多等核心痛點(diǎn),給出了極具創(chuàng)新性的解決方案,為行業(yè)發(fā)展注入新的活力。?
在當(dāng)前的對(duì)話合成技術(shù)應(yīng)用場(chǎng)景中,諸多方案面臨著難以忽視的問(wèn)題。一方面,靈活性不足成為制約技術(shù)落地的關(guān)鍵瓶頸。傳統(tǒng)模型在應(yīng)對(duì)不同場(chǎng)景、不同風(fēng)格的語(yǔ)音合成需求時(shí),往往需要進(jìn)行大量的參數(shù)調(diào)整和模型適配,不僅耗時(shí)耗力,還難以快速響應(yīng)多樣化的用戶需求。比如在電商直播場(chǎng)景中,主播可能需要時(shí)而親切活潑、時(shí)而專(zhuān)業(yè)嚴(yán)謹(jǐn)?shù)恼Z(yǔ)音風(fēng)格,傳統(tǒng)模型很難在這兩種風(fēng)格之間實(shí)現(xiàn)無(wú)縫切換,導(dǎo)致用戶體驗(yàn)大打折扣。另一方面,發(fā)音錯(cuò)誤頻發(fā)的問(wèn)題也嚴(yán)重影響著合成語(yǔ)音的質(zhì)量。無(wú)論是生僻字、多音字的發(fā)音偏差,還是特定領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的不準(zhǔn)確朗讀,都讓合成語(yǔ)音顯得不夠自然、專(zhuān)業(yè),難以滿足教育、醫(yī)療、金融等對(duì)語(yǔ)音準(zhǔn)確性要求極高的領(lǐng)域需求。?
為攻克這些痛點(diǎn),小紅書(shū)智創(chuàng)音頻技術(shù)團(tuán)隊(duì)進(jìn)行了大量的研發(fā)與探索,最終通過(guò)兩大核心技術(shù)升級(jí),實(shí)現(xiàn)了FireRedTTS-2合成效果的跨越式提升。首先,團(tuán)隊(duì)對(duì)離散語(yǔ)音編碼器進(jìn)行了全面升級(jí)。新一代的離散語(yǔ)音編碼器能夠更精準(zhǔn)地捕捉語(yǔ)音的細(xì)微特征,包括語(yǔ)調(diào)、語(yǔ)氣、節(jié)奏等,將語(yǔ)音信息轉(zhuǎn)化為更豐富、更細(xì)膩的離散表征。這一升級(jí)使得模型在處理不同風(fēng)格、不同情感的語(yǔ)音合成任務(wù)時(shí),能夠更好地還原真實(shí)人類(lèi)的語(yǔ)音特點(diǎn),極大地提升了合成語(yǔ)音的自然度和靈活性。例如,在合成故事朗讀語(yǔ)音時(shí),模型能夠根據(jù)故事情節(jié)的發(fā)展,自動(dòng)調(diào)整語(yǔ)調(diào)的高低起伏和語(yǔ)速的快慢,讓聽(tīng)眾仿佛置身于真實(shí)的故事場(chǎng)景中。?
其次,文本語(yǔ)音合成模型的優(yōu)化也是FireRedTTS-2的一大亮點(diǎn)。團(tuán)隊(duì)針對(duì)文本處理環(huán)節(jié)進(jìn)行了深度優(yōu)化,引入了更先進(jìn)的文本分析算法,能夠更準(zhǔn)確地理解文本的語(yǔ)義、語(yǔ)法結(jié)構(gòu)以及多音字、生僻字的正確發(fā)音規(guī)則。同時(shí),模型還結(jié)合了海量的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,不斷提升對(duì)不同領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的發(fā)音準(zhǔn)確性。在實(shí)際測(cè)試中,F(xiàn)ireRedTTS-2在處理包含大量專(zhuān)業(yè)術(shù)語(yǔ)的科技文獻(xiàn)朗讀任務(wù)時(shí),發(fā)音準(zhǔn)確率較傳統(tǒng)模型提升了超過(guò)20%,有效解決了傳統(tǒng)模型發(fā)音錯(cuò)誤多的問(wèn)題。?
憑借著這兩大核心技術(shù)升級(jí),F(xiàn)ireRedTTS-2在多項(xiàng)主客觀測(cè)評(píng)中均展現(xiàn)出行業(yè)領(lǐng)先的水平。在客觀測(cè)評(píng)方面,模型在語(yǔ)音自然度、發(fā)音準(zhǔn)確率、語(yǔ)速穩(wěn)定性等關(guān)鍵指標(biāo)上,均大幅超越行業(yè)平均水平,部分指標(biāo)甚至達(dá)到了當(dāng)前行業(yè)的最高標(biāo)準(zhǔn)。其中,語(yǔ)音自然度得分較上一代模型提升了15%,發(fā)音準(zhǔn)確率更是高達(dá)98.5%,幾乎可以媲美專(zhuān)業(yè)播音員的發(fā)音水平。在主觀測(cè)評(píng)中,團(tuán)隊(duì)邀請(qǐng)了不同年齡段、不同職業(yè)背景的用戶對(duì)模型合成的語(yǔ)音進(jìn)行評(píng)價(jià),結(jié)果顯示,超過(guò)90%的用戶認(rèn)為FireRedTTS-2合成的語(yǔ)音在自然度和可聽(tīng)性上,與人類(lèi)真實(shí)語(yǔ)音幾乎沒(méi)有差異,在處理多樣化語(yǔ)音需求時(shí)的表現(xiàn)也得到了用戶的廣泛認(rèn)可。








