Meta發(fā)布了一款新的人工智能模型,可以翻譯101種不同語(yǔ)言的語(yǔ)音。這代表著其向?qū)崟r(shí)同聲傳譯邁出了關(guān)鍵一步。
通常,語(yǔ)音翻譯模型采用多步驟方法。首先,將語(yǔ)音翻譯成文本;然后,將文本翻譯成另一種語(yǔ)言的文本;最后,將翻譯后的文本轉(zhuǎn)換為新語(yǔ)言的語(yǔ)音。然而這種方法不僅效率低下,而且每一步都可能出現(xiàn)錯(cuò)誤和誤譯。而Meta新模型SeamlessM4T可以更直接將一種語(yǔ)言的語(yǔ)音翻譯成另一種語(yǔ)言的語(yǔ)音。
Seamless文本翻譯準(zhǔn)確率比現(xiàn)有頂級(jí)模型高出23%。盡管另一個(gè)模型,即谷歌AudioPaLM,在技術(shù)上可以翻譯更多語(yǔ)言(113種),但只能將其翻譯成英語(yǔ)。而SeamlessM4T可以翻譯成36種其他語(yǔ)言。
這其中關(guān)鍵在于一種稱(chēng)為并行數(shù)據(jù)挖掘的過(guò)程,該過(guò)程從抓取的網(wǎng)絡(luò)數(shù)據(jù)中查找視頻或音頻中的聲音與另一種語(yǔ)言的字幕相匹配的情況;該模型學(xué)會(huì)了將一種語(yǔ)言中的聲音與另一種語(yǔ)言中匹配的文本片段聯(lián)系;這為模型開(kāi)辟了一個(gè)全新的翻譯示例寶庫(kù)。
昆尼皮亞克大學(xué)計(jì)算機(jī)科學(xué)教授Chetan Jaiswal表示:“Meta取得了很大的成就,SeamlessM4T支持多種不同的功能,比如文本轉(zhuǎn)語(yǔ)音、語(yǔ)音轉(zhuǎn)文本,甚至自動(dòng)語(yǔ)音識(shí)別,僅是支持的語(yǔ)言數(shù)量就已是一個(gè)巨大的成就?!?/p>