Meta新AI模型可以翻譯100多種語言的語音

?? 由 文心大模型 生成的文章摘要

Meta發(fā)布了一款新的人工智能模型,可以翻譯101種不同語言的語音。這代表著其向實時同聲傳譯邁出了關鍵一步。

通常,語音翻譯模型采用多步驟方法。首先,將語音翻譯成文本;然后,將文本翻譯成另一種語言的文本;最后,將翻譯后的文本轉換為新語言的語音。然而這種方法不僅效率低下,而且每一步都可能出現(xiàn)錯誤和誤譯。而Meta新模型SeamlessM4T可以更直接將一種語言的語音翻譯成另一種語言的語音。

Seamless文本翻譯準確率比現(xiàn)有頂級模型高出23%。盡管另一個模型,即谷歌AudioPaLM,在技術上可以翻譯更多語言(113種),但只能將其翻譯成英語。而SeamlessM4T可以翻譯成36種其他語言。

這其中關鍵在于一種稱為并行數據挖掘的過程,該過程從抓取的網絡數據中查找視頻或音頻中的聲音與另一種語言的字幕相匹配的情況;該模型學會了將一種語言中的聲音與另一種語言中匹配的文本片段聯(lián)系;這為模型開辟了一個全新的翻譯示例寶庫。

昆尼皮亞克大學計算機科學教授Chetan Jaiswal表示:“Meta取得了很大的成就,SeamlessM4T支持多種不同的功能,比如文本轉語音、語音轉文本,甚至自動語音識別,僅是支持的語言數量就已是一個巨大的成就?!?/p>

「93913原創(chuàng)內容,轉載請注明出處」