
一種新型人工智能正吸引著數(shù)字世界的目光。它就是Sesame開發(fā)的語音助手。其顯著優(yōu)勢在于能夠?qū)崟r理解并適應(yīng)語境,提供自然流暢且富有表現(xiàn)力的對話。?
Sesame是一家科技公司。其領(lǐng)導(dǎo)團(tuán)隊成員包括Oculus VR聯(lián)合創(chuàng)始人兼前首席執(zhí)行官Brendan Iribe、Ubiquity6 前首席技術(shù)官兼聯(lián)合創(chuàng)始人Ankit Kumar,以及Meta Reality Labs前研究工程總監(jiān)Ryan Brown。?
Sesame秉持這樣一種理念,即對話式人工智能的發(fā)展需要各方通力合作。因此,他們致力于以開源形式發(fā)布研究成果,以推動實驗與開發(fā)。他們的模型將遵循 Apache 2.0 許可證。?
正如他們在其網(wǎng)站發(fā)布的聲明中所解釋的那樣,Sesame的目標(biāo)是“實現(xiàn)‘語音臨場感’,即那種讓口頭交流感覺真實、被理解和受欣賞的神奇特質(zhì)”。為此,他們正在開發(fā)一種對話語音模型(CSM),該模型不僅能夠處理請求,還能真正參與對話。?
Sesame認(rèn)為,實現(xiàn)這一目標(biāo)的四個關(guān)鍵特性分別是:情商(理解用戶情緒)、對話動態(tài)(停頓、節(jié)奏和強調(diào))、情境意識(根據(jù)情況調(diào)整語氣)以及一致的個性(保持可識別的風(fēng)格)。?
此外,該公司承認(rèn)他們尚未創(chuàng)建出能夠滿足這些要求的模型。然而,他們聲稱自己正朝著實現(xiàn)這一目標(biāo)的正確方向前進(jìn)。“我們在多個領(lǐng)域不斷取得進(jìn)展,包括個性、記憶、表現(xiàn)力和恰當(dāng)性。本次演示是我們對話語音生成工作的一部分。這里展示的‘伙伴’經(jīng)過優(yōu)化,變得更加友好且富有表現(xiàn)力,以展現(xiàn)我們方法的潛力?!?
Sesame提到的 “伙伴” 指的是為其語音助手開發(fā)的兩種聲音:瑪雅(Maya)和邁爾斯(Miles)。得益于超過100萬小時的音頻(主要為英語),它們都能夠回答問題,以自然的語調(diào)流暢對話,并展現(xiàn)出豐富的表現(xiàn)力。?
目前,這種對話語音模型僅支持英語。不過,由于訓(xùn)練數(shù)據(jù)集存在污染,它能夠展現(xiàn)出一定的多語言能力。Sesame計劃在未來幾個月內(nèi)將該助手的兼容性擴(kuò)展到20多種語言。?
Sesame的另一項令人驚喜的創(chuàng)新是,該公司正在研發(fā)集成人工智能的眼鏡,以補充其語音助手的功能。據(jù)這家科技公司稱,這款眼鏡的設(shè)計理念是 “可全天佩戴,為您提供高品質(zhì)音頻,并便于您與‘伙伴’一同探索世界”。








