一種新型人工智能正吸引著數(shù)字世界的目光。它就是Sesame開(kāi)發(fā)的語(yǔ)音助手。其顯著優(yōu)勢(shì)在于能夠?qū)崟r(shí)理解并適應(yīng)語(yǔ)境,提供自然流暢且富有表現(xiàn)力的對(duì)話。?
Sesame是一家科技公司。其領(lǐng)導(dǎo)團(tuán)隊(duì)成員包括Oculus VR聯(lián)合創(chuàng)始人兼前首席執(zhí)行官Brendan Iribe、Ubiquity6 前首席技術(shù)官兼聯(lián)合創(chuàng)始人Ankit Kumar,以及Meta Reality Labs前研究工程總監(jiān)Ryan Brown。?
Sesame秉持這樣一種理念,即對(duì)話式人工智能的發(fā)展需要各方通力合作。因此,他們致力于以開(kāi)源形式發(fā)布研究成果,以推動(dòng)實(shí)驗(yàn)與開(kāi)發(fā)。他們的模型將遵循 Apache 2.0 許可證。?
正如他們?cè)谄渚W(wǎng)站發(fā)布的聲明中所解釋的那樣,Sesame的目標(biāo)是“實(shí)現(xiàn)‘語(yǔ)音臨場(chǎng)感’,即那種讓口頭交流感覺(jué)真實(shí)、被理解和受欣賞的神奇特質(zhì)”。為此,他們正在開(kāi)發(fā)一種對(duì)話語(yǔ)音模型(CSM),該模型不僅能夠處理請(qǐng)求,還能真正參與對(duì)話。?
Sesame認(rèn)為,實(shí)現(xiàn)這一目標(biāo)的四個(gè)關(guān)鍵特性分別是:情商(理解用戶情緒)、對(duì)話動(dòng)態(tài)(停頓、節(jié)奏和強(qiáng)調(diào))、情境意識(shí)(根據(jù)情況調(diào)整語(yǔ)氣)以及一致的個(gè)性(保持可識(shí)別的風(fēng)格)。?
此外,該公司承認(rèn)他們尚未創(chuàng)建出能夠滿足這些要求的模型。然而,他們聲稱自己正朝著實(shí)現(xiàn)這一目標(biāo)的正確方向前進(jìn)?!拔覀?cè)诙鄠€(gè)領(lǐng)域不斷取得進(jìn)展,包括個(gè)性、記憶、表現(xiàn)力和恰當(dāng)性。本次演示是我們對(duì)話語(yǔ)音生成工作的一部分。這里展示的‘伙伴’經(jīng)過(guò)優(yōu)化,變得更加友好且富有表現(xiàn)力,以展現(xiàn)我們方法的潛力?!?
Sesame提到的 “伙伴” 指的是為其語(yǔ)音助手開(kāi)發(fā)的兩種聲音:瑪雅(Maya)和邁爾斯(Miles)。得益于超過(guò)100萬(wàn)小時(shí)的音頻(主要為英語(yǔ)),它們都能夠回答問(wèn)題,以自然的語(yǔ)調(diào)流暢對(duì)話,并展現(xiàn)出豐富的表現(xiàn)力。?
目前,這種對(duì)話語(yǔ)音模型僅支持英語(yǔ)。不過(guò),由于訓(xùn)練數(shù)據(jù)集存在污染,它能夠展現(xiàn)出一定的多語(yǔ)言能力。Sesame計(jì)劃在未來(lái)幾個(gè)月內(nèi)將該助手的兼容性擴(kuò)展到20多種語(yǔ)言。?
Sesame的另一項(xiàng)令人驚喜的創(chuàng)新是,該公司正在研發(fā)集成人工智能的眼鏡,以補(bǔ)充其語(yǔ)音助手的功能。據(jù)這家科技公司稱,這款眼鏡的設(shè)計(jì)理念是 “可全天佩戴,為您提供高品質(zhì)音頻,并便于您與‘伙伴’一同探索世界”。
谷歌周四在蘋果應(yīng)用商店發(fā)布了一款人工智能聊天機(jī)器人APP,將該最新一代語(yǔ)音助手引入到這一流行的移動(dòng)操作系統(tǒng)之中。
新的Gemini應(yīng)用將包括Gemini Live,這是一項(xiàng)基于語(yǔ)音的功能,可讓用戶與聊天機(jī)器人進(jìn)行自然對(duì)話。蘋果已經(jīng)表示將把ChatGPT整合到其語(yǔ)音助手Siri的更新版本中。
谷歌產(chǎn)品管理高級(jí)總監(jiān)Brian Marquardt表示:“當(dāng)想為即將到來(lái)的面試進(jìn)行練習(xí)、詢問(wèn)在新城市可以做的事情的建議,或者集思廣益并提出創(chuàng)意想法時(shí),這個(gè)應(yīng)用非常有用。”
Gemini是谷歌針對(duì)ChatGPT推出的一款應(yīng)用,谷歌最初于2023年2月以Bard的名義推出了這款應(yīng)用,此后在經(jīng)歷爭(zhēng)議的同時(shí)增加了更多功能。
谷歌在8月份的一次活動(dòng)中宣布了該語(yǔ)音功能,并首次將其添加到搭載Android移動(dòng)操作系統(tǒng)的手機(jī)中。
大型語(yǔ)言模型的興起推動(dòng)了人工智能技術(shù)的進(jìn)步,催生了新一代語(yǔ)音助手的出現(xiàn),其功能遠(yuǎn)超亞馬遜Alexa、蘋果Siri和谷歌助手。
谷歌Gemini Live是Assistant的替代品,Assistant是一款已有八年歷史的產(chǎn)品,使用較舊的AI技術(shù)構(gòu)建。
此后,谷歌進(jìn)一步整合。上個(gè)月,該公司將Gemini應(yīng)用團(tuán)隊(duì)并入了其人工智能研究實(shí)驗(yàn)室 DeepMind,首席執(zhí)行官Sundar Pichai也將此舉歸因于提高效率。
據(jù)路透社本周報(bào)道,DeepMind是實(shí)施新技術(shù)以改進(jìn)人工智能模型的研究機(jī)構(gòu)之一,因?yàn)闃?gòu)建越來(lái)越大模型的傳統(tǒng)方法遇到了意想不到的延遲和挑戰(zhàn)。