探秘Sesame新型AI語(yǔ)音助手，兼論智能眼鏡創(chuàng)新布局

William — Wed, 16 Apr 2025 14:15:59 +0000

一種新型人工智能正吸引著數(shù)字世界的目光。它就是Sesame開(kāi)發(fā)的語(yǔ)音助手。其顯著優(yōu)勢(shì)在于能夠?qū)崟r(shí)理解并適應(yīng)語(yǔ)境，提供自然流暢且富有表現(xiàn)力的對(duì)話。?

Sesame是一家科技公司。其領(lǐng)導(dǎo)團(tuán)隊(duì)成員包括Oculus VR聯(lián)合創(chuàng)始人兼前首席執(zhí)行官Brendan Iribe、Ubiquity6 前首席技術(shù)官兼聯(lián)合創(chuàng)始人Ankit Kumar，以及Meta Reality Labs前研究工程總監(jiān)Ryan Brown。?

Sesame秉持這樣一種理念，即對(duì)話式人工智能的發(fā)展需要各方通力合作。因此，他們致力于以開(kāi)源形式發(fā)布研究成果，以推動(dòng)實(shí)驗(yàn)與開(kāi)發(fā)。他們的模型將遵循 Apache 2.0 許可證。?

正如他們?cè)谄渚W(wǎng)站發(fā)布的聲明中所解釋的那樣，Sesame的目標(biāo)是“實(shí)現(xiàn)‘語(yǔ)音臨場(chǎng)感’，即那種讓口頭交流感覺(jué)真實(shí)、被理解和受欣賞的神奇特質(zhì)”。為此，他們正在開(kāi)發(fā)一種對(duì)話語(yǔ)音模型（CSM），該模型不僅能夠處理請(qǐng)求，還能真正參與對(duì)話。?

Sesame認(rèn)為，實(shí)現(xiàn)這一目標(biāo)的四個(gè)關(guān)鍵特性分別是：情商（理解用戶情緒）、對(duì)話動(dòng)態(tài)（停頓、節(jié)奏和強(qiáng)調(diào)）、情境意識(shí)（根據(jù)情況調(diào)整語(yǔ)氣）以及一致的個(gè)性（保持可識(shí)別的風(fēng)格）。?

此外，該公司承認(rèn)他們尚未創(chuàng)建出能夠滿足這些要求的模型。然而，他們聲稱自己正朝著實(shí)現(xiàn)這一目標(biāo)的正確方向前進(jìn)?！拔覀?cè)诙鄠€(gè)領(lǐng)域不斷取得進(jìn)展，包括個(gè)性、記憶、表現(xiàn)力和恰當(dāng)性。本次演示是我們對(duì)話語(yǔ)音生成工作的一部分。這里展示的‘伙伴’經(jīng)過(guò)優(yōu)化，變得更加友好且富有表現(xiàn)力，以展現(xiàn)我們方法的潛力?！?

Sesame提到的 “伙伴” 指的是為其語(yǔ)音助手開(kāi)發(fā)的兩種聲音：瑪雅（Maya）和邁爾斯（Miles）。得益于超過(guò)100萬(wàn)小時(shí)的音頻（主要為英語(yǔ)），它們都能夠回答問(wèn)題，以自然的語(yǔ)調(diào)流暢對(duì)話，并展現(xiàn)出豐富的表現(xiàn)力。?

目前，這種對(duì)話語(yǔ)音模型僅支持英語(yǔ)。不過(guò)，由于訓(xùn)練數(shù)據(jù)集存在污染，它能夠展現(xiàn)出一定的多語(yǔ)言能力。Sesame計(jì)劃在未來(lái)幾個(gè)月內(nèi)將該助手的兼容性擴(kuò)展到20多種語(yǔ)言。?

Sesame的另一項(xiàng)令人驚喜的創(chuàng)新是，該公司正在研發(fā)集成人工智能的眼鏡，以補(bǔ)充其語(yǔ)音助手的功能。據(jù)這家科技公司稱，這款眼鏡的設(shè)計(jì)理念是 “可全天佩戴，為您提供高品質(zhì)音頻，并便于您與‘伙伴’一同探索世界”。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

谷歌面向iPhone推出AI語(yǔ)音助手Gemini Live

William — Fri, 15 Nov 2024 23:17:36 +0000

谷歌周四在蘋果應(yīng)用商店發(fā)布了一款人工智能聊天機(jī)器人APP，將該最新一代語(yǔ)音助手引入到這一流行的移動(dòng)操作系統(tǒng)之中。

新的Gemini應(yīng)用將包括Gemini Live，這是一項(xiàng)基于語(yǔ)音的功能，可讓用戶與聊天機(jī)器人進(jìn)行自然對(duì)話。蘋果已經(jīng)表示將把ChatGPT整合到其語(yǔ)音助手Siri的更新版本中。

谷歌產(chǎn)品管理高級(jí)總監(jiān)Brian Marquardt表示：“當(dāng)想為即將到來(lái)的面試進(jìn)行練習(xí)、詢問(wèn)在新城市可以做的事情的建議，或者集思廣益并提出創(chuàng)意想法時(shí)，這個(gè)應(yīng)用非常有用。”

Gemini是谷歌針對(duì)ChatGPT推出的一款應(yīng)用，谷歌最初于2023年2月以Bard的名義推出了這款應(yīng)用，此后在經(jīng)歷爭(zhēng)議的同時(shí)增加了更多功能。

谷歌在8月份的一次活動(dòng)中宣布了該語(yǔ)音功能，并首次將其添加到搭載Android移動(dòng)操作系統(tǒng)的手機(jī)中。

大型語(yǔ)言模型的興起推動(dòng)了人工智能技術(shù)的進(jìn)步，催生了新一代語(yǔ)音助手的出現(xiàn)，其功能遠(yuǎn)超亞馬遜Alexa、蘋果Siri和谷歌助手。

谷歌Gemini Live是Assistant的替代品，Assistant是一款已有八年歷史的產(chǎn)品，使用較舊的AI技術(shù)構(gòu)建。

此后，谷歌進(jìn)一步整合。上個(gè)月，該公司將Gemini應(yīng)用團(tuán)隊(duì)并入了其人工智能研究實(shí)驗(yàn)室 DeepMind，首席執(zhí)行官Sundar Pichai也將此舉歸因于提高效率。

據(jù)路透社本周報(bào)道，DeepMind是實(shí)施新技術(shù)以改進(jìn)人工智能模型的研究機(jī)構(gòu)之一，因?yàn)闃?gòu)建越來(lái)越大模型的傳統(tǒng)方法遇到了意想不到的延遲和挑戰(zhàn)。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

国产无人区卡一卡二卡三乱码网站,又湿又紧又大又爽a视频国产,在线精品国产一区二区三区

探秘Sesame新型AI語(yǔ)音助手，兼論智能眼鏡創(chuàng)新布局

谷歌面向iPhone推出AI語(yǔ)音助手Gemini Live

探秘Sesame新型AI語(yǔ)音助手，兼論智能眼鏡創(chuàng)新布局