聲網在AWE2025推出對話式AI開發(fā)套件并開源

?? 由 文心大模型 生成的文章摘要

在AWE2025上,實時互動云服務商聲網成為了眾人矚目的焦點。此次展會上,聲網正式推出了對話式AI開發(fā)套件,這一創(chuàng)新產品旨在助力智能硬件開發(fā)者打造具有卓越AI實時語音交互功能的產品,為用戶帶來前所未有的人機實時互動體驗。更為引人注目的是,聲網宣布該對話式AI開發(fā)套件的軟硬件將全面開源,這一舉措無疑將在行業(yè)內掀起一陣新的浪潮。?

聲網的對話式AI開發(fā)套件是與芯片制造商博通集成(Beken)強強聯合的成果。該套件基于博通集成的高性能AI芯片 BK7258,并融合了聲網深度優(yōu)化的對話式AI引擎,從而構建起一套完整的端側實時交互系統(tǒng)。對于智能硬件開發(fā)者及制造商而言,這一套件提供了 “對話式AI+ 硬件芯片開發(fā)” 的一站式解決方案,極大地簡化了開發(fā)流程。?

該開發(fā)套件在技術層面具備諸多顯著優(yōu)勢。在語音活動檢測(VAD)、實時語音混合、智能打斷處理等先進技術和方案的支持下,其展現出五大突出特性。其一,AI對話體驗幾乎可以媲美真人交互。

聲網對話式AI開發(fā)套件能夠將AI與用戶對話的延遲降低至 650ms,打斷響應更是低至 340ms,如此低的延遲使得對話過程宛如真人聊天一般自然流暢。同時,其精準的語音識別能力,即便是在復雜的環(huán)境中,也能夠準確無誤地獲取用戶指令。其二,在多模態(tài)交互支持方面表現出色。它不僅提供了豐富多樣的接口,還支持文本、視頻、觸控等多種交互方式,成功打造出集聽、說、看、觸于一體的交互形態(tài),充分滿足了開發(fā)者和用戶多樣化的需求。

其三,在當下開源成為主流趨勢的背景下,開發(fā)者無需再耗費高昂的成本進行AI大模型的自研,接入其他企業(yè)開發(fā)的AI大模型變得更加省時省力。聲網對話式AI開發(fā)套件兼容通義千問、豆包、DeepSeek 等國內常見的AI大模型,同時也允許開發(fā)者接入自己研發(fā)的大模型,給予了開發(fā)者極為豐富和自由的選擇空間。其四,能夠幫助開發(fā)者大幅縮短產品開發(fā)周期。由于該AI開發(fā)套件的軟硬件全面開源,開發(fā)者只需下載開源代碼,便可輕松將AI能力集成到自己的硬件設備中。

據聲網介紹,開發(fā)者1小時即可跑通Demo,1天就能完成產品原型送樣,這無疑大大縮短了產品的開發(fā)周期,降低了產品開發(fā)成本。此外,該套件采用了低功耗設計方案,能夠實現超長待機,有效解決了移動便攜類產品的續(xù)航焦慮問題,進一步擴大了其適用范圍。?

聲網對話式AI開發(fā)套件的應用場景十分廣泛,涵蓋了AI玩具、AI教育硬件、AI陪伴設備、家庭語音助手、穿戴設備-個人助手等多個領域。在AI教育硬件領域,它能夠通過更準確的語音識別和更智能的人機交互,幫助學生更高效地學習;家庭語音助手借助該套件,可以更好地理解家庭成員的指令,提升家庭生活的便捷度;穿戴設備-個人助手則能在用戶的日?;顒又?,隨時提供精準的服務,提高工作效率。例如,AI情感陪伴機器人初創(chuàng)公司珞博 Robopoet此前發(fā)布的口袋AI毛絨寵物Fuzzoo,便搭載了聲網的對話式AI技術,為用戶提供了個性化交互體驗。

「93913原創(chuàng)內容,轉載請注明出處」