
Rokid Glasses AR+AI眼鏡于去年11月發(fā)布,用戶通過戒指的輕觸即可控制提詞翻頁。然而,這種操作方式在實際使用中存在一定的局限性,例如手動操作容易分散用戶的注意力,特別是在重要演講場合,用戶可能因擔心操作失誤而影響演講表現(xiàn);同時,固定的翻頁節(jié)奏無法根據(jù)演講者的實際語速和節(jié)奏進行靈活調整,導致提詞與演講不同步,影響演講的流暢性。?
基于這些使用痛點,Rokid研發(fā)團隊宣布近日提交了一份 “一種基于智能算法的提詞器功能” 的專利,可以根據(jù)演講者的語速和演講節(jié)奏自動匹配文稿。其核心技術在于將演講者的語言表達與文稿滾動實現(xiàn)無縫同步,解決了傳統(tǒng)提詞系統(tǒng)的頑疾。?
Rokid的新專利通過三項核心技術構建了智能提詞系統(tǒng):
多模態(tài)語音識別引擎系統(tǒng):采用端到端的深度神經網(wǎng)絡模型,可實時解析演講者的語音內容。其創(chuàng)新之處在于:?
方言兼容性:除普通話外,也支持多種方言,滿足多語言場景需求。這對于來自不同地區(qū)、習慣使用方言演講的用戶來說,極大地提高了提詞器的實用性,不再受限于標準普通話,讓交流更加自然順暢。?
抗干擾能力:在45分貝背景噪音下仍保持98%的識別準確率。即使在較為嘈雜的環(huán)境中,如室外演講、現(xiàn)場有一定背景音的活動等,該系統(tǒng)也能精準識別演講者的語音,確保提詞的準確性,不會因外界干擾而出現(xiàn)錯誤或延遲。?
非線性識別:能精準捕捉重復朗讀、跳躍式朗讀等非常規(guī)表達,如演講者突然回顧前文或跳讀關鍵段落時,系統(tǒng)能智能判斷意圖并調整文稿位置。當演講者根據(jù)現(xiàn)場氛圍和自身思路靈活調整演講順序時,提詞器也能及時跟上,避免出現(xiàn)文稿與演講內容脫節(jié)的情況。?
動態(tài)語速適配算法:該算法構建了 “語速-文本密度” 的動態(tài)映射模型:?
實時語速追蹤:每0.5秒更新一次語速數(shù)據(jù),覆蓋80-200字/分鐘的寬泛區(qū)間(覆蓋99%的演講場景)。無論演講者語速是快是慢,系統(tǒng)都能迅速感知并做出相應調整,使文稿滾動速度與演講者語速完美匹配,避免出現(xiàn)提詞過快或過慢的問題。?
彈性緩沖機制:當檢測到5秒以上停頓時,系統(tǒng)自動暫停并標記當前位置,恢復時通過上下文語義分析定位正確段落。在演講者進行較長時間停頓,如思考、與觀眾互動后,系統(tǒng)能夠準確記住停頓位置,待演講繼續(xù)時,從正確的地方繼續(xù)提詞,保證演講的連貫性。?
多場景演講匹配算法:多場景匹配算法結合,滿足演講場景的全方位交互需求:?
精準匹配算法:演講者無論是跳詞還是漏字,都能精準地匹配到正在閱讀的語句。即使演講者在緊張狀態(tài)下出現(xiàn)口誤或表達不規(guī)范,系統(tǒng)也能準確理解其想要表達的內容,持續(xù)提供準確的提詞服務。?
模糊匹配算法:演講過程中,演講者脫稿即興發(fā)揮或與觀眾無稿交流時,匹配算法將暫停,不影響演講者的節(jié)奏,當演講者回到演講稿中,匹配算法會立即識別,繼續(xù)精準匹配。這種智能的切換機制,讓演講者在需要時能自由發(fā)揮,又能在回歸文稿時無縫銜接提詞功能,極大地提升了演講的自然度和流暢性。?
Rokid Glasses AR+AI眼鏡的這一創(chuàng)新專利,有望為用戶帶來更加便捷、高效、自然的演講提詞體驗,進一步推動 AR+AI 技術在實際應用場景中的普及和發(fā)展。








