OpenAI推出全新一代音頻模型,提升語音交互體驗

?? 由 文心大模型 生成的文章摘要

OpenAI在其API中發(fā)布了全新一代音頻模型,為語音轉(zhuǎn)文本和文本轉(zhuǎn)語音功能帶來了重大升級。這些模型包括gpt – 4o – transcribe、gpt – 4o – mini – transcribe和gpt – 4o – mini – tts,基于GPT – 4o和GPT – 4o – mini架構(gòu)構(gòu)建,運用了一系列創(chuàng)新技術(shù),旨在為開發(fā)者和用戶提供更高效、準(zhǔn)確和個性化的語音交互體驗。目前,這些模型已面向全球開發(fā)者開放。?

在語音轉(zhuǎn)文本方面,新推出gpt – 4o – transcribe模型表現(xiàn)卓越。與現(xiàn)有的Whisper模型相比,它在多個基準(zhǔn)測試中展現(xiàn)出更低的單詞錯誤率,尤其是在處理口音多樣、環(huán)境嘈雜等具有挑戰(zhàn)性的場景時優(yōu)勢明顯。OpenAI在其官網(wǎng)上發(fā)布的圖表顯示,gpt – 4o – transcribe在識別33 種語言的單詞時,錯誤率顯著降低,其中英語的錯誤率低至2.46%。這一成果得益于模型內(nèi)置的噪聲消除和語義語音活動檢測器,它們能夠有效判斷說話者何時結(jié)束表達,從而提高轉(zhuǎn)錄的準(zhǔn)確性。?

為了滿足資源有限但仍需要高質(zhì)量語音識別的場景需求,OpenAI還推出了gpt – 4o – mini – transcribe模型。作為gpt – 4o – transcribe的精簡版本,它在保證一定準(zhǔn)確性的同時,速度更快、效率更高。這使得開發(fā)者在一些對資源消耗敏感的應(yīng)用中,也能夠輕松集成高質(zhì)量的語音識別功能。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」