英偉達推出超強開源ASR模型Parakeet TDT 0.6B,1秒處理60分鐘音頻

?? 由 文心大模型 生成的文章摘要

5月6日科技媒體marktechpost報道,英偉達于近期推出了一款極為先進的自動語音識別(ASR)模型——Parakeet TDT 0.6B,目前該模型已在Hugging Face平臺上完全開源,引發(fā)了業(yè)內(nèi)廣泛關注。?

Parakeet TDT 0.6B最大的亮點便是其驚人的速度與卓越的轉(zhuǎn)錄質(zhì)量。令人驚嘆的是,該模型僅需短短1秒,就能輕松處理長達60分鐘的音頻,這一速度堪稱現(xiàn)有主流開源ASR典型模型的50倍之多。在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B同樣表現(xiàn)亮眼,其字錯率(WER)低至6.05%,在眾多開源模型中脫穎而出,成績斐然。如此出色的性能,無疑為實時轉(zhuǎn)錄、語音分析、呼叫中心智能以及音頻內(nèi)容索引等企業(yè)級應用提供了強有力的支持。?

從技術架構(gòu)層面來看,Parakeet TDT 0.6B基于Transformer架構(gòu)構(gòu)建。Transformer架構(gòu)是一種基于自注意力(Self – Attention)機制的深度學習模型,于2017年由Vaswani等人在論文《Attention Is All You Need》中首次提出。該架構(gòu)摒棄了傳統(tǒng)的循環(huán)和卷積結(jié)構(gòu),通過自注意力機制和多頭注意力來捕捉序列內(nèi)部的依賴關系,并利用位置編碼引入位置信息,能夠有效地處理序列到序列的任務,捕捉輸入序列中的長距離依賴關系。Parakeet TDT 0.6B 在此基礎上,結(jié)合高質(zhì)量轉(zhuǎn)錄數(shù)據(jù)進行了精細微調(diào),并且針對英偉達硬件進行了推理優(yōu)化,充分發(fā)揮硬件性能優(yōu)勢。?

該模型采用了6億參數(shù)的編碼-解碼結(jié)構(gòu),同時運用量化和融合內(nèi)核技術來進一步提升推理效率。不僅如此,它還支持TDT(Transducer Decoder Transformer)架構(gòu),并具備精確的時間戳、數(shù)字格式化以及標點恢復等實用功能。值得一提的是,Parakeet TDT 0.6B開創(chuàng)性地支持歌曲轉(zhuǎn)歌詞轉(zhuǎn)錄功能,這在同類模型中十分罕見。這一獨特功能極大地拓展了音樂索引和媒體平臺的應用場景。依托英偉達的 TensorRT和FP8量化技術,該模型的實時率(Real Time Factor,RTF,即模型處理時間和音頻長度的比值)高達3386。
?
除了在速度和精度上表現(xiàn)卓越,Parakeet TDT 0.6B還內(nèi)置了多項特色功能。將歌曲內(nèi)容準確轉(zhuǎn)為歌詞的功能,使其在音樂和媒體領域大有用武之地;支持數(shù)字和時間戳格式化,對于會議記錄、法律轉(zhuǎn)錄以及醫(yī)療記錄等場景而言,能夠顯著提升記錄的可讀性;標點恢復功能則對下游自然語言處理(NLP)應用的表現(xiàn)起到了增強作用。這些實用特性全方位提升了轉(zhuǎn)錄質(zhì)量,大大減輕了后期處理或人工編輯的負擔,尤其適用于企業(yè)級的大規(guī)模部署。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」