制服丝袜中文字幕在线,中文字幕,欧美,日韩在线啊v http://pinmang.cn 93913成立于2015年9月13日,是目前國內最早且最具知名度和影響力的元宇宙&AI產業(yè)服務商,通過93913為用戶提供信息服務以及元宇宙&AI領域相關廠商提供整體品牌傳播、發(fā)布會、開發(fā)者大賽、連接商業(yè)項目以及FA投融資顧問等服務。 Wed, 07 May 2025 16:07:53 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 英偉達推出超強開源ASR模型Parakeet TDT 0.6B,1秒處理60分鐘音頻 http://pinmang.cn/110612.html http://pinmang.cn/110612.html#respond Wed, 07 May 2025 16:07:53 +0000 http://pinmang.cn/?p=110612

5月6日科技媒體marktechpost報道,英偉達于近期推出了一款極為先進的自動語音識別(ASR)模型——Parakeet TDT 0.6B,目前該模型已在Hugging Face平臺上完全開源,引發(fā)了業(yè)內廣泛關注。?

Parakeet TDT 0.6B最大的亮點便是其驚人的速度與卓越的轉錄質量。令人驚嘆的是,該模型僅需短短1秒,就能輕松處理長達60分鐘的音頻,這一速度堪稱現有主流開源ASR典型模型的50倍之多。在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B同樣表現亮眼,其字錯率(WER)低至6.05%,在眾多開源模型中脫穎而出,成績斐然。如此出色的性能,無疑為實時轉錄、語音分析、呼叫中心智能以及音頻內容索引等企業(yè)級應用提供了強有力的支持。?

從技術架構層面來看,Parakeet TDT 0.6B基于Transformer架構構建。Transformer架構是一種基于自注意力(Self – Attention)機制的深度學習模型,于2017年由Vaswani等人在論文《Attention Is All You Need》中首次提出。該架構摒棄了傳統(tǒng)的循環(huán)和卷積結構,通過自注意力機制和多頭注意力來捕捉序列內部的依賴關系,并利用位置編碼引入位置信息,能夠有效地處理序列到序列的任務,捕捉輸入序列中的長距離依賴關系。Parakeet TDT 0.6B 在此基礎上,結合高質量轉錄數據進行了精細微調,并且針對英偉達硬件進行了推理優(yōu)化,充分發(fā)揮硬件性能優(yōu)勢。?

該模型采用了6億參數的編碼-解碼結構,同時運用量化和融合內核技術來進一步提升推理效率。不僅如此,它還支持TDT(Transducer Decoder Transformer)架構,并具備精確的時間戳、數字格式化以及標點恢復等實用功能。值得一提的是,Parakeet TDT 0.6B開創(chuàng)性地支持歌曲轉歌詞轉錄功能,這在同類模型中十分罕見。這一獨特功能極大地拓展了音樂索引和媒體平臺的應用場景。依托英偉達的 TensorRT和FP8量化技術,該模型的實時率(Real Time Factor,RTF,即模型處理時間和音頻長度的比值)高達3386。
?
除了在速度和精度上表現卓越,Parakeet TDT 0.6B還內置了多項特色功能。將歌曲內容準確轉為歌詞的功能,使其在音樂和媒體領域大有用武之地;支持數字和時間戳格式化,對于會議記錄、法律轉錄以及醫(yī)療記錄等場景而言,能夠顯著提升記錄的可讀性;標點恢復功能則對下游自然語言處理(NLP)應用的表現起到了增強作用。這些實用特性全方位提升了轉錄質量,大大減輕了后期處理或人工編輯的負擔,尤其適用于企業(yè)級的大規(guī)模部署。

「93913原創(chuàng)內容,轉載請注明出處」
]]>
http://pinmang.cn/110612.html/feed 0