亚洲国产精品一区二区制服,永久免费毛片在线播放 http://pinmang.cn 93913成立于2015年9月13日,是目前國(guó)內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務(wù)商,通過(guò)93913為用戶提供信息服務(wù)以及元宇宙&AI領(lǐng)域相關(guān)廠商提供整體品牌傳播、發(fā)布會(huì)、開(kāi)發(fā)者大賽、連接商業(yè)項(xiàng)目以及FA投融資顧問(wèn)等服務(wù)。 Wed, 07 May 2025 16:07:53 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 英偉達(dá)推出超強(qiáng)開(kāi)源ASR模型Parakeet TDT 0.6B,1秒處理60分鐘音頻 http://pinmang.cn/110612.html http://pinmang.cn/110612.html#respond Wed, 07 May 2025 16:07:53 +0000 http://pinmang.cn/?p=110612

5月6日科技媒體marktechpost報(bào)道,英偉達(dá)于近期推出了一款極為先進(jìn)的自動(dòng)語(yǔ)音識(shí)別(ASR)模型——Parakeet TDT 0.6B,目前該模型已在Hugging Face平臺(tái)上完全開(kāi)源,引發(fā)了業(yè)內(nèi)廣泛關(guān)注。?

Parakeet TDT 0.6B最大的亮點(diǎn)便是其驚人的速度與卓越的轉(zhuǎn)錄質(zhì)量。令人驚嘆的是,該模型僅需短短1秒,就能輕松處理長(zhǎng)達(dá)60分鐘的音頻,這一速度堪稱(chēng)現(xiàn)有主流開(kāi)源ASR典型模型的50倍之多。在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B同樣表現(xiàn)亮眼,其字錯(cuò)率(WER)低至6.05%,在眾多開(kāi)源模型中脫穎而出,成績(jī)斐然。如此出色的性能,無(wú)疑為實(shí)時(shí)轉(zhuǎn)錄、語(yǔ)音分析、呼叫中心智能以及音頻內(nèi)容索引等企業(yè)級(jí)應(yīng)用提供了強(qiáng)有力的支持。?

從技術(shù)架構(gòu)層面來(lái)看,Parakeet TDT 0.6B基于Transformer架構(gòu)構(gòu)建。Transformer架構(gòu)是一種基于自注意力(Self – Attention)機(jī)制的深度學(xué)習(xí)模型,于2017年由Vaswani等人在論文《Attention Is All You Need》中首次提出。該架構(gòu)摒棄了傳統(tǒng)的循環(huán)和卷積結(jié)構(gòu),通過(guò)自注意力機(jī)制和多頭注意力來(lái)捕捉序列內(nèi)部的依賴(lài)關(guān)系,并利用位置編碼引入位置信息,能夠有效地處理序列到序列的任務(wù),捕捉輸入序列中的長(zhǎng)距離依賴(lài)關(guān)系。Parakeet TDT 0.6B 在此基礎(chǔ)上,結(jié)合高質(zhì)量轉(zhuǎn)錄數(shù)據(jù)進(jìn)行了精細(xì)微調(diào),并且針對(duì)英偉達(dá)硬件進(jìn)行了推理優(yōu)化,充分發(fā)揮硬件性能優(yōu)勢(shì)。?

該模型采用了6億參數(shù)的編碼-解碼結(jié)構(gòu),同時(shí)運(yùn)用量化和融合內(nèi)核技術(shù)來(lái)進(jìn)一步提升推理效率。不僅如此,它還支持TDT(Transducer Decoder Transformer)架構(gòu),并具備精確的時(shí)間戳、數(shù)字格式化以及標(biāo)點(diǎn)恢復(fù)等實(shí)用功能。值得一提的是,Parakeet TDT 0.6B開(kāi)創(chuàng)性地支持歌曲轉(zhuǎn)歌詞轉(zhuǎn)錄功能,這在同類(lèi)模型中十分罕見(jiàn)。這一獨(dú)特功能極大地拓展了音樂(lè)索引和媒體平臺(tái)的應(yīng)用場(chǎng)景。依托英偉達(dá)的 TensorRT和FP8量化技術(shù),該模型的實(shí)時(shí)率(Real Time Factor,RTF,即模型處理時(shí)間和音頻長(zhǎng)度的比值)高達(dá)3386。
?
除了在速度和精度上表現(xiàn)卓越,Parakeet TDT 0.6B還內(nèi)置了多項(xiàng)特色功能。將歌曲內(nèi)容準(zhǔn)確轉(zhuǎn)為歌詞的功能,使其在音樂(lè)和媒體領(lǐng)域大有用武之地;支持?jǐn)?shù)字和時(shí)間戳格式化,對(duì)于會(huì)議記錄、法律轉(zhuǎn)錄以及醫(yī)療記錄等場(chǎng)景而言,能夠顯著提升記錄的可讀性;標(biāo)點(diǎn)恢復(fù)功能則對(duì)下游自然語(yǔ)言處理(NLP)應(yīng)用的表現(xiàn)起到了增強(qiáng)作用。這些實(shí)用特性全方位提升了轉(zhuǎn)錄質(zhì)量,大大減輕了后期處理或人工編輯的負(fù)擔(dān),尤其適用于企業(yè)級(jí)的大規(guī)模部署。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」
]]>
http://pinmang.cn/110612.html/feed 0