微軟發(fā)布自研語(yǔ)音模型MAI-Voice-1與通用模型MAI-1-preview

?? 由 文心大模型 生成的文章摘要

8月29日,微軟人工智能部門(Microsoft AI,簡(jiǎn)稱 MAI)正式推出兩款自主研發(fā)的人工智能模型——MAI-Voice-1語(yǔ)音模型和MAI-1-preview通用模型。這一舉措標(biāo)志著微軟在人工智能領(lǐng)域的自主研發(fā)進(jìn)程中邁出了重要一步,展現(xiàn)了其致力于為用戶提供更強(qiáng)大、高效 AI 工具的決心。?

MAI-Voice-1語(yǔ)音模型展現(xiàn)出了令人矚目的效率。微軟表示,該模型僅需單塊GPU,即可在短短1秒內(nèi)生成時(shí)長(zhǎng)1分鐘的音頻。這一速度使其成為當(dāng)前極為高效的語(yǔ)音生成系統(tǒng)之一。?

在實(shí)際應(yīng)用中,MAI-Voice-1 已經(jīng)被融入到多項(xiàng)微軟的功能中。在 “Copilot Daily” 功能里,AI 主持人借助該模型為用戶播報(bào)當(dāng)日的熱點(diǎn)新聞,讓用戶能夠及時(shí)了解重要資訊;同時(shí),它還能生成播客風(fēng)格的對(duì)話內(nèi)容,幫助用戶深入理解各類復(fù)雜話題。對(duì)于普通用戶而言,可在Copilot Labs平臺(tái)親身體驗(yàn)MAI-Voice-1的魅力。用戶不僅能輸入希望AI表達(dá)的內(nèi)容,還能自由地自定義語(yǔ)音音色與說(shuō)話風(fēng)格,極大地滿足了個(gè)性化需求。無(wú)論是新聞播報(bào)、播客對(duì)談,還是故事講述、冥想引導(dǎo)等場(chǎng)景,MAI-Voice-1 都能應(yīng)對(duì)自如。用戶可從9種不同的語(yǔ)音中進(jìn)行選擇,還能挑選多達(dá)31種不同的情緒和播報(bào)場(chǎng)景,甚至可以讓模型扮演激情四溢的體育解說(shuō)員,生動(dòng)地詮釋賽事。?

MAI-1-preview則是微軟AI首個(gè)實(shí)現(xiàn)端到端內(nèi)部訓(xùn)練的自研基礎(chǔ)模型。該模型在訓(xùn)練過(guò)程中動(dòng)用了約1.5萬(wàn)塊英偉達(dá)H100 GPU。目前,它在LMArena文本任務(wù)榜單上排名第13位。雖然落后于一些主要AI玩家的模型,如DeepSeek、谷歌、OpenAI和xAI等,但微軟AI掌門人、DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman認(rèn)為,該模型的表現(xiàn)遠(yuǎn)超其硬件規(guī)模,具備巨大的潛力。?

MAI-1-preview專為特定需求用戶設(shè)計(jì),具備出色的指令遵循能力,能夠針對(duì)日常咨詢提供實(shí)用、有效的回應(yīng)。微軟計(jì)劃在未來(lái)幾周內(nèi),將MAI-1-preview逐步應(yīng)用于Copilot的部分文本場(chǎng)景中,通過(guò)收集用戶反饋來(lái)進(jìn)一步優(yōu)化和改進(jìn)模型,為用戶帶來(lái)更優(yōu)質(zhì)的體驗(yàn)。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」