近期,人工智能領(lǐng)域再度迎來(lái)創(chuàng)新熱潮,多家公司接連發(fā)布新的AI產(chǎn)品與技術(shù),為行業(yè)發(fā)展注入強(qiáng)勁動(dòng)力。
9月14日,Stability AI正式推出企業(yè)級(jí)音頻生成模型StableAudio2.5。該模型在音頻細(xì)節(jié)和生成速度方面實(shí)現(xiàn)顯著提升,號(hào)稱能夠“僅用2秒鐘即可創(chuàng)建3分鐘音頻曲目”。其核心改進(jìn)聚焦于音樂(lè)生成能力,生成結(jié)果更貼合真實(shí)編曲邏輯,可呈現(xiàn)完整的前奏、發(fā)展與結(jié)尾等多段式結(jié)構(gòu)。同時(shí),新版模型對(duì)提示詞的理解更為精準(zhǔn),在情緒描述和音樂(lè)風(fēng)格詞匯的把握上,能給出更符合預(yù)期的響應(yīng)。生成速度的顯著提升,得益于研發(fā)團(tuán)隊(duì)提出的后訓(xùn)練方法ARC。這一技術(shù)通過(guò)結(jié)合相對(duì)式對(duì)抗訓(xùn)練與對(duì)比判別器,在保證音軌質(zhì)量的同時(shí),大幅降低GPU推理耗時(shí)。此外,StableAudio2.5還新增音頻修補(bǔ)功能,用戶導(dǎo)入自己的音頻文件并指定“延展位置”后,模型可依據(jù)音頻前后內(nèi)容及整體曲風(fēng),一鍵“延長(zhǎng)”音頻,為剪輯等場(chǎng)景提供便利。目前,該模型已可通過(guò)StableAudio官網(wǎng)直接試用,也支持本地化部署。不過(guò),官方規(guī)定用戶上傳的音頻文件不得包含受版權(quán)保護(hù)的內(nèi)容,網(wǎng)站將利用自帶的內(nèi)容識(shí)別系統(tǒng)進(jìn)行檢測(cè),以確保不侵犯他人版權(quán)。
百度也在模型領(lǐng)域發(fā)力,推出開(kāi)源權(quán)重“思考”模型ERNIE-4.5。該模型總參數(shù)量達(dá)210億,在性能表現(xiàn)上十分亮眼。據(jù)百度相關(guān)負(fù)責(zé)人介紹,ERNIE-4.5在多模態(tài)理解能力方面取得顯著進(jìn)步,能夠進(jìn)行圖形推理、圖表分析,還具備理解漫畫(huà)、歌曲、電影等多模態(tài)內(nèi)容的能力。作為深度思考模型,它在性能上對(duì)標(biāo)DeepSeek-R1,擁有“長(zhǎng)思維鏈”,尤其擅長(zhǎng)中文知識(shí)問(wèn)答、文學(xué)創(chuàng)作、邏輯推理等任務(wù)。同時(shí),該模型增加了多模態(tài)能力和多工具調(diào)用功能,不僅能理解和生成圖片,還可調(diào)用工具生成代碼和圖表等,并且大幅降低了推理成本。
阿里巴巴通義千問(wèn)團(tuán)隊(duì)同樣成果豐碩,推出“Qwen3-Next”系列模型,并開(kāi)源前沿混合專家模型Qwen-Next-80B-A3B等。Qwen3-Next是Qwen系列的最新成員,基于Qwen3架構(gòu)改進(jìn)優(yōu)化。其模型總參數(shù)約800億(80B),但推理時(shí)僅啟用約3B參數(shù)(active參數(shù))參與,大幅減少推理時(shí)的計(jì)算資源消耗,同時(shí)保留強(qiáng)大的表達(dá)能力。該模型引入混合注意力機(jī)制,如“線性注意力+門(mén)控注意力”的混合設(shè)計(jì),提升了長(zhǎng)輸入(longcontext)下的處理效率。
在輸入32,000token或更高時(shí),“prefill”階段比Qwen3-32B快約10.6倍,decode階段快約10倍。通過(guò)架構(gòu)設(shè)計(jì)與活躍參數(shù)控制,Qwen3-Next的訓(xùn)練成本低于Qwen3-32B,更具成本效益。并且,它支持思考模式與非思考模式,用戶可依據(jù)任務(wù)復(fù)雜性進(jìn)行選擇,以平衡速度與準(zhǔn)確性。在性能表現(xiàn)上,Qwen3-Next在長(zhǎng)上下文情景下,輸出第一個(gè)token的速度以及decode階段速度均有大幅提升,在某些任務(wù)中的評(píng)測(cè)結(jié)果已等同甚至優(yōu)于Qwen3-32B。
人工智能初創(chuàng)公司Stability AI表示,電影《泰坦尼克號(hào)》、《異形》、《阿凡達(dá)》、《終結(jié)者》導(dǎo)演詹姆斯·卡梅隆已加入公司董事會(huì)。
在制作成本飆升的當(dāng)下,生成式人工智能的迅速崛起引起了好萊塢的關(guān)注。
業(yè)內(nèi)人士表示,OpenAI的文本轉(zhuǎn)視頻工具Sora在2月份憑借其高質(zhì)量視頻引起轟動(dòng)后,好萊塢高管和經(jīng)紀(jì)人與該公司會(huì)面,討論了該技術(shù)的潛在用途。
Stability AI首席執(zhí)行官 Prem Akkaraju表示,卡梅倫的任命使Stability AI通過(guò)為創(chuàng)作者提供全套AI工具,更接近其“改變視覺(jué)媒體”的目標(biāo)。
總部位于英國(guó)倫敦的Stability AI今年早些時(shí)候籌集了約8000萬(wàn)美元的資金,該公司開(kāi)發(fā)的人工智能圖像生成工具可與谷歌、微軟旗下AI產(chǎn)品相媲美。
該公司在由Coatue Management和Lightspeed Venture Partners領(lǐng)投的種子輪融資中融資了 1.01億美元,2022年的估值達(dá)到10億美元。
Stability AI還提供了文本轉(zhuǎn)視頻生成工具Stable Video Diffusion。Stability AI的開(kāi)放模型是全球使用最廣泛的基礎(chǔ)AI圖像模型,培育了全球最大的創(chuàng)作者和開(kāi)發(fā)者生態(tài)系統(tǒng)。該公司的模型也是開(kāi)源平臺(tái)Hugging Face上最受歡迎的圖像模型。其旗艦?zāi)P蚐table Diffusion的下載量已超過(guò)1.5億次。包括大型企業(yè)在內(nèi)的數(shù)千家企業(yè)都依賴Stability AI的模型來(lái)支持其創(chuàng)意工作流程。
卡梅倫表示,GenAI與計(jì)算機(jī)生成圖像的結(jié)合將“為藝術(shù)家開(kāi)啟新的方式,以我們從未想象過(guò)的方式講述故事”。
根據(jù)彭博社報(bào)道,元宇宙及數(shù)字媒體工具開(kāi)發(fā)公司Stability AI宣布完成1.01億美元種子輪融資,本輪融資由Coatue Management和Lightspeed Venture Partners領(lǐng)投,融資完成后Stability AI估值將達(dá)到10億美元。據(jù)悉,本輪融資將用于為更大規(guī)模的用戶部署定制化的產(chǎn)品,同時(shí)建立Stability AI的超算能力。
Stability AI構(gòu)建了可制作數(shù)字藝術(shù)的AI工具“Stable Diffusion”,可以在元宇宙中設(shè)計(jì)應(yīng)用程序,也可能用于創(chuàng)建PowerPoint演示文稿。Stable Diffusion面向大眾開(kāi)源,用戶可以在其代碼的基礎(chǔ)上構(gòu)建與設(shè)計(jì)、電影、增強(qiáng)現(xiàn)實(shí)、視頻游戲、廣告甚至電子商務(wù)相關(guān)的應(yīng)用程序。
據(jù)TechCrunch消息,Stability AI首席執(zhí)行官Emad Mostaque畢業(yè)于牛津大學(xué),獲得數(shù)學(xué)和計(jì)算機(jī)科學(xué)碩士學(xué)位,曾在多家對(duì)沖基金擔(dān)任分析師,并于2020年創(chuàng)立了Stability AI。
Stability AI 擁有一個(gè)在AWS中運(yùn)行的集群,由4000多顆Nvidia A100 GPU組成的,用于訓(xùn)練包括Stable Diffusion在內(nèi)的 AI 系統(tǒng)。Business Insider報(bào)告稱,Stability AI的維護(hù)成本相當(dāng)高,運(yùn)營(yíng)和云服務(wù)支出超過(guò) 5000 萬(wàn)美元。但Mostaque一再聲稱,該公司的研發(fā)將使其能夠更有效地訓(xùn)練模型。
Stability AI計(jì)劃通過(guò)為客戶培訓(xùn)“私有”模型并充當(dāng)通用基礎(chǔ)設(shè)施層來(lái)賺錢(qián)。它還面向個(gè)人用戶提供了平臺(tái)和API服務(wù)——DreamStudio,個(gè)人用戶可以通過(guò)該平臺(tái)和API訪問(wèn)其AI模型。根據(jù)Mostaque透露給彭博社的消息,DreamStudio擁有超過(guò)150萬(wàn)用戶,創(chuàng)建了超過(guò) 1.7 億張圖像,而Stable Diffusion全渠道的用戶數(shù)量每天超過(guò)1000萬(wàn)。此外,根據(jù) Stability AI發(fā)布的新聞稿,Stable Diffusion的開(kāi)源版本已被下載超過(guò) 20 萬(wàn)次。
值得一提的是,Stability AI最近聘請(qǐng)了幾位備受矚目的員工,例如多位來(lái)自Google Brain的研究科學(xué)家、未來(lái)學(xué)家和公共演講者Daniel Jeffries等。
除了Stable Diffusion,Stability AI表示公司還有其他可商業(yè)化的項(xiàng)目正在進(jìn)行中,包括用于生成音頻、語(yǔ)言、3D資產(chǎn)甚至視頻的AI模型。其中之一是算法和工具集Dance Diffusion,可以通過(guò)輸入數(shù)百小時(shí)的現(xiàn)有歌曲訓(xùn)練模型,來(lái)生成音樂(lè)片段。
投資方Coatue的GP(Genral Partner)Sri Viswanath在一份聲明中表示:“Coatue相信,開(kāi)源AI技術(shù)有能力釋放人類的創(chuàng)造力并帶來(lái)更廣泛的商業(yè)價(jià)值。Stability AI對(duì)AI的應(yīng)用超越了現(xiàn)階段的絕大多數(shù)用例。我們很高興能參與到Stability AI的發(fā)展歷程中,我們期待看到世界使用Stability AI的技術(shù)帶來(lái)更高的創(chuàng)造力。”