蘋果發(fā)布開源人工智能模型

?? 由 文心大模型 生成的文章摘要

蘋果發(fā)布了幾個開源大型語言模型(LLM),這些模型旨在運(yùn)行于設(shè)備,而不是通過云服務(wù)器運(yùn)行。蘋果LLM稱為OpenELM(開源高效語言模型),可在Hugging Face Hub(一個共享AI代碼的社區(qū))上獲取。

正如OpenELM PDF所述,共有八個OpenELM模型,其中四個是使用CoreNet庫進(jìn)行預(yù)訓(xùn)練的,另外四個是指令調(diào)整模型。蘋果采用分層縮放策略,旨在提高準(zhǔn)確性和效率。

蘋果提供了代碼、訓(xùn)練日志和多個版本,而不僅僅是最終的訓(xùn)練模型,該項(xiàng)目背后的研究人員希望這能在自然語言人工智能領(lǐng)域帶來更快的進(jìn)展和“更值得信賴的結(jié)果”。

OpenELM,一種最先進(jìn)的開放語言模型。 OpenELM使用分層縮放策略來有效分配變壓器模型每一層內(nèi)的參數(shù),從而提高準(zhǔn)確性。例如,在參數(shù)預(yù)算約為10億個參數(shù)的情況下,OpenELM 與OLMo相比,精度提高了2.36%,同時需要的預(yù)訓(xùn)練令牌減少了2倍。

與之前僅提供模型權(quán)重和推理代碼以及在私有數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的做法不同,該版本包括在公開數(shù)據(jù)集上訓(xùn)練和評估語言模型的完整框架,包括訓(xùn)練日志、多個檢查點(diǎn)和預(yù)訓(xùn)練配置。

蘋果表示,正在發(fā)布OpenELM模型,以通過最先進(jìn)的語言模型“增強(qiáng)和豐富開放研究社區(qū)”。共享開源模型為研究人員提供了一種調(diào)查風(fēng)險、數(shù)據(jù)和模型偏差的方法,開發(fā)者和企業(yè)可以按原樣使用模型或進(jìn)行修改。

蘋果尚未將此類人工智能功能引入其設(shè)備,但iOS 18預(yù)計(jì)將包含許多新的人工智能功能,并且有傳言稱蘋果正計(jì)劃出于隱私目的在設(shè)備上運(yùn)行其大型語言模型。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」