
人工神經(jīng)元是深度神經(jīng)網(wǎng)絡(luò)的基本組成部分,現(xiàn)有的人工神經(jīng)元用于GPT4等大型語言模型,其工作原理是接收大量輸入,將它們相加,然后使用神經(jīng)元內(nèi)部的另一個數(shù)學(xué)運算將總和轉(zhuǎn)換為輸出。這些神經(jīng)元的組合構(gòu)成了神經(jīng)網(wǎng)絡(luò),它們的組合工作可能難以解碼。
但這種組合神經(jīng)元的新方法略有不同?,F(xiàn)有神經(jīng)元的一些復(fù)雜性被簡化,并轉(zhuǎn)移到神經(jīng)元之外。在神經(jīng)元內(nèi)部,新神經(jīng)元只需將其輸入相加并產(chǎn)生輸出,而無需額外的隱藏操作。這種神經(jīng)元的網(wǎng)絡(luò)被稱為柯爾莫哥洛夫-阿諾德網(wǎng)絡(luò)(KAN)。
麻省理工學(xué)院研究人員領(lǐng)導(dǎo)的團(tuán)隊詳細(xì)研究了這種簡化方法,該方法可以讓我們更容易理解神經(jīng)網(wǎng)絡(luò)產(chǎn)生特定輸出的原因,幫助驗證其決策,甚至探測偏差。初步證據(jù)還表明,隨著KAN變得更大,其準(zhǔn)確率的提高速度比由傳統(tǒng)神經(jīng)元構(gòu)成的網(wǎng)絡(luò)更快。
KAN的基本要素實際上是在20世紀(jì)90年代提出的,研究人員一直在構(gòu)建此類網(wǎng)絡(luò)的簡單版本。但麻省理工學(xué)院領(lǐng)導(dǎo)的團(tuán)隊進(jìn)一步推進(jìn)了這一想法,展示了如何構(gòu)建和訓(xùn)練更大的KAN,對它們進(jìn)行實證測試,并分析了一些KAN,以證明人類可以如何解釋它們的解決問題的能力?!拔覀冎匦录ぐl(fā)了這個想法,”團(tuán)隊成員、麻省理工學(xué)院Max Tegmark實驗室博士生Ziming Liu說?!安⑶?,希望隨著可解釋性的出現(xiàn)……我們 [可能] 不再 [必須] 認(rèn)為神經(jīng)網(wǎng)絡(luò)是黑匣子?!?/p>
雖然還處于早期階段,但該團(tuán)隊在KAN方面的工作已引起人們的關(guān)注。GitHub頁面已紛紛涌現(xiàn),展示了如何將KAN用于各種應(yīng)用,例如圖像識別和解決流體動力學(xué)問題。
如今,幾乎所有類型的人工智能,包括用于構(gòu)建大型語言模型和圖像識別系統(tǒng)的人工智能,都包含稱為多層感知器(MLP)的子網(wǎng)絡(luò)。在MLP中,人工神經(jīng)元排列成密集、相互連接的“層”。每個神經(jīng)元內(nèi)部都有一個稱為“激活函數(shù)”的東西——一種數(shù)學(xué)運算,它接收一堆輸入并以某種預(yù)先指定的方式將它們轉(zhuǎn)換為輸出。
在MLP中,每個人工神經(jīng)元都會接收來自上一層所有神經(jīng)元的輸入,并將每個輸入與相應(yīng)的“權(quán)重”(表示該輸入重要性的數(shù)字)相乘。這些加權(quán)輸入被加在一起,并饋送到神經(jīng)元內(nèi)部的激活函數(shù)以生成輸出,然后將其傳遞給下一層中的神經(jīng)元。例如,MLP通過為所有神經(jīng)元的輸入選擇正確的權(quán)重值來學(xué)習(xí)區(qū)分貓和狗的圖像。至關(guān)重要的是,激活函數(shù)是固定的,在訓(xùn)練期間不會改變。
經(jīng)過訓(xùn)練后,MLP的所有神經(jīng)元及其連接加在一起,本質(zhì)上就像另一個函數(shù),接受輸入(例如,圖像中的數(shù)萬個像素)并產(chǎn)生所需的輸出(例如,0表示貓,1表示狗)。了解該函數(shù)是什么樣子,也就是它的數(shù)學(xué)形式,是理解它為什么會產(chǎn)生某些輸出的重要部分。例如,為什么它會根據(jù)某人的財務(wù)狀況將其標(biāo)記為有信譽(yù)?但MLP是黑匣子。對于圖像識別等復(fù)雜任務(wù),對網(wǎng)絡(luò)進(jìn)行逆向工程幾乎是不可能的。
“如果我們甚至無法解釋來自神經(jīng)網(wǎng)絡(luò)的這些合成數(shù)據(jù)集,那么處理真實世界的數(shù)據(jù)集就毫無希望,”Ziming Liu表示,“我們發(fā)現(xiàn)很難理解這些神經(jīng)網(wǎng)絡(luò),我們想改變架構(gòu)。”
主要的變化是刪除固定的激活函數(shù)并引入一個更簡單的可學(xué)習(xí)函數(shù)來在每個輸入進(jìn)入神經(jīng)元之前對其進(jìn)行轉(zhuǎn)換。
與MLP神經(jīng)元中的激活函數(shù)接收大量輸入不同,KAN神經(jīng)元外部的每個簡單函數(shù)接收一個數(shù)字并輸出另一個數(shù)字?,F(xiàn)在,在訓(xùn)練過程中,KAN不會像MLP中那樣學(xué)習(xí)單個權(quán)重,而是學(xué)習(xí)如何表示每個簡單函數(shù)。在今年發(fā)表在預(yù)印本服務(wù)器ArXiv上的一篇論文中,Liu和同事們表明,這些神經(jīng)元外部的簡單函數(shù)更容易解釋,從而可以重建整個KAN正在學(xué)習(xí)的函數(shù)的數(shù)學(xué)形式。
Liu及其同事還表明,隨著規(guī)模的擴(kuò)大,KAN比MLP更快完成任務(wù)并變得更加準(zhǔn)確。該團(tuán)隊從理論上證明了這一結(jié)果,并在科學(xué)相關(guān)任務(wù)(例如學(xué)習(xí)近似與物理相關(guān)的函數(shù))中進(jìn)行了實證研究?!澳壳吧胁磺宄@一觀察結(jié)果是否會擴(kuò)展到標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)任務(wù),但至少對于科學(xué)相關(guān)任務(wù)而言,它似乎很有前景?!?/p>







