盡管人工智能現(xiàn)在能夠解決高等數(shù)學問題、進行復雜的推理,甚至可操作個人電腦,但當今的算法仍可受益于微觀蠕蟲。
麻省理工學院衍生出來的初創(chuàng)公司Liquid AI將發(fā)布幾種新的人工智能模型,這些模型基于一種新型“液態(tài)”神經(jīng)網(wǎng)絡,與聊天機器人、圖像生成器和面部識別系統(tǒng)等基礎人工智能模型相比,這種模型可能更高效、更低功耗、更透明。
Liquid AI的新模型包括用于檢測金融交易欺詐的模型、用于控制自動駕駛汽車的模型和用于分析基因數(shù)據(jù)的模型。該公司在麻省理工學院舉行的活動中宣傳了這些新模型,并授權給外部公司。目前,Liquid AI已獲得三星和Shopify等投資者投資,這兩家公司也在測試Liquid AI技術。
“我們正在擴大規(guī)模,” Liquid AI聯(lián)合創(chuàng)始人兼首席執(zhí)行Ramin Hasani表示,他在麻省理工學院讀研究生時與他人共同發(fā)明了“液態(tài)”神經(jīng)網(wǎng)絡。Hasani的研究靈感來自秀麗隱桿線蟲,這是一種通常在土壤或腐爛植被中發(fā)現(xiàn)的毫米長蠕蟲。這種蠕蟲是少數(shù)幾種神經(jīng)系統(tǒng)被完整繪制出來的生物之一,盡管只有幾百個神經(jīng)元,但它卻能夠做出非常復雜的行為?!八?jīng)只是一個科學項目,但這項技術已經(jīng)完全商業(yè)化,完全可以為企業(yè)帶來價值?!?/p>
在常規(guī)神經(jīng)網(wǎng)絡中,每個模擬神經(jīng)元的屬性由影響其觸發(fā)的靜態(tài)值或“權重”定義。而在液態(tài)神經(jīng)網(wǎng)絡中,每個神經(jīng)元的行為由一個預測其隨時間變化行為的方程控制,網(wǎng)絡在運行過程中會求解一系列相互關聯(lián)的方程;這種設計使網(wǎng)絡更高效、更靈活,與傳統(tǒng)神經(jīng)網(wǎng)絡不同,即使在訓練后也可以繼續(xù)學習。不僅如此,液態(tài)神經(jīng)網(wǎng)絡還可以現(xiàn)有模型無法做到的方式接受檢查,因為它們的行為基本上可以倒回來看看是如何產(chǎn)生輸出的。
今年9月Liquid AI公布了一些基于其網(wǎng)絡設計的大型語言模型。這家初創(chuàng)公司表示,其語言模型的一個版本具有400億個參數(shù),在解決一組稱為MMLU-Pro的常見問題上,其表現(xiàn)優(yōu)于 Meta Llama 3.1的700億個參數(shù)版本。
人工神經(jīng)元是深度神經(jīng)網(wǎng)絡的基本組成部分,現(xiàn)有的人工神經(jīng)元用于GPT4等大型語言模型,其工作原理是接收大量輸入,將它們相加,然后使用神經(jīng)元內(nèi)部的另一個數(shù)學運算將總和轉(zhuǎn)換為輸出。這些神經(jīng)元的組合構(gòu)成了神經(jīng)網(wǎng)絡,它們的組合工作可能難以解碼。
但這種組合神經(jīng)元的新方法略有不同?,F(xiàn)有神經(jīng)元的一些復雜性被簡化,并轉(zhuǎn)移到神經(jīng)元之外。在神經(jīng)元內(nèi)部,新神經(jīng)元只需將其輸入相加并產(chǎn)生輸出,而無需額外的隱藏操作。這種神經(jīng)元的網(wǎng)絡被稱為柯爾莫哥洛夫-阿諾德網(wǎng)絡(KAN)。
麻省理工學院研究人員領導的團隊詳細研究了這種簡化方法,該方法可以讓我們更容易理解神經(jīng)網(wǎng)絡產(chǎn)生特定輸出的原因,幫助驗證其決策,甚至探測偏差。初步證據(jù)還表明,隨著KAN變得更大,其準確率的提高速度比由傳統(tǒng)神經(jīng)元構(gòu)成的網(wǎng)絡更快。
KAN的基本要素實際上是在20世紀90年代提出的,研究人員一直在構(gòu)建此類網(wǎng)絡的簡單版本。但麻省理工學院領導的團隊進一步推進了這一想法,展示了如何構(gòu)建和訓練更大的KAN,對它們進行實證測試,并分析了一些KAN,以證明人類可以如何解釋它們的解決問題的能力?!拔覀冎匦录ぐl(fā)了這個想法,”團隊成員、麻省理工學院Max Tegmark實驗室博士生Ziming Liu說?!安⑶?,希望隨著可解釋性的出現(xiàn)……我們 [可能] 不再 [必須] 認為神經(jīng)網(wǎng)絡是黑匣子?!?/p>
雖然還處于早期階段,但該團隊在KAN方面的工作已引起人們的關注。GitHub頁面已紛紛涌現(xiàn),展示了如何將KAN用于各種應用,例如圖像識別和解決流體動力學問題。
如今,幾乎所有類型的人工智能,包括用于構(gòu)建大型語言模型和圖像識別系統(tǒng)的人工智能,都包含稱為多層感知器(MLP)的子網(wǎng)絡。在MLP中,人工神經(jīng)元排列成密集、相互連接的“層”。每個神經(jīng)元內(nèi)部都有一個稱為“激活函數(shù)”的東西——一種數(shù)學運算,它接收一堆輸入并以某種預先指定的方式將它們轉(zhuǎn)換為輸出。
在MLP中,每個人工神經(jīng)元都會接收來自上一層所有神經(jīng)元的輸入,并將每個輸入與相應的“權重”(表示該輸入重要性的數(shù)字)相乘。這些加權輸入被加在一起,并饋送到神經(jīng)元內(nèi)部的激活函數(shù)以生成輸出,然后將其傳遞給下一層中的神經(jīng)元。例如,MLP通過為所有神經(jīng)元的輸入選擇正確的權重值來學習區(qū)分貓和狗的圖像。至關重要的是,激活函數(shù)是固定的,在訓練期間不會改變。
經(jīng)過訓練后,MLP的所有神經(jīng)元及其連接加在一起,本質(zhì)上就像另一個函數(shù),接受輸入(例如,圖像中的數(shù)萬個像素)并產(chǎn)生所需的輸出(例如,0表示貓,1表示狗)。了解該函數(shù)是什么樣子,也就是它的數(shù)學形式,是理解它為什么會產(chǎn)生某些輸出的重要部分。例如,為什么它會根據(jù)某人的財務狀況將其標記為有信譽?但MLP是黑匣子。對于圖像識別等復雜任務,對網(wǎng)絡進行逆向工程幾乎是不可能的。
“如果我們甚至無法解釋來自神經(jīng)網(wǎng)絡的這些合成數(shù)據(jù)集,那么處理真實世界的數(shù)據(jù)集就毫無希望,”Ziming Liu表示,“我們發(fā)現(xiàn)很難理解這些神經(jīng)網(wǎng)絡,我們想改變架構(gòu)?!?/p>
主要的變化是刪除固定的激活函數(shù)并引入一個更簡單的可學習函數(shù)來在每個輸入進入神經(jīng)元之前對其進行轉(zhuǎn)換。
與MLP神經(jīng)元中的激活函數(shù)接收大量輸入不同,KAN神經(jīng)元外部的每個簡單函數(shù)接收一個數(shù)字并輸出另一個數(shù)字?,F(xiàn)在,在訓練過程中,KAN不會像MLP中那樣學習單個權重,而是學習如何表示每個簡單函數(shù)。在今年發(fā)表在預印本服務器ArXiv上的一篇論文中,Liu和同事們表明,這些神經(jīng)元外部的簡單函數(shù)更容易解釋,從而可以重建整個KAN正在學習的函數(shù)的數(shù)學形式。
Liu及其同事還表明,隨著規(guī)模的擴大,KAN比MLP更快完成任務并變得更加準確。該團隊從理論上證明了這一結(jié)果,并在科學相關任務(例如學習近似與物理相關的函數(shù))中進行了實證研究?!澳壳吧胁磺宄@一觀察結(jié)果是否會擴展到標準機器學習任務,但至少對于科學相關任務而言,它似乎很有前景。”
NeRF指的是神經(jīng)網(wǎng)絡中的3D場景,研究人員表示,一項新研究將使AI應用于動態(tài)場景,這使得NeRF可面向VR。
神經(jīng)輻射場(NeRF)從圖像中學習3D表示,然后可以從以往看不到的角度渲染3D場景,例如,這將能實現(xiàn)圍繞物體進行360度攝像機巡視、通過無人機鏡頭進行飛行巡視或在餐廳內(nèi)部漫步,不僅如此該技術還可以創(chuàng)建逼真的3D對象。

然而,在幾乎所有情況下,NeRF場景或?qū)ο蠖际庆o態(tài)的,因為運動為訓練過程引入了難以解決的時間維度,現(xiàn)在,一個新的工藝可以解決這個問題。
動態(tài)場景NeRF
在一篇新的研究論文中,來自布法羅大學、蘇黎世聯(lián)邦理工學院、InnoPeak Technology和圖賓根大學的團隊演示了從2D圖像中學習4D表示的NeRF動態(tài)場景。
該演示以來自不同相機或單個移動相機的RGB圖像為輸入源。例如,圖像中,一個人正在移動或有人正在將咖啡倒入玻璃杯中。

為了使動態(tài)場景具有自適應性,團隊將演示分為了三種時間模式:靜態(tài)、變形和新區(qū)域。在咖啡示例中,放置玻璃杯的木板保持靜止,玻璃杯整體物被歸類為新區(qū)域,可見的手被歸類為變形,分解字段將場景劃分為三個類別,每個區(qū)域都有專屬神經(jīng)域。
不僅如此,研究人員還將時間和空間維度解耦以改善表征。
NeRFPlayer啟用NeRF流
與其他方法相比,動態(tài)場景分解表示顯著減少了視覺偽影,該團隊還演示了NeRFPlayer,這是一種以有限比特率實時流式傳輸學習表示的方法。
NVIDIA InstantNGP框架允許神經(jīng)網(wǎng)絡在幾秒鐘內(nèi)學習千兆像素圖像、3D對象和NeRF表示,也使得所提出的方法更快速。
“我們提出了一個框架,用于從多相機和單相機捕獲的圖像以表示動態(tài)場景,我們框架的關鍵組件是分解模塊和特征流模塊,分解模塊將場景分解為靜態(tài)、變形和新區(qū)域,然后設計了一種基于滑動窗口的混合表示以對分解的神經(jīng)場進行建模,并通過多相機和單相機數(shù)據(jù)集實驗驗證了該方法的有效性。”
在論文中,該團隊將虛擬現(xiàn)實中真實4D時空環(huán)境的視覺探索描述為可視化,并認為其研究有助于這一目標的實現(xiàn),“在VR中自由可視化探索4D時空是一個長期追求,當僅使用幾個甚至單個RGB相機來捕捉動態(tài)場景時,這項任務更具吸引力。”研究人員說。
來源:Mixed