今天,我們推出了一種方法,使機器更接近人類同時、整體和直接從許多不同形式的信息中學(xué)習(xí)的能力——不需要明確的監(jiān)督(組織和標記原始數(shù)據(jù)的過程)。我們已經(jīng)構(gòu)建并正在開源ImageBind,這是第一個能夠綁定來自六種模式信息的人工智能模型。該模型學(xué)習(xí)單一嵌入或共享表示空間,不僅適用于文本、圖像/視頻和音頻,還適用于記錄深度 (3D)、熱(紅外輻射)和慣性測量單元 (IMU) 的傳感器,這些傳感器計算運動和位置。ImageBind使機器具備全面的理解力,將照片中的對象與它們的聲音、3D 形狀、冷暖感知以及移動方式聯(lián)系起來。

如論文所述,ImageBind 可以勝過先前針對特定模態(tài)單獨訓(xùn)練的專家模型。最重要的是,它有助于推進人工智能,使機器能夠更好分析多種不同形式的信息。例如,基于ImageBind,Meta Make-A-Scene可以從音頻創(chuàng)建圖像,例如根據(jù)雨林或熙熙攘攘市場的聲音創(chuàng)建圖像。其他未來的可能性包括以更準確的方式識別、連接和調(diào)節(jié)內(nèi)容,以及促進創(chuàng)意設(shè)計,例如更無縫生成更豐富的媒體和創(chuàng)建更廣泛的多模式搜索功能。
ImageBind是Meta致力于創(chuàng)建多模態(tài)AI系統(tǒng)的一部分,該系統(tǒng)可以從周圍所有可能類型的數(shù)據(jù)中學(xué)習(xí)。隨著模態(tài)數(shù)量的增加,ImageBind為研究人員打開了嘗試開發(fā)新整體系統(tǒng)的閘門,例如結(jié)合3D和IMU傳感器來設(shè)計或體驗身臨其境的虛擬世界。ImageBind還可以提供一種探索記憶的豐富方式——使用文本、音頻和圖像的組合來搜索圖片、視頻、音頻文件或文本消息。
在典型的人工智能系統(tǒng)中,每個模態(tài)都有特定的嵌入(即可以表示數(shù)據(jù)及其在機器學(xué)習(xí)中關(guān)系的數(shù)字向量)。ImageBind可以跨多種模態(tài)創(chuàng)建聯(lián)合嵌入空間,而無需使用每種不同模態(tài)組合對數(shù)據(jù)進行訓(xùn)練。這一點很重要,因為研究人員無法創(chuàng)建包含來自城市街道的音頻數(shù)據(jù)、熱數(shù)據(jù)、深度數(shù)據(jù)、海邊懸崖文本描述等樣本的數(shù)據(jù)集。
正如近來基于文本生成圖像、視頻和音頻方面取得了令人興奮的進展(例如Make-A-Scene和Meta Make-A-Video),ImageBind的多模式功能可以讓研究人員使用其他模式作為輸入查詢和檢索以其他格式輸出。ImageBind也是朝著構(gòu)建能夠像人類一樣全面分析不同類型數(shù)據(jù)的機器邁出的重要一步。

ImageBind是一個多模態(tài)模型,加入了Meta一系列開源AI工具。這包括像DINOv2這樣的計算機視覺模型,一種不需要微調(diào)訓(xùn)練高性能計算機視覺模型的新方法,以及Segment Anything (SAM),一種通用分割模型,可以根據(jù)用戶提示分割圖像中的任何對象。而ImageBind 補充了這些模型,因為它專注于多模態(tài)表示學(xué)習(xí)。它嘗試為多種模態(tài)學(xué)習(xí)單一對齊的特征空間,包括但不限于圖像和視頻。未來,ImageBind可以基于DINOv2強大的視覺功能進一步提高其能力。
通過將內(nèi)容與圖像綁定來學(xué)習(xí)單個嵌入空間
人類有能力僅從幾個例子中學(xué)習(xí)新概念。我們通常可以通過閱讀對某種動物的描述,然后在現(xiàn)實生活中認出。我們還可以查看一張不熟悉的汽車模型照片,并預(yù)測其發(fā)動機的聲音。這在一定程度上是因為一張圖片實際上可以將整個感官體驗“綁定”在一起。然而,在人工智能領(lǐng)域,隨著模態(tài)數(shù)量的增加,多感官數(shù)據(jù)的缺乏會限制依賴配對數(shù)據(jù)的標準多模態(tài)學(xué)習(xí)。理想情況下,一個單一的聯(lián)合嵌入空間——其中分布著許多不同類型的數(shù)據(jù)——可以讓模型學(xué)習(xí)視覺特征以及其他模式。
以往,學(xué)習(xí)所有模式的聯(lián)合嵌入空間需要收集成對數(shù)據(jù)的所有可能組合,這是一項不可行的壯舉。
ImageBind基于大規(guī)模視覺語言模型,并通過往語言模型與圖像的自然配對(如視頻音頻和圖像深度數(shù)據(jù))來學(xué)習(xí)單個聯(lián)合嵌入空間,將zero-shot功能擴展到新的模式,從而規(guī)避了這一挑戰(zhàn)。對于另外四種模式(音頻、深度、熱量和IMU讀數(shù)),我們使用自然配對的自監(jiān)督數(shù)據(jù)。
由于互聯(lián)網(wǎng)上大量的圖像和同時出現(xiàn)的文本,訓(xùn)練圖像文本模型已被廣泛研究。例如使用 Web數(shù)據(jù)將文本鏈接到圖像,或者使用從可穿戴相機捕獲的視頻數(shù)據(jù)將運動鏈接到視頻IMU 傳感器。
從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)的視覺表征可以用作學(xué)習(xí)不同模式特征的目標。這支持ImageBind 對齊與圖像同時出現(xiàn)的任何模態(tài),自然對齊這些模態(tài)。與圖像有很強相關(guān)性的模態(tài),例如熱和深度,更容易對齊。非視覺的模式,如音頻和IMU,相關(guān)性較弱。
ImageBind表明,圖像配對數(shù)據(jù)足以將這六種模式綁定在一起。該模型可以更全面解釋內(nèi)容,支持不同的模式相互“交談”并找到鏈接。這使其他模型無需任何資源密集型培訓(xùn)即可“理解”新模式。ImageBind強大縮放行為支持模型替代或增強許多AI模型,使它們能夠使用其他模式。例如,雖然Make-A-Scene可以使用文本提示生成圖像,但ImageBind可以將其升級為通過音頻生成圖像。
圖像對齊、自監(jiān)督學(xué)習(xí)表明,模型的性能實際上可以通過使用很少的訓(xùn)練示例來提高。模型具有新的緊急能力,或擴展行為——也就是說,在較小的模型中不存在但出現(xiàn)在較大的版本中的能力。這可能包括識別哪些音頻適合特定圖像或預(yù)測照片場景的深度。
我們的分析表明,ImageBind的縮放行為隨著圖像編碼器的強度而提高。換句話說,ImageBind 對齊模態(tài)的能力隨著視覺模型的強度和大小而增加。這表明更大的視覺模型有利于非視覺任務(wù),例如音頻分類,并且訓(xùn)練此類模型的好處超出了計算機視覺任務(wù)。
在我們的實驗中,我們使用了ImageBind的音頻和深度編碼器,并將它們與zero-shot檢索以及音頻和深度分類任務(wù)中的先前工作進行了比較。

基于基準測試,ImageBind在音頻和深度方面優(yōu)于專業(yè)模型。我們發(fā)現(xiàn)ImageBind特征可用于少鏡頭音頻和深度分類任務(wù),并且可以勝過為這些模式量身定制的先前方法。例如,ImageBind明顯優(yōu)于Meta在Audioset上訓(xùn)練的自監(jiān)督AudioMAE模型和在音頻分類上微調(diào)的監(jiān)督AudioMAE模型,在≤四次分類上的top-1準確度提高了大約40%。
ImageBind還在跨模態(tài)的緊急zero-shot識別任務(wù)上實現(xiàn)了新的最先進的性能,甚至優(yōu)于經(jīng)過訓(xùn)練以識別該模態(tài)概念的最新模型。
多模式學(xué)習(xí)的未來
通過使用多種模式進行輸入查詢和跨其他模式檢索輸出,ImageBind為創(chuàng)建者展示了新的可能性。想象一下,有人可以拍攝一段海洋日落的視頻,并立即添加完美的音頻剪輯來增強它,而斑紋西施犬的圖像可以產(chǎn)生類似狗的論文或深度模型。
人們甚至可以根據(jù)音頻分割和識別圖像中的對象。這創(chuàng)造了獨特的機會,可以通過將靜態(tài)圖像與音頻提示相結(jié)合來從靜態(tài)圖像中創(chuàng)建動畫。例如,創(chuàng)作者可以將圖像與鬧鐘和公雞打鳴結(jié)合起來,并使用打鳴的音頻提示來分割公雞或使用鬧鐘的聲音來分割時鐘并將兩者制作成視頻序列。
雖然我們在當前的研究中探索了六種模式,但我們相信,引入連接盡可能多的感官(如觸覺、語音、嗅覺和大腦fMRI信號)的新模式將使以人為中心的人工智能模型更加豐富。
關(guān)于多模態(tài)學(xué)習(xí),還有很多東西有待發(fā)現(xiàn)。AI研究界還沒有有效量化只出現(xiàn)在更大模型中的縮放行為,并理解它們的應(yīng)用。ImageBind正朝著以嚴格的方式評估展示圖像生成和檢索新穎應(yīng)用邁出新的一步。
來源:AI.Facebook








