
Meta去年推出了Segment Anything,這是一個機器學習模型,可以快速可靠識別和勾勒出圖像中的任何東西。Meta首席執(zhí)行官馬克·扎克伯格周一在SIGGRAPH大會上首次亮相了該模型的續(xù)集,將該模型帶入了視頻領域,彰顯了該領域的發(fā)展速度之快。
分割是一個技術術語,指的是視覺模型在查看圖片時,會挑選出各個部分:“這是一只狗,這是狗身后的一棵樹”,但愿如此,而不是“這是從狗身上長出來的一棵樹”。這種現(xiàn)象已經(jīng)存在了幾十年,但最近圖像識別機制變得更好、更快,其中“分割一切”是向前邁出的重要一步。
Segment Anything 2(SA2)是一個自然的后續(xù)產(chǎn)品,因為其本身適用于視頻而不僅僅是靜止圖像;當然,你可以對視頻的每一幀單獨運行第一個模型,但這并不是最有效的工作流程。
“科學家可基于SA2來研究珊瑚礁和自然棲息地等,且無需拍攝任何鏡頭,這非??帷!痹瞬裨谂c英偉達首席執(zhí)行官黃仁勛的對話中表示。
當然,處理視頻對計算的要求要高得多,SA2可以在不消耗數(shù)據(jù)中心的情況下運行,這證明了整個行業(yè)在效率方面的進步。當然,它仍然是一個龐大的模型,需要強大的硬件才能運行,但即使在一年前,快速、靈活的分割也幾乎是不可能的。

與第一個模型一樣,SA2也將向用戶免費開放,目前還沒有關于托管版本的消息,當然,這樣的模型需要大量的數(shù)據(jù)來訓練,而Meta還發(fā)布了一個包含50000個視頻的大型帶注釋數(shù)據(jù)庫。在描述SA2的論文中,另一個包含超過100000個“內(nèi)部可用”視頻的數(shù)據(jù)庫也用于訓練。
Meta幾年來一直是“開放”AI領域的領導者,但最近,LLaMa、Segment Anything和免費推出的其他一些模型已成為這些領域AI性能相對可及的標準,盡管這些模型的“開放性”仍存在爭議。
而對于開源,扎克伯格表示:“SA2不僅僅是一個你可以構建的軟件——你需要一個圍繞它的生態(tài)系統(tǒng)。如果我們不開源它,它幾乎就不會那么好用,對吧?我們這樣做不是因為我們是利他主義者,盡管我認為這會對生態(tài)系統(tǒng)有所幫助——我們這樣做的目的是因為認為這將使我們正在構建的東西成為最好的?!?/p>








