
谷歌宣布,其AI研發(fā)部門DeepMind正加速推進“AI融合計劃”,將旗下多模態(tài)大模型Gemini與視頻生成模型Veo深度整合,以構建更強大的全能型AI助手。根據(jù)DeepMind首席執(zhí)行官Demis Hassabis在播客節(jié)目中的披露,Gemini與Veo的融合旨在提升AI對物理世界的理解能力。Gemini作為谷歌的核心多模態(tài)模型,已支持文本、圖像、音頻生成,而Veo 2通過分析海量YouTube視頻數(shù)據(jù),掌握了物體運動規(guī)律和場景動態(tài)。兩者的結合將使AI助手不僅能生成內容,還能基于現(xiàn)實邏輯推理,例如預測物體運動的軌跡或模擬復雜環(huán)境中的交互。
?
Hassabis在由領英聯(lián)合創(chuàng)始人Reid Hoffman共同主持的播客節(jié)目Possible中透露了這一計劃。他表示:“我們從一開始就將Gemini這一基礎模型打造為多模態(tài)模型,因為我們有著構建一個通用數(shù)字助手的愿景,這個助手能夠在現(xiàn)實世界中真正為你提供幫助。”?
目前,整個AI行業(yè)正逐漸朝著“全能”模型的方向發(fā)展,這些模型能夠理解和整合多種媒體形式。谷歌最新Gemini模型不僅可以生成圖像和文本,還能生成音頻;而OpenAI在 ChatGPT中的默認模型如今也能創(chuàng)建圖像,包括宮崎駿風格的藝術作品。亞馬遜也宣布計劃在今年晚些時候推出一款“任意到任意”的模型。?
據(jù)了解,這些“全能”模型需要大量的訓練數(shù)據(jù),包括圖像、視頻、音頻、文本等。Hassabis 暗示,Veo的視頻數(shù)據(jù)主要來源于谷歌旗下的YouTube平臺。他說道:“通過觀看大量的 YouTube視頻,Veo 2能夠了解世界的物理規(guī)律。” 此前,谷歌曾表示,其模型可能會根據(jù)與YouTube創(chuàng)作者達成的協(xié)議,使用“部分”YouTube 內容進行訓練。據(jù)報道,該公司去年擴大了服務條款的部分內容,以便獲取更多數(shù)據(jù)來訓練其AI模型。








