
專注于長視頻理解的初創(chuàng)公司Memories.ai正式推出了其首款大型視覺記憶模型(Large Visual MemoryModel),這一突破性技術(shù)旨在賦予多模態(tài)大語言模型視覺記憶回溯能力。與此同時(shí),Memories.ai宣布完成了800萬美元的種子輪融資,該輪融資由Susa Ventures領(lǐng)投,Samsung Next、Fusion Fund、Crane Ventures、Seedcamp和Creator Ventures等知名機(jī)構(gòu)跟投,且原計(jì)劃募集400萬美元,因機(jī)構(gòu)需求旺盛而實(shí)現(xiàn)超募。?
Memories.ai的核心技術(shù)亮點(diǎn)突出,其能夠在本地或云端處理多達(dá)1,000萬小時(shí)的視頻,為安防、營銷等眾多場(chǎng)景提供可搜索索引、標(biāo)簽、分段與聚合報(bào)告。該公司聯(lián)合創(chuàng)始人Shawn Shen博士,作為前Meta Reality Labs研究科學(xué)家指出,谷歌、OpenAI和Meta的端到端模型在超過兩小時(shí)的視頻上下文理解上仍存在較大困難,而Memories.ai希望通過復(fù)制人類視覺記憶的篩選能力,來解決這一行業(yè)空白。?
此次推出的大型視覺記憶模型實(shí)現(xiàn)了視覺記憶檢索功能,它能夠精準(zhǔn)解析用戶意圖,快速檢索相關(guān)視覺記憶片段,并整合關(guān)聯(lián)的視覺記憶信息,進(jìn)而基于這些記憶和用戶查詢進(jìn)行推理。其獨(dú)特的智能決策機(jī)制,可以自主判斷何時(shí)、如何以及調(diào)取哪些視覺記憶。在完成記憶信息整合后,模型能生成記憶引用,并以正確輸出格式回答用戶問題,讓多模態(tài)大模型具備了無限長視覺記憶上下文處理能力。?
在性能表現(xiàn)方面,Memories.ai的模型成績斐然。在視頻問答基準(zhǔn)測(cè)試中,于MVBench、NextQA以及Temp Compass數(shù)據(jù)集中,該模型全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text數(shù)據(jù)集中,更是超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,創(chuàng)造了新的性能記錄。?








