蘋果在其機(jī)器學(xué)習(xí)博客上重磅發(fā)布兩篇研究論文,深度揭秘兩大前沿人工智能模型:一款專注于革新攝影測量技術(shù),另一款則致力于打造智能化視頻個(gè)人助理。作為全球領(lǐng)先的iPhone制造商,蘋果對機(jī)器學(xué)習(xí)領(lǐng)域的探索由來已久,如今機(jī)器學(xué)習(xí)已成為其人工智能技術(shù)體系的核心支柱。近年來,蘋果頻繁公開研究成果,通過一系列論文展示其在未來科技領(lǐng)域的卓越探索與顯著進(jìn)展。
借助Apple Intelligence,用戶得以體驗(yàn)諸多創(chuàng)新應(yīng)用,涵蓋Image Playground創(chuàng)意工具、郵件應(yīng)用中的AI智能回復(fù)、郵件與通知智能摘要,以及全新寫作工具框架等,無不彰顯著蘋果在AI應(yīng)用層面的強(qiáng)大實(shí)力。此次兩篇論文的發(fā)表,更是為外界洞察蘋果未來AI功能的演進(jìn)方向提供了關(guān)鍵線索,其中著重介紹的Matrix3D和StreamBridge兩款A(yù)I模型備受矚目。
蘋果官方介紹,Matrix3D堪稱一體化大型攝影測量模型的典范之作,它的問世徹底簡化了從2D圖像構(gòu)建3D對象的復(fù)雜流程,大幅降低技術(shù)門檻。從蘋果公布的示例視頻中可以直觀看到,該模型僅需少量幾張圖像,便能精準(zhǔn)生成逼真的3D對象與虛擬環(huán)境。?
攝影測量技術(shù)并非新鮮事物,在游戲開發(fā)、建筑測繪等眾多領(lǐng)域早已廣泛應(yīng)用。然而,蘋果憑借Matrix3D實(shí)現(xiàn)了重大突破,徹底改變了傳統(tǒng)攝影測量流程繁瑣、易出錯(cuò)的局面。傳統(tǒng)攝影測量方法往往將各個(gè)子過程孤立處理,每個(gè)步驟都依賴特定算法,操作復(fù)雜且效率低下。與之形成鮮明對比的是,Matrix3D借助統(tǒng)一架構(gòu),能夠一站式完成深度和姿態(tài)估計(jì)、新穎視圖合成等關(guān)鍵任務(wù),從根本上提升了3D重建的準(zhǔn)確性與效率。?
在模型訓(xùn)練方面,Matrix3D采用了獨(dú)特的 “蒙版學(xué)習(xí)策略”。該策略讓模型在部分完整的圖像深度和姿態(tài)數(shù)據(jù)基礎(chǔ)上進(jìn)行學(xué)習(xí),促使其通過 “填補(bǔ)數(shù)據(jù)空白” 的方式達(dá)成預(yù)期結(jié)果。正如蘋果在研究論文中指出,傳統(tǒng)攝影測量通常需要數(shù)百張圖像才能實(shí)現(xiàn)穩(wěn)定且精確的 3D 重建,在實(shí)際應(yīng)用中存在諸多不便。而Matrix3D僅需2-3張圖像就能達(dá)到相同效果,極大地降低了對圖像數(shù)量的要求,顯著提升了實(shí)用性。目前,這一技術(shù)已在Apple Vision Pro設(shè)備上得到應(yīng)用,實(shí)現(xiàn)了對任意圖像(即便不含肖像模式深度數(shù)據(jù))的2D到3D轉(zhuǎn)換,展現(xiàn)出強(qiáng)大的兼容性與拓展性。?
另一款引發(fā)廣泛關(guān)注的StreamBridge模型,則聚焦于視頻領(lǐng)域的智能交互。蘋果在相關(guān)研究論文中明確表示,StreamBridge是一個(gè)能夠?qū)?“視頻大語言模型(LLM)轉(zhuǎn)化為流媒體模型” 的創(chuàng)新框架。相較于部分AI模型需預(yù)先處理完整視頻文件的模式,StreamBridge具備“多輪實(shí)時(shí)理解”與“主動響應(yīng)生成”的獨(dú)特優(yōu)勢。?
這意味著,無論用戶何時(shí)提出關(guān)于視頻內(nèi)容的問題,如視頻中的事件經(jīng)過、發(fā)生地點(diǎn),或是特定物體的相關(guān)信息,StreamBridge 都能迅速做出實(shí)時(shí)響應(yīng)。更為驚艷的是,該模型無需用戶主動提問,便能主動監(jiān)控視頻流內(nèi)容,根據(jù)畫面變化及時(shí)生成相關(guān)指導(dǎo)信息。例如,在展示繪圖過程的視頻中,StreamBridge會自動為用戶提供分步操作指導(dǎo),模擬出動態(tài)場景下的持續(xù)智能支持。值得一提的是,科技行業(yè)內(nèi)其他巨頭也在積極布局視頻AI工具領(lǐng)域。
在2024年5月的Google I/O開發(fā)者大會上,谷歌展示了用戶以視頻提問獲取AI回復(fù)的創(chuàng)新應(yīng)用——當(dāng)AI系統(tǒng)觀看唱片機(jī)故障視頻后,能夠準(zhǔn)確識別型號并指出可能因平衡問題導(dǎo)致無法工作。相比之下,蘋果StreamBridge更進(jìn)一步,它能夠處理實(shí)時(shí)視頻流,并基于動態(tài)輸入提供詳細(xì)的分步操作指南,而非簡單的一句話回復(fù),為用戶帶來更具沉浸感與實(shí)用性的交互體驗(yàn)。
雖然目前 StreamBridge 尚未正式集成到蘋果產(chǎn)品功能中,但業(yè)界普遍猜測,未來很可能會通過Apple Intelligence更新,在Siri或相機(jī)應(yīng)用等場景中亮相。同理,Matrix3D模型也極有可能為Apple Vision Pro及其后續(xù)產(chǎn)品注入更強(qiáng)大的功能,為用戶帶來全新的沉浸式體驗(yàn),據(jù)悉相關(guān)后續(xù)產(chǎn)品已在緊鑼密鼓的研發(fā)進(jìn)程中。