
蘋果在其機器學習博客上重磅發(fā)布兩篇研究論文,深度揭秘兩大前沿人工智能模型:一款專注于革新攝影測量技術,另一款則致力于打造智能化視頻個人助理。作為全球領先的iPhone制造商,蘋果對機器學習領域的探索由來已久,如今機器學習已成為其人工智能技術體系的核心支柱。近年來,蘋果頻繁公開研究成果,通過一系列論文展示其在未來科技領域的卓越探索與顯著進展。
借助Apple Intelligence,用戶得以體驗諸多創(chuàng)新應用,涵蓋Image Playground創(chuàng)意工具、郵件應用中的AI智能回復、郵件與通知智能摘要,以及全新寫作工具框架等,無不彰顯著蘋果在AI應用層面的強大實力。此次兩篇論文的發(fā)表,更是為外界洞察蘋果未來AI功能的演進方向提供了關鍵線索,其中著重介紹的Matrix3D和StreamBridge兩款AI模型備受矚目。
蘋果官方介紹,Matrix3D堪稱一體化大型攝影測量模型的典范之作,它的問世徹底簡化了從2D圖像構建3D對象的復雜流程,大幅降低技術門檻。從蘋果公布的示例視頻中可以直觀看到,該模型僅需少量幾張圖像,便能精準生成逼真的3D對象與虛擬環(huán)境。?
攝影測量技術并非新鮮事物,在游戲開發(fā)、建筑測繪等眾多領域早已廣泛應用。然而,蘋果憑借Matrix3D實現了重大突破,徹底改變了傳統(tǒng)攝影測量流程繁瑣、易出錯的局面。傳統(tǒng)攝影測量方法往往將各個子過程孤立處理,每個步驟都依賴特定算法,操作復雜且效率低下。與之形成鮮明對比的是,Matrix3D借助統(tǒng)一架構,能夠一站式完成深度和姿態(tài)估計、新穎視圖合成等關鍵任務,從根本上提升了3D重建的準確性與效率。?
在模型訓練方面,Matrix3D采用了獨特的 “蒙版學習策略”。該策略讓模型在部分完整的圖像深度和姿態(tài)數據基礎上進行學習,促使其通過 “填補數據空白” 的方式達成預期結果。正如蘋果在研究論文中指出,傳統(tǒng)攝影測量通常需要數百張圖像才能實現穩(wěn)定且精確的 3D 重建,在實際應用中存在諸多不便。而Matrix3D僅需2-3張圖像就能達到相同效果,極大地降低了對圖像數量的要求,顯著提升了實用性。目前,這一技術已在Apple Vision Pro設備上得到應用,實現了對任意圖像(即便不含肖像模式深度數據)的2D到3D轉換,展現出強大的兼容性與拓展性。?
另一款引發(fā)廣泛關注的StreamBridge模型,則聚焦于視頻領域的智能交互。蘋果在相關研究論文中明確表示,StreamBridge是一個能夠將 “視頻大語言模型(LLM)轉化為流媒體模型” 的創(chuàng)新框架。相較于部分AI模型需預先處理完整視頻文件的模式,StreamBridge具備“多輪實時理解”與“主動響應生成”的獨特優(yōu)勢。?
這意味著,無論用戶何時提出關于視頻內容的問題,如視頻中的事件經過、發(fā)生地點,或是特定物體的相關信息,StreamBridge 都能迅速做出實時響應。更為驚艷的是,該模型無需用戶主動提問,便能主動監(jiān)控視頻流內容,根據畫面變化及時生成相關指導信息。例如,在展示繪圖過程的視頻中,StreamBridge會自動為用戶提供分步操作指導,模擬出動態(tài)場景下的持續(xù)智能支持。值得一提的是,科技行業(yè)內其他巨頭也在積極布局視頻AI工具領域。
在2024年5月的Google I/O開發(fā)者大會上,谷歌展示了用戶以視頻提問獲取AI回復的創(chuàng)新應用——當AI系統(tǒng)觀看唱片機故障視頻后,能夠準確識別型號并指出可能因平衡問題導致無法工作。相比之下,蘋果StreamBridge更進一步,它能夠處理實時視頻流,并基于動態(tài)輸入提供詳細的分步操作指南,而非簡單的一句話回復,為用戶帶來更具沉浸感與實用性的交互體驗。
雖然目前 StreamBridge 尚未正式集成到蘋果產品功能中,但業(yè)界普遍猜測,未來很可能會通過Apple Intelligence更新,在Siri或相機應用等場景中亮相。同理,Matrix3D模型也極有可能為Apple Vision Pro及其后續(xù)產品注入更強大的功能,為用戶帶來全新的沉浸式體驗,據悉相關后續(xù)產品已在緊鑼密鼓的研發(fā)進程中。








