
上海人工智能實驗室聯(lián)合浙江大學共同推出全球首個視頻轉(zhuǎn)網(wǎng)頁評測基準IWR-Bench,該基準填補了AI前端開發(fā)動態(tài)交互評測領(lǐng)域的空白。令人關(guān)注的是,在對28款主流模型的評測中,表現(xiàn)較為突出的GPT-5綜合得分僅為36.35分,暴露出當前AI在前端開發(fā)動態(tài)交互能力上的顯著短板。?
據(jù)了解,傳統(tǒng)的AI前端開發(fā)評測基準如Design2Code、WebSight等,僅能對模型復(fù)現(xiàn)網(wǎng)頁靜態(tài)布局的能力進行評估,無法涉及用戶點擊、表單提交、游戲操作等核心動態(tài)交互功能?!熬W(wǎng)頁的核心價值在于動態(tài)交互,傳統(tǒng)評測就像只審視建筑外觀,卻忽略了內(nèi)部居住功能,不能真實反映AI在實際前端開發(fā)中的能力?!毖芯繄F隊相關(guān)負責人表示。?
而此次發(fā)布的IWR-Bench評測基準,實現(xiàn)了三大創(chuàng)新性突破,構(gòu)建起更貼近真實開發(fā)場景的評測框架。在輸入維度上,它摒棄單一截圖,采用“用戶操作視頻+匿名化靜態(tài)資源包”的形式,要求模型從時間序列中提取交互邏輯,例如在2048游戲任務(wù)中,模型需通過視頻逆向推導數(shù)字合并規(guī)則與得分機制;任務(wù)生態(tài)方面,該基準涵蓋113個真實網(wǎng)站任務(wù),包含1001次交互動作與620個視覺檢查點,覆蓋從簡單瀏覽到機票預(yù)訂系統(tǒng)的全復(fù)雜度場景,且移動端任務(wù)占比達10.62%;在評測方式上,首創(chuàng)Agent-as-Judge機制,借助browser-use庫驅(qū)動編程代理模擬用戶操作,從交互功能正確性(IFS)和視覺保真度(VFS)雙維度進行評分,有效避免人工評估的主觀性偏差。值得一提的是,所有靜態(tài)資源均以“asset_001.png”等匿名方式命名,迫使模型依靠視覺匹配關(guān)聯(lián)資源,完全復(fù)刻前端開發(fā)實際工作流。?
從評測結(jié)果來看,當前AI模型在前端開發(fā)動態(tài)交互領(lǐng)域的表現(xiàn)不盡如人意。即便是綜合得分最高的GPT-5,其交互功能正確性(IFS)僅為24.39%,意味著超過75%的操作存在邏輯缺陷,而視覺保真度(VFS)雖達64.25%,但與功能實現(xiàn)能力形成巨大反差。這種“形似神不似”的問題在復(fù)雜任務(wù)中更為突出,比如在機票預(yù)訂系統(tǒng)測試中,模型能精準復(fù)現(xiàn)頁面表單樣式,卻無法實現(xiàn)日期篩選與價格聯(lián)動邏輯;在掃雷游戲任務(wù)里,雖能渲染棋盤布局,卻不能正確響應(yīng)點擊排查與游戲勝負判斷。?
此外,評測還發(fā)現(xiàn)兩大意外現(xiàn)象:一是Claude-Sonnet-4、Gemini-2.5-Pro等模型的“thinking版本”較普通版得分僅高出0.3-0.8分,提升有限,表明基礎(chǔ)模型能力仍是制約AI前端開發(fā)水平的核心瓶頸;二是VideoLLaMA3等視頻專長模型表現(xiàn)墊底,甚至不及通用多模態(tài)模型,這說明視頻轉(zhuǎn)網(wǎng)頁任務(wù)需要“視頻理解+邏輯抽象+代碼生成”的跨域能力,而非單一的視頻處理專長。?
對于行業(yè)而言,IWR-Bench的評測結(jié)果明確了AI前端開發(fā)技術(shù)的三大攻堅方向。首先是強化時序因果推理能力,讓模型能從視頻幀中提取“操作-反饋”因果鏈,而非孤立識別視覺元素;其次是提升狀態(tài)機建模能力,將網(wǎng)頁動態(tài)行為抽象為可執(zhí)行的狀態(tài)轉(zhuǎn)換邏輯,解決事件監(jiān)聽與數(shù)據(jù)同步問題;最后是完善資源綁定機制,建立視覺特征與匿名資源的精準映射,提高跨模態(tài)信息關(guān)聯(lián)的可靠性。?








