Anthropic最新Claude 3.5 Sonnet AI模型在公測版中推出了一項新功能,可以通過查看屏幕、移動光標(biāo)、單擊按鈕和鍵入文本來控制計算機(jī)。這項名為“計算機(jī)使用”的新功能現(xiàn)已在API上推出,開發(fā)者可以控制Claude像人類一樣操作計算機(jī)。
Anthropic首席科學(xué)官Jared Kaplan表示,新的“計算機(jī)使用”功能可以告訴人工智能“將鼠標(biāo)移動到哪里、在哪里點擊、輸入什么,以完成相當(dāng)復(fù)雜的任務(wù)”。
微軟Copilot Vision功能和 OpenAI ChatGPT桌面應(yīng)用展示了AI工具可以根據(jù)查看計算機(jī)屏幕來做什么,谷歌Gemini Android手機(jī)應(yīng)用也具有類似的功能。但幾家廠商還沒有采取下一步行動,廣泛發(fā)布可以點擊并執(zhí)行用戶此類任務(wù)的工具,Rabbit承諾R1也具有類似的功能,但目前尚未實現(xiàn)。
Anthropic稱,AI模型操控計算機(jī)仍處于試驗階段,可能“繁瑣且容易出錯”。該公司表示,“我們提前發(fā)布支持操控計算機(jī)以征求開發(fā)者的反饋,并希望隨著時間的推移,兼容性越來越好?!?/p>
Claude 3.5 Sonnet AI模型開發(fā)者介紹:
人們在電腦上經(jīng)常做的許多操作(拖動、縮放等)Claude還無法嘗試。Claude屏幕視圖具有“翻頁”特性(截取屏幕截圖并將它們拼湊在一起,而不是觀察更精細(xì)的視頻流),這意味著可能會錯過短暫的操作或通知。

Anthropic表示,新款Claude 3.5 Sonnet AI在許多基準(zhǔn)測試中都有所改進(jìn),并且價格與前代產(chǎn)品相同:
更新后的Claude 3.5 Sonnet在行業(yè)基準(zhǔn)測試中表現(xiàn)出廣泛的改進(jìn),在代理編碼和工具使用任務(wù)方面尤其取得了顯著的進(jìn)步。在編碼方面,在SWE-bench Verified上的性能從33.4%提高到了49.0%,得分高于所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為代理編碼設(shè)計的專用系統(tǒng)。它還在零售領(lǐng)域?qū)⒋砉ぞ呤褂萌蝿?wù)TAU-bench的性能從62.6% 提高到了69.2%,在更具挑戰(zhàn)性的航空領(lǐng)域從36.0%提高到了46.0%。