
Anthropic最新Claude 3.5 Sonnet AI模型在公測(cè)版中推出了一項(xiàng)新功能,可以通過查看屏幕、移動(dòng)光標(biāo)、單擊按鈕和鍵入文本來控制計(jì)算機(jī)。這項(xiàng)名為“計(jì)算機(jī)使用”的新功能現(xiàn)已在API上推出,開發(fā)者可以控制Claude像人類一樣操作計(jì)算機(jī)。
Anthropic首席科學(xué)官Jared Kaplan表示,新的“計(jì)算機(jī)使用”功能可以告訴人工智能“將鼠標(biāo)移動(dòng)到哪里、在哪里點(diǎn)擊、輸入什么,以完成相當(dāng)復(fù)雜的任務(wù)”。
微軟Copilot Vision功能和 OpenAI ChatGPT桌面應(yīng)用展示了AI工具可以根據(jù)查看計(jì)算機(jī)屏幕來做什么,谷歌Gemini Android手機(jī)應(yīng)用也具有類似的功能。但幾家廠商還沒有采取下一步行動(dòng),廣泛發(fā)布可以點(diǎn)擊并執(zhí)行用戶此類任務(wù)的工具,Rabbit承諾R1也具有類似的功能,但目前尚未實(shí)現(xiàn)。
Anthropic稱,AI模型操控計(jì)算機(jī)仍處于試驗(yàn)階段,可能“繁瑣且容易出錯(cuò)”。該公司表示,“我們提前發(fā)布支持操控計(jì)算機(jī)以征求開發(fā)者的反饋,并希望隨著時(shí)間的推移,兼容性越來越好?!?/p>
Claude 3.5 Sonnet AI模型開發(fā)者介紹:
人們?cè)陔娔X上經(jīng)常做的許多操作(拖動(dòng)、縮放等)Claude還無法嘗試。Claude屏幕視圖具有“翻頁(yè)”特性(截取屏幕截圖并將它們拼湊在一起,而不是觀察更精細(xì)的視頻流),這意味著可能會(huì)錯(cuò)過短暫的操作或通知。

Anthropic表示,新款Claude 3.5 Sonnet AI在許多基準(zhǔn)測(cè)試中都有所改進(jìn),并且價(jià)格與前代產(chǎn)品相同:
更新后的Claude 3.5 Sonnet在行業(yè)基準(zhǔn)測(cè)試中表現(xiàn)出廣泛的改進(jìn),在代理編碼和工具使用任務(wù)方面尤其取得了顯著的進(jìn)步。在編碼方面,在SWE-bench Verified上的性能從33.4%提高到了49.0%,得分高于所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為代理編碼設(shè)計(jì)的專用系統(tǒng)。它還在零售領(lǐng)域?qū)⒋砉ぞ呤褂萌蝿?wù)TAU-bench的性能從62.6% 提高到了69.2%,在更具挑戰(zhàn)性的航空領(lǐng)域從36.0%提高到了46.0%。








