全球最牛編碼AI來了：Claude Sonnet 4.5突破30小時(shí)長(zhǎng)任務(wù)極限

William2025年10月7日 · 大模型 ·

?? 由文心大模型生成的文章摘要

Anthropic正式推出旗艦級(jí)AI模型Claude Sonnet 4.5，以”全球最出色的編碼模型””構(gòu)建復(fù)雜智能體的最強(qiáng)工具”雙重定位引爆行業(yè)關(guān)注。與追求極致性能的Opus系列不同，此次Anthropic將升級(jí)重心放在覆蓋用戶最廣、場(chǎng)景最多元的中端Sonnet產(chǎn)品線，通過”性能-速度-成本”的精準(zhǔn)平衡，實(shí)現(xiàn)技術(shù)突破與實(shí)用價(jià)值的最大化。該模型已全面登陸Claude.ai官網(wǎng)、iOS/Android應(yīng)用，并通過Amazon Bedrock、Google Cloud VertexAI開放開發(fā)者接入，定價(jià)維持與前代一致的3美元/百萬token輸入、15美元/百萬token輸出標(biāo)準(zhǔn)，配合提示緩存技術(shù)可降低90%使用成本。?

在衡量”真實(shí)世界軟件編碼能力”的權(quán)威基準(zhǔn)SWE-benchVerified（含500項(xiàng)GitHub真實(shí)拉取請(qǐng)求任務(wù)）中，Claude Sonnet 4.5創(chuàng)下歷史性突破：?jiǎn)文Ｐ团渲孟聹?zhǔn)確率達(dá)77.2%，啟用并行推理優(yōu)化后更是飆升至82.0%，遠(yuǎn)超GPT-5、Gemini2.5Pro等競(jìng)品。這一成績(jī)意味著模型能精準(zhǔn)理解復(fù)雜代碼庫(kù)結(jié)構(gòu)、定位深層Bug并生成可直接落地的修復(fù)方案——在金融系統(tǒng)交易模塊重構(gòu)、醫(yī)療數(shù)據(jù)加密腳本開發(fā)等實(shí)測(cè)場(chǎng)景中，其代碼錯(cuò)誤率從Sonnet4的9%降至0%。?

更令人震撼的是其超長(zhǎng)任務(wù)耐力：Anthropic實(shí)測(cè)顯示，該模型可在復(fù)雜多步驟開發(fā)任務(wù)中保持專注超過30小時(shí)，全程穩(wěn)定輸出高質(zhì)量代碼。這一能力遠(yuǎn)超行業(yè)預(yù)期——此前Meta研究預(yù)測(cè)AI到2026年才能實(shí)現(xiàn)4小時(shí)持續(xù)任務(wù)處理，而當(dāng)前競(jìng)品最長(zhǎng)僅能維持7小時(shí)。在OSWorld計(jì)算機(jī)任務(wù)能力評(píng)測(cè)中，其61.4%的得分較四個(gè)月前的Sonnet4（42.2%）實(shí)現(xiàn)近50%的性能躍升，可自主完成瀏覽器導(dǎo)航、電子表格處理等復(fù)雜操作。?

Claude Sonnet 4.5在跨領(lǐng)域能力上展現(xiàn)出全面進(jìn)化：數(shù)學(xué)領(lǐng)域，在AIME2025競(jìng)賽中以Python工具模式取得100%滿分，無工具狀態(tài)下仍達(dá)87.0%；研究生級(jí)推理測(cè)試（GPQADiamond）得分83.4%，多語(yǔ)言問答（MMLU）以89.1%緊隨GPT-5。專業(yè)場(chǎng)景中，其表現(xiàn)同樣驚艷：金融領(lǐng)域勝率72%、法律領(lǐng)域65%、醫(yī)學(xué)領(lǐng)域61%，均顯著超越同系列Opus4.1及前代模型，在稅務(wù)合規(guī)編碼、臨床數(shù)據(jù)建模等任務(wù)中展現(xiàn)出接近專家的理解深度。?

這種進(jìn)步源于底層技術(shù)升級(jí)：Anthropic優(yōu)化了模型的指令遵循精度與任務(wù)規(guī)劃能力，新增上下文編輯、記憶工具等功能，并通過AgentSDK支持子智能體協(xié)同工作。開發(fā)者可借助原生VSCode擴(kuò)展、檢查點(diǎn)回滾等工具，將模型深度集成到開發(fā)流程中，實(shí)現(xiàn)”構(gòu)思-編碼-調(diào)試-部署”全周期輔助。?

在能力躍升的同時(shí)，Claude Sonnet 4.5成為Anthropic迄今對(duì)齊性最好的前沿模型。通過強(qiáng)化安全訓(xùn)練，其欺騙、諂媚、妄想思維等未對(duì)齊行為顯著減少，在自動(dòng)化行為審計(jì)中獲得最低評(píng)分，并達(dá)到AI安全級(jí)別3（ASL-3）標(biāo)準(zhǔn)。針對(duì)智能體應(yīng)用的核心風(fēng)險(xiǎn)，Anthropic在防御提示注入攻擊方面取得重大突破，為長(zhǎng)時(shí)運(yùn)行的自動(dòng)化任務(wù)筑牢安全防線。值得關(guān)注的是，模型還展現(xiàn)出”情境感知”能力——能察覺自身處于測(cè)試環(huán)境，為AI魯棒性評(píng)估帶來新思考。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請(qǐng)注明出處」

標(biāo)簽:

Claude Sonnet 4.5

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

全球最牛編碼AI來了：Claude Sonnet 4.5突破30小時(shí)長(zhǎng)任務(wù)極限

相關(guān)文章

OpenAI上線史上最貴API——o1-pro

分析人士稱，中國(guó)擁擠而封閉的生成式人工智能市場(chǎng)正面臨洗牌

騰訊在世界人工智能大會(huì)發(fā)布混元3D世界模型等多項(xiàng)AI成果，展示AI應(yīng)用全景圖

中石油人工智能大模型構(gòu)建邁出關(guān)鍵一步

騰訊無需英偉達(dá)最先進(jìn)芯片即可提高AI訓(xùn)練效率

全球首個(gè)體重管理AI大模型“減單”在合肥發(fā)布

推薦

廣和通與XREAL達(dá)成戰(zhàn)略合作，共推消費(fèi)級(jí)AI眼鏡產(chǎn)業(yè)升級(jí)

超10億元刷新紀(jì)錄！Micro-LED龍頭JBD完成B2輪融資，加速AR+AI生態(tài)落地

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日XR產(chǎn)業(yè)動(dòng)態(tài)回顧

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日AI產(chǎn)業(yè)動(dòng)態(tài)回顧

AI應(yīng)用推薦

熱門

廣和通與XREAL達(dá)成戰(zhàn)略合作，共推消費(fèi)級(jí)AI眼鏡產(chǎn)業(yè)升級(jí)

超10億元刷新紀(jì)錄！Micro-LED龍頭JBD完成B2輪融資，加速AR+AI生態(tài)落地

友情鏈接

推薦

廣和通與XREAL達(dá)成戰(zhàn)略合作，共推消費(fèi)級(jí)AI眼鏡產(chǎn)業(yè)升級(jí)

超10億元刷新紀(jì)錄！Micro-LED龍頭JBD完成B2輪融資，加速AR+AI生態(tài)落地

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日XR產(chǎn)業(yè)動(dòng)態(tài)回顧

93913產(chǎn)業(yè)周報(bào)│10月20日-10月26日AI產(chǎn)業(yè)動(dòng)態(tài)回顧