全球最牛編碼AI來了：Claude Sonnet 4.5突破30小時長任務極限

William2025年10月7日 · 大模型 ·

?? 由文心大模型生成的文章摘要

Anthropic正式推出旗艦級AI模型Claude Sonnet 4.5，以”全球最出色的編碼模型””構(gòu)建復雜智能體的最強工具”雙重定位引爆行業(yè)關(guān)注。與追求極致性能的Opus系列不同，此次Anthropic將升級重心放在覆蓋用戶最廣、場景最多元的中端Sonnet產(chǎn)品線，通過”性能-速度-成本”的精準平衡，實現(xiàn)技術(shù)突破與實用價值的最大化。該模型已全面登陸Claude.ai官網(wǎng)、iOS/Android應用，并通過Amazon Bedrock、Google Cloud VertexAI開放開發(fā)者接入，定價維持與前代一致的3美元/百萬token輸入、15美元/百萬token輸出標準，配合提示緩存技術(shù)可降低90%使用成本。?

在衡量”真實世界軟件編碼能力”的權(quán)威基準SWE-benchVerified（含500項GitHub真實拉取請求任務）中，Claude Sonnet 4.5創(chuàng)下歷史性突破：單模型配置下準確率達77.2%，啟用并行推理優(yōu)化后更是飆升至82.0%，遠超GPT-5、Gemini2.5Pro等競品。這一成績意味著模型能精準理解復雜代碼庫結(jié)構(gòu)、定位深層Bug并生成可直接落地的修復方案——在金融系統(tǒng)交易模塊重構(gòu)、醫(yī)療數(shù)據(jù)加密腳本開發(fā)等實測場景中，其代碼錯誤率從Sonnet4的9%降至0%。?

更令人震撼的是其超長任務耐力：Anthropic實測顯示，該模型可在復雜多步驟開發(fā)任務中保持專注超過30小時，全程穩(wěn)定輸出高質(zhì)量代碼。這一能力遠超行業(yè)預期——此前Meta研究預測AI到2026年才能實現(xiàn)4小時持續(xù)任務處理，而當前競品最長僅能維持7小時。在OSWorld計算機任務能力評測中，其61.4%的得分較四個月前的Sonnet4（42.2%）實現(xiàn)近50%的性能躍升，可自主完成瀏覽器導航、電子表格處理等復雜操作。?

Claude Sonnet 4.5在跨領(lǐng)域能力上展現(xiàn)出全面進化：數(shù)學領(lǐng)域，在AIME2025競賽中以Python工具模式取得100%滿分，無工具狀態(tài)下仍達87.0%；研究生級推理測試（GPQADiamond）得分83.4%，多語言問答（MMLU）以89.1%緊隨GPT-5。專業(yè)場景中，其表現(xiàn)同樣驚艷：金融領(lǐng)域勝率72%、法律領(lǐng)域65%、醫(yī)學領(lǐng)域61%，均顯著超越同系列Opus4.1及前代模型，在稅務合規(guī)編碼、臨床數(shù)據(jù)建模等任務中展現(xiàn)出接近專家的理解深度。?

這種進步源于底層技術(shù)升級：Anthropic優(yōu)化了模型的指令遵循精度與任務規(guī)劃能力，新增上下文編輯、記憶工具等功能，并通過AgentSDK支持子智能體協(xié)同工作。開發(fā)者可借助原生VSCode擴展、檢查點回滾等工具，將模型深度集成到開發(fā)流程中，實現(xiàn)”構(gòu)思-編碼-調(diào)試-部署”全周期輔助。?

在能力躍升的同時，Claude Sonnet 4.5成為Anthropic迄今對齊性最好的前沿模型。通過強化安全訓練，其欺騙、諂媚、妄想思維等未對齊行為顯著減少，在自動化行為審計中獲得最低評分，并達到AI安全級別3（ASL-3）標準。針對智能體應用的核心風險，Anthropic在防御提示注入攻擊方面取得重大突破，為長時運行的自動化任務筑牢安全防線。值得關(guān)注的是，模型還展現(xiàn)出”情境感知”能力——能察覺自身處于測試環(huán)境，為AI魯棒性評估帶來新思考。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

標簽:

Claude Sonnet 4.5

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

全球最牛編碼AI來了：Claude Sonnet 4.5突破30小時長任務極限

相關(guān)文章

全球首個！Memories.ai推出大型視覺記憶模型并完成800萬美元種子輪融資

詹姆斯?卡梅隆談AI：富有創(chuàng)造力但難具獨特生活體驗

OpenAI更新Agents SDK支持MCP，推動AI行業(yè)變革

阿里云Q2營收增長26%，AI成增長核心動力

OpenAI推出原生多模態(tài)圖像生成模型API，賦能開發(fā)者創(chuàng)新

Anthropic推出先進AI混合推理模型

推薦

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)

AI應用推薦

熱門

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

友情鏈接

推薦

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)