
Anthropic正式推出旗艦級AI模型Claude Sonnet 4.5,以”全球最出色的編碼模型””構(gòu)建復雜智能體的最強工具”雙重定位引爆行業(yè)關(guān)注。與追求極致性能的Opus系列不同,此次Anthropic將升級重心放在覆蓋用戶最廣、場景最多元的中端Sonnet產(chǎn)品線,通過”性能-速度-成本”的精準平衡,實現(xiàn)技術(shù)突破與實用價值的最大化。該模型已全面登陸Claude.ai官網(wǎng)、iOS/Android應用,并通過Amazon Bedrock、Google Cloud VertexAI開放開發(fā)者接入,定價維持與前代一致的3美元/百萬token輸入、15美元/百萬token輸出標準,配合提示緩存技術(shù)可降低90%使用成本。?
在衡量”真實世界軟件編碼能力”的權(quán)威基準SWE-benchVerified(含500項GitHub真實拉取請求任務)中,Claude Sonnet 4.5創(chuàng)下歷史性突破:單模型配置下準確率達77.2%,啟用并行推理優(yōu)化后更是飆升至82.0%,遠超GPT-5、Gemini2.5Pro等競品。這一成績意味著模型能精準理解復雜代碼庫結(jié)構(gòu)、定位深層Bug并生成可直接落地的修復方案——在金融系統(tǒng)交易模塊重構(gòu)、醫(yī)療數(shù)據(jù)加密腳本開發(fā)等實測場景中,其代碼錯誤率從Sonnet4的9%降至0%。?
更令人震撼的是其超長任務耐力:Anthropic實測顯示,該模型可在復雜多步驟開發(fā)任務中保持專注超過30小時,全程穩(wěn)定輸出高質(zhì)量代碼。這一能力遠超行業(yè)預期——此前Meta研究預測AI到2026年才能實現(xiàn)4小時持續(xù)任務處理,而當前競品最長僅能維持7小時。在OSWorld計算機任務能力評測中,其61.4%的得分較四個月前的Sonnet4(42.2%)實現(xiàn)近50%的性能躍升,可自主完成瀏覽器導航、電子表格處理等復雜操作。?
Claude Sonnet 4.5在跨領(lǐng)域能力上展現(xiàn)出全面進化:數(shù)學領(lǐng)域,在AIME2025競賽中以Python工具模式取得100%滿分,無工具狀態(tài)下仍達87.0%;研究生級推理測試(GPQADiamond)得分83.4%,多語言問答(MMLU)以89.1%緊隨GPT-5。專業(yè)場景中,其表現(xiàn)同樣驚艷:金融領(lǐng)域勝率72%、法律領(lǐng)域65%、醫(yī)學領(lǐng)域61%,均顯著超越同系列Opus4.1及前代模型,在稅務合規(guī)編碼、臨床數(shù)據(jù)建模等任務中展現(xiàn)出接近專家的理解深度。?
這種進步源于底層技術(shù)升級:Anthropic優(yōu)化了模型的指令遵循精度與任務規(guī)劃能力,新增上下文編輯、記憶工具等功能,并通過AgentSDK支持子智能體協(xié)同工作。開發(fā)者可借助原生VSCode擴展、檢查點回滾等工具,將模型深度集成到開發(fā)流程中,實現(xiàn)”構(gòu)思-編碼-調(diào)試-部署”全周期輔助。?
在能力躍升的同時,Claude Sonnet 4.5成為Anthropic迄今對齊性最好的前沿模型。通過強化安全訓練,其欺騙、諂媚、妄想思維等未對齊行為顯著減少,在自動化行為審計中獲得最低評分,并達到AI安全級別3(ASL-3)標準。針對智能體應用的核心風險,Anthropic在防御提示注入攻擊方面取得重大突破,為長時運行的自動化任務筑牢安全防線。值得關(guān)注的是,模型還展現(xiàn)出”情境感知”能力——能察覺自身處于測試環(huán)境,為AI魯棒性評估帶來新思考。








