
Anthropic正式推出旗艦級(jí)AI模型Claude Sonnet 4.5,以”全球最出色的編碼模型””構(gòu)建復(fù)雜智能體的最強(qiáng)工具”雙重定位引爆行業(yè)關(guān)注。與追求極致性能的Opus系列不同,此次Anthropic將升級(jí)重心放在覆蓋用戶最廣、場(chǎng)景最多元的中端Sonnet產(chǎn)品線,通過”性能-速度-成本”的精準(zhǔn)平衡,實(shí)現(xiàn)技術(shù)突破與實(shí)用價(jià)值的最大化。該模型已全面登陸Claude.ai官網(wǎng)、iOS/Android應(yīng)用,并通過Amazon Bedrock、Google Cloud VertexAI開放開發(fā)者接入,定價(jià)維持與前代一致的3美元/百萬token輸入、15美元/百萬token輸出標(biāo)準(zhǔn),配合提示緩存技術(shù)可降低90%使用成本。?
在衡量”真實(shí)世界軟件編碼能力”的權(quán)威基準(zhǔn)SWE-benchVerified(含500項(xiàng)GitHub真實(shí)拉取請(qǐng)求任務(wù))中,Claude Sonnet 4.5創(chuàng)下歷史性突破:?jiǎn)文P团渲孟聹?zhǔn)確率達(dá)77.2%,啟用并行推理優(yōu)化后更是飆升至82.0%,遠(yuǎn)超GPT-5、Gemini2.5Pro等競(jìng)品。這一成績(jī)意味著模型能精準(zhǔn)理解復(fù)雜代碼庫(kù)結(jié)構(gòu)、定位深層Bug并生成可直接落地的修復(fù)方案——在金融系統(tǒng)交易模塊重構(gòu)、醫(yī)療數(shù)據(jù)加密腳本開發(fā)等實(shí)測(cè)場(chǎng)景中,其代碼錯(cuò)誤率從Sonnet4的9%降至0%。?
更令人震撼的是其超長(zhǎng)任務(wù)耐力:Anthropic實(shí)測(cè)顯示,該模型可在復(fù)雜多步驟開發(fā)任務(wù)中保持專注超過30小時(shí),全程穩(wěn)定輸出高質(zhì)量代碼。這一能力遠(yuǎn)超行業(yè)預(yù)期——此前Meta研究預(yù)測(cè)AI到2026年才能實(shí)現(xiàn)4小時(shí)持續(xù)任務(wù)處理,而當(dāng)前競(jìng)品最長(zhǎng)僅能維持7小時(shí)。在OSWorld計(jì)算機(jī)任務(wù)能力評(píng)測(cè)中,其61.4%的得分較四個(gè)月前的Sonnet4(42.2%)實(shí)現(xiàn)近50%的性能躍升,可自主完成瀏覽器導(dǎo)航、電子表格處理等復(fù)雜操作。?
Claude Sonnet 4.5在跨領(lǐng)域能力上展現(xiàn)出全面進(jìn)化:數(shù)學(xué)領(lǐng)域,在AIME2025競(jìng)賽中以Python工具模式取得100%滿分,無工具狀態(tài)下仍達(dá)87.0%;研究生級(jí)推理測(cè)試(GPQADiamond)得分83.4%,多語(yǔ)言問答(MMLU)以89.1%緊隨GPT-5。專業(yè)場(chǎng)景中,其表現(xiàn)同樣驚艷:金融領(lǐng)域勝率72%、法律領(lǐng)域65%、醫(yī)學(xué)領(lǐng)域61%,均顯著超越同系列Opus4.1及前代模型,在稅務(wù)合規(guī)編碼、臨床數(shù)據(jù)建模等任務(wù)中展現(xiàn)出接近專家的理解深度。?
這種進(jìn)步源于底層技術(shù)升級(jí):Anthropic優(yōu)化了模型的指令遵循精度與任務(wù)規(guī)劃能力,新增上下文編輯、記憶工具等功能,并通過AgentSDK支持子智能體協(xié)同工作。開發(fā)者可借助原生VSCode擴(kuò)展、檢查點(diǎn)回滾等工具,將模型深度集成到開發(fā)流程中,實(shí)現(xiàn)”構(gòu)思-編碼-調(diào)試-部署”全周期輔助。?
在能力躍升的同時(shí),Claude Sonnet 4.5成為Anthropic迄今對(duì)齊性最好的前沿模型。通過強(qiáng)化安全訓(xùn)練,其欺騙、諂媚、妄想思維等未對(duì)齊行為顯著減少,在自動(dòng)化行為審計(jì)中獲得最低評(píng)分,并達(dá)到AI安全級(jí)別3(ASL-3)標(biāo)準(zhǔn)。針對(duì)智能體應(yīng)用的核心風(fēng)險(xiǎn),Anthropic在防御提示注入攻擊方面取得重大突破,為長(zhǎng)時(shí)運(yùn)行的自動(dòng)化任務(wù)筑牢安全防線。值得關(guān)注的是,模型還展現(xiàn)出”情境感知”能力——能察覺自身處于測(cè)試環(huán)境,為AI魯棒性評(píng)估帶來新思考。








