蘋(píng)果公司在大語(yǔ)言模型(LLM)可靠性研究領(lǐng)域取得重大突破,其發(fā)布的RL4HS強(qiáng)化學(xué)習(xí)框架,實(shí)現(xiàn)了對(duì)模型幻覺(jué)內(nèi)容的“精準(zhǔn)定位”——不僅能判斷輸出是否存在錯(cuò)誤,更能直接標(biāo)出具體的錯(cuò)誤段落。在權(quán)威基準(zhǔn)測(cè)試中,該框架性能超越GPT-5、o3等當(dāng)前頂尖商用模型,為解決LLM“胡言亂語(yǔ)”難題提供了革命性方案。?
長(zhǎng)期以來(lái),幻覺(jué)檢測(cè)一直是LLM發(fā)展的核心瓶頸。傳統(tǒng)方法多將其簡(jiǎn)化為“有/無(wú)幻覺(jué)”的二分類(lèi)任務(wù),僅能給出籠統(tǒng)判斷,卻無(wú)法定位具體錯(cuò)誤片段。這種局限性在醫(yī)療診斷、法律文書(shū)、學(xué)術(shù)寫(xiě)作等高精度場(chǎng)景中尤為致命——用戶即便知道輸出有誤,也需逐句核查糾錯(cuò),效率極低。?
蘋(píng)果研究團(tuán)隊(duì)在論文中指出,幻覺(jué)片段檢測(cè)本質(zhì)是“多步驟決策過(guò)程”,需模型具備精細(xì)化推理能力。RL4HS的核心創(chuàng)新在于跳出傳統(tǒng)框架,通過(guò)強(qiáng)化學(xué)習(xí)機(jī)制引導(dǎo)模型完成“思維鏈(CoT)推理+片段定位”的完整流程,徹底改變了幻覺(jué)檢測(cè)的作業(yè)模式。
RL4HS的性能突破源于兩大核心技術(shù)的協(xié)同作用:?
片段級(jí)獎(jiǎng)勵(lì)機(jī)制(Span-levelRewards)?
不同于傳統(tǒng)“整體獎(jiǎng)勵(lì)”,該機(jī)制以片段級(jí)F1指標(biāo)為核心設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。模型每精準(zhǔn)定位一個(gè)錯(cuò)誤片段,就能獲得對(duì)應(yīng)獎(jiǎng)勵(lì);若遺漏或誤判,則會(huì)被扣分。這種精細(xì)化激勵(lì)迫使模型放棄“籠統(tǒng)判斷”的“偷懶行為”,轉(zhuǎn)而進(jìn)行逐段核查推理。?
類(lèi)別感知策略優(yōu)化(CAPO)?
針對(duì)幻覺(jué)檢測(cè)中“獎(jiǎng)勵(lì)不平衡”的固有難題,蘋(píng)果創(chuàng)新性引入CAPO機(jī)制。研究發(fā)現(xiàn),模型預(yù)測(cè)“無(wú)幻覺(jué)”時(shí)只需輸出空列表即可得高分,而預(yù)測(cè)“有幻覺(jué)”需精準(zhǔn)定位片段,難度遠(yuǎn)高且易失分,導(dǎo)致模型天然傾向于“保守判斷”。CAPO通過(guò)設(shè)置縮放因子α(實(shí)驗(yàn)中取值0.5)調(diào)整非幻覺(jué)類(lèi)別的優(yōu)勢(shì)值,有效平衡了兩類(lèi)預(yù)測(cè)的獎(jiǎng)勵(lì)權(quán)重,避免了召回率被抑制的問(wèn)題。?
這兩大技術(shù)均構(gòu)建于組相對(duì)策略優(yōu)化(GRPO)基礎(chǔ)之上,通過(guò)組內(nèi)優(yōu)勢(shì)值標(biāo)準(zhǔn)化與類(lèi)別平衡調(diào)整,形成了“激勵(lì)精準(zhǔn)推理+避免決策偏差”的完整閉環(huán)。?
蘋(píng)果團(tuán)隊(duì)在涵蓋摘要生成、問(wèn)答、數(shù)據(jù)到文本三大典型任務(wù)的RAGTruth基準(zhǔn)測(cè)試集上,對(duì)RL4HS進(jìn)行了全面驗(yàn)證。實(shí)驗(yàn)以Qwen2.5-7B/14B-Instruct為基礎(chǔ)模型,與Qwen3系列、GPT-4o-mini、GPT-5、o3等10余款主流模型展開(kāi)對(duì)比,結(jié)果呈現(xiàn)壓倒性優(yōu)勢(shì):?
7B輕量化版本:三大任務(wù)平均F1值達(dá)55.9,較傳統(tǒng)監(jiān)督微調(diào)(SFT)模型提升11.6%;?
14B標(biāo)準(zhǔn)版:摘要任務(wù)F1值57.6、問(wèn)答任務(wù)54.8、數(shù)據(jù)到文本任務(wù)62.6,三項(xiàng)指標(biāo)均超越GPT-5與o3,成為當(dāng)前該領(lǐng)域性能最強(qiáng)模型。?
定性分析更揭示了RL4HS的推理深度:在一則“酒店是否提供餐飲服務(wù)”的檢測(cè)案例中,傳統(tǒng)預(yù)訓(xùn)練模型因忽略“結(jié)構(gòu)化數(shù)據(jù)無(wú)餐飲屬性”的關(guān)鍵事實(shí),未識(shí)別出幻覺(jué);而RL4HS的推理過(guò)程與人工核查邏輯高度一致,精準(zhǔn)標(biāo)注出“提供餐飲服務(wù)”這一錯(cuò)誤片段。?
RL4HS的問(wèn)世,標(biāo)志著LLM幻覺(jué)治理從“被動(dòng)防御”進(jìn)入“主動(dòng)定位”的新階段。其核心價(jià)值不僅在于技術(shù)突破,更在于為高風(fēng)險(xiǎn)場(chǎng)景的AI應(yīng)用掃清障礙:?
醫(yī)療領(lǐng)域:可自動(dòng)標(biāo)注診斷建議中的錯(cuò)誤依據(jù),輔助醫(yī)生快速核查;?
法律場(chǎng)景:能定位合同生成中的虛假條款,降低合規(guī)風(fēng)險(xiǎn);?
內(nèi)容創(chuàng)作:為學(xué)術(shù)論文、新聞報(bào)道提供事實(shí)核查支持,減少誤導(dǎo)性信息傳播。?