蘋果發(fā)布RL4HS框架:精準定位LLM幻覺,性能超越GPT-5與o3

?? 由 文心大模型 生成的文章摘要

蘋果公司在大語言模型(LLM)可靠性研究領域取得重大突破,其發(fā)布的RL4HS強化學習框架,實現了對模型幻覺內容的“精準定位”——不僅能判斷輸出是否存在錯誤,更能直接標出具體的錯誤段落。在權威基準測試中,該框架性能超越GPT-5、o3等當前頂尖商用模型,為解決LLM“胡言亂語”難題提供了革命性方案。?

長期以來,幻覺檢測一直是LLM發(fā)展的核心瓶頸。傳統(tǒng)方法多將其簡化為“有/無幻覺”的二分類任務,僅能給出籠統(tǒng)判斷,卻無法定位具體錯誤片段。這種局限性在醫(yī)療診斷、法律文書、學術寫作等高精度場景中尤為致命——用戶即便知道輸出有誤,也需逐句核查糾錯,效率極低。?

蘋果研究團隊在論文中指出,幻覺片段檢測本質是“多步驟決策過程”,需模型具備精細化推理能力。RL4HS的核心創(chuàng)新在于跳出傳統(tǒng)框架,通過強化學習機制引導模型完成“思維鏈(CoT)推理+片段定位”的完整流程,徹底改變了幻覺檢測的作業(yè)模式。

RL4HS的性能突破源于兩大核心技術的協(xié)同作用:?

片段級獎勵機制(Span-levelRewards)?

不同于傳統(tǒng)“整體獎勵”,該機制以片段級F1指標為核心設計獎勵函數。模型每精準定位一個錯誤片段,就能獲得對應獎勵;若遺漏或誤判,則會被扣分。這種精細化激勵迫使模型放棄“籠統(tǒng)判斷”的“偷懶行為”,轉而進行逐段核查推理。?

類別感知策略優(yōu)化(CAPO)?

針對幻覺檢測中“獎勵不平衡”的固有難題,蘋果創(chuàng)新性引入CAPO機制。研究發(fā)現,模型預測“無幻覺”時只需輸出空列表即可得高分,而預測“有幻覺”需精準定位片段,難度遠高且易失分,導致模型天然傾向于“保守判斷”。CAPO通過設置縮放因子α(實驗中取值0.5)調整非幻覺類別的優(yōu)勢值,有效平衡了兩類預測的獎勵權重,避免了召回率被抑制的問題。?

這兩大技術均構建于組相對策略優(yōu)化(GRPO)基礎之上,通過組內優(yōu)勢值標準化與類別平衡調整,形成了“激勵精準推理+避免決策偏差”的完整閉環(huán)。?

蘋果團隊在涵蓋摘要生成、問答、數據到文本三大典型任務的RAGTruth基準測試集上,對RL4HS進行了全面驗證。實驗以Qwen2.5-7B/14B-Instruct為基礎模型,與Qwen3系列、GPT-4o-mini、GPT-5、o3等10余款主流模型展開對比,結果呈現壓倒性優(yōu)勢:?

7B輕量化版本:三大任務平均F1值達55.9,較傳統(tǒng)監(jiān)督微調(SFT)模型提升11.6%;?

14B標準版:摘要任務F1值57.6、問答任務54.8、數據到文本任務62.6,三項指標均超越GPT-5與o3,成為當前該領域性能最強模型。?

定性分析更揭示了RL4HS的推理深度:在一則“酒店是否提供餐飲服務”的檢測案例中,傳統(tǒng)預訓練模型因忽略“結構化數據無餐飲屬性”的關鍵事實,未識別出幻覺;而RL4HS的推理過程與人工核查邏輯高度一致,精準標注出“提供餐飲服務”這一錯誤片段。?

RL4HS的問世,標志著LLM幻覺治理從“被動防御”進入“主動定位”的新階段。其核心價值不僅在于技術突破,更在于為高風險場景的AI應用掃清障礙:?

醫(yī)療領域:可自動標注診斷建議中的錯誤依據,輔助醫(yī)生快速核查;?

法律場景:能定位合同生成中的虛假條款,降低合規(guī)風險;?

內容創(chuàng)作:為學術論文、新聞報道提供事實核查支持,減少誤導性信息傳播。?

「93913原創(chuàng)內容,轉載請注明出處」