【AI 核心摘要】
阿里通义实验室研究团队提出全新强化学习框架EAPO(Evidence-Augmented Policy Optimization),旨在解决AI搜索中长文本推理的“幻觉”问题。现有强化学习仅奖励正确答案,导致模型可能蒙对答案却引用错误证据。EAPO引入“证据奖励”,将监督从答案下沉到证据提取过程,通过结构化工作流、细粒度过程奖励和奖励模型与策略模型的协同进化,提升推理准确性。该工作已被ACL 2026录用,在多个长文本基准测试中,基于Qwen3-30B-Thinking训练的EAPO模型平均得分63.1%,超越GPT-4o、Claude-Sonnet-4等更大模型,实现证据错误和推理错误双降。
了解更多详细信息,请访问原文:阿里通义推出全新强化学习框架EAPO
数据来源:AI Bot
© 版权声明
文章版权归作者所有,未经允许请勿转载。

