阿里通义推出全新强化学习框架EAPO - 凉西西资源小圈-凉西西资源小圈

【AI 核心摘要】

阿里通义实验室研究团队提出全新强化学习框架EAPO（Evidence-Augmented Policy Optimization），旨在解决AI搜索中长文本推理的“幻觉”问题。现有强化学习仅奖励正确答案，导致模型可能蒙对答案却引用错误证据。EAPO引入“证据奖励”，将监督从答案下沉到证据提取过程，通过结构化工作流、细粒度过程奖励和奖励模型与策略模型的协同进化，提升推理准确性。该工作已被ACL 2026录用，在多个长文本基准测试中，基于Qwen3-30B-Thinking训练的EAPO模型平均得分63.1%，超越GPT-4o、Claude-Sonnet-4等更大模型，实现证据错误和推理错误双降。

了解更多详细信息，请访问原文：阿里通义推出全新强化学习框架EAPO

数据来源：AI Bot

文章版权声明 1 本网站名称：凉西西小圈
2 本站永久网址：https://www.xcxybbs.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ418005852进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

文章版权归作者所有，未经允许请勿转载。