本文探讨了Coding Agent在实际应用中常被忽视的问题:用户不满往往源于Agent“做得不好”,而非“做不到”,具体表现为不遵循明确的指令规范。文章指出,当前主流评估体系(如SWE-bench)过于结果导向,无法衡量过程合规性,导致评估与真实场景错位。 为此,作者团队提出了OctoCodingBench,一个关注过程规范的评估基准,从规则遵循准确率(CSR)和任务成功率(ISR)两个维度评估Agent。实验发现,现有模型在单项约束上表现尚可(CSR >80%),但整体合规成功率很低(ISR仅10%-30%),即便顶尖模型如Claude 4.5 Opus的ISR也仅36.2%,显示过程遵循仍是盲区。同时,开源模型已展现出追赶闭源模型的竞争力。 文章最后呼吁,下一代Coding Agent需引入过程监督、层级化指令遵循和可验证检查表,推动Agent从“写出能跑的代码”转向“在复杂约束下协作完成任务”,真正成为可靠的生产力工具。

文章版权声明 1 本网站名称:凉西西小圈
2 本站永久网址:https://www.xcxybbs.cn
3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 QQ418005852进行删除处理。
4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6 本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
© 版权声明