本文探讨了Coding Agent在实际应用中常被忽视的问题:用户不满往往源于Agent“做得不好”,而非“做不到”,具体表现为不遵循明确的指令规范。文章指出,当前主流评估体系(如SWE-bench)过于结果导向,无法衡量过程合规性,导致评估与真实场景错位。 为此,作者团队提出了OctoCodingBench,一个关注过程规范的评估基准,从规则遵循准确率(CSR)和任务成功率(ISR)两个维度评估Agent。实验发现,现有模型在单项约束上表现尚可(CSR >80%),但整体合规成功率很低(ISR仅10%-30%),即便顶尖模型如Claude 4.5 Opus的ISR也仅36.2%,显示过程遵循仍是盲区。同时,开源模型已展现出追赶闭源模型的竞争力。 文章最后呼吁,下一代Coding Agent需引入过程监督、层级化指令遵循和可验证检查表,推动Agent从“写出能跑的代码”转向“在复杂约束下协作完成任务”,真正成为可靠的生产力工具。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

