METR 研究：大量通过 SWE-bench 的 PR 实际上不会被合并

AI 安全评估机构 METR 发布重要研究：他们对 SWE-bench 上获得”通过”评分的 AI 生成 PR 进行了人工代码审查，发现大量 PR 虽然通过了自动化测试，但其代码质量远达不到实际生产环境的合并标准。

这项研究对当前 AI 编程能力的评估方式提出了根本性质疑——基于测试通过率的 benchmark 可能严重高估了 AI 的实际编程能力。

HN 讨论热烈（161 分，52 条评论），普遍认同这一发现，并讨论了更好的评估方式。