AI 安全评估机构 METR 发布重要研究:他们对 SWE-bench 上获得”通过”评分的 AI 生成 PR 进行了人工代码审查,发现大量 PR 虽然通过了自动化测试,但其代码质量远达不到实际生产环境的合并标准。
这项研究对当前 AI 编程能力的评估方式提出了根本性质疑——基于测试通过率的 benchmark 可能严重高估了 AI 的实际编程能力。
HN 讨论热烈(161 分,52 条评论),普遍认同这一发现,并讨论了更好的评估方式。
AI 安全评估机构 METR 发布重要研究:他们对 SWE-bench 上获得”通过”评分的 AI 生成 PR 进行了人工代码审查,发现大量 PR 虽然通过了自动化测试,但其代码质量远达不到实际生产环境的合并标准。
这项研究对当前 AI 编程能力的评估方式提出了根本性质疑——基于测试通过率的 benchmark 可能严重高估了 AI 的实际编程能力。
HN 讨论热烈(161 分,52 条评论),普遍认同这一发现,并讨论了更好的评估方式。