All the articles with the tag "swe-bench".
METR 研究发现,许多在 SWE-bench 上获得通过评分的 AI 生成 PR,其质量远达不到实际代码审查标准。