学术前沿
「学术前沿」分类下的所有文章
- 7.5
Anthropic 新研究:角色选择模型——AI 如何在多重身份间保持一致性
Anthropic Alignment 团队发布关于「角色选择模型」的研究,探索大模型如何在被要求扮演不同角色时,维持核心价值观一致性而不「失控出戏」。
- 9.0
OpenAI 发布 AI Agent 抗 Prompt Injection 设计方案
· OpenAIOpenAI 安全团队发布关于设计 AI Agent 抵御 prompt injection 攻击的研究,提出多层防御策略。
- 8.7
METR 研究:大量通过 SWE-bench 的 PR 实际上不会被合并
METR 研究发现,许多在 SWE-bench 上获得通过评分的 AI 生成 PR,其质量远达不到实际代码审查标准。
- 8.5
- 7.5
- 7.8
Anthropic 发布 AI Agent 自主性实践度量方法
Anthropic 社会影响团队提出衡量 AI Agent 自主程度的实用框架,为 Agent 安全治理提供量化依据。