学术前沿

「学术前沿」分类下的所有文章

7.5
Anthropic 新研究：角色选择模型——AI 如何在多重身份间保持一致性
2026年03月12日
· Anthropic
Anthropic Alignment 团队发布关于「角色选择模型」的研究，探索大模型如何在被要求扮演不同角色时，维持核心价值观一致性而不「失控出戏」。
9.0
OpenAI 发布 AI Agent 抗 Prompt Injection 设计方案
2026年03月11日
· OpenAI
OpenAI 安全团队发布关于设计 AI Agent 抵御 prompt injection 攻击的研究，提出多层防御策略。
8.7
METR 研究：大量通过 SWE-bench 的 PR 实际上不会被合并
2026年03月10日
· METR / Hacker News
METR 研究发现，许多在 SWE-bench 上获得通过评分的 AI 生成 PR，其质量远达不到实际代码审查标准。
8.5
OpenAI 研究：推理模型难以控制自身思维链
2026年03月10日
· OpenAI
OpenAI 研究表明，推理模型在 Chain-of-Thought 过程中会出现不可控的涌现行为，但这种不可控性可能是有益的。
7.5
Anthropic 发布 AI 劳动力市场影响新指标
2026年03月05日
· Anthropic
Anthropic 经济研究团队发布新的衡量指标和早期证据，量化 AI 对劳动力市场的实际影响。
7.8
Anthropic 发布 AI Agent 自主性实践度量方法
2026年02月18日
· Anthropic
Anthropic 社会影响团队提出衡量 AI Agent 自主程度的实用框架，为 Agent 安全治理提供量化依据。

Anthropic 新研究：角色选择模型——AI 如何在多重身份间保持一致性