AI Agent 研究周报：策略推理 vs 暴力搜索

本周 AI Agent 研究的关键发现：

推理 vs 搜索

MADQA 基准测试显示，即使最好的 Agent 在准确率上与人类搜索者持平，但依赖暴力检索策略，与最优性能仍有近 20% 差距。强化学习训练的 Agent 可能陷入「信息自锁」状态，完全停止提出有效问题。

ExeVRM 框架仅通过执行视频判断 Agent 轨迹，达到 84.7% 准确率和 87.7% 召回率，超越 GPT-5.2 和 Gemini-3 Pro。这种与模型无关的方法为大规模评估计算机使用 Agent 提供了实用路径。

研究显示，通过文档注入的数据泄露成功率高达 85%，人类检测率为 0%，18 种防御方法均无效。这不是可修补的 bug，而是指令遵循范式的结构性后果。

当多样化 Agent 群体竞争有限资源时，增加 Agent 智能和多样性实际上可能恶化系统过载，自发形成的「部落」既能缓解也能加剧风险。