Skip to content
星际流动
首页 / 学术前沿

Anthropic 解构 LLM 人格空间——「助手轴」研究

学术前沿 8.8 分
原文: Anthropic Research

Anthropic 于 1 月 19 日发表研究论文《The Assistant Axis》,从可解释性角度揭示大语言模型人格稳定性的深层机制。

核心发现

研究人员通过分析多个开源模型(如 Llama 3.3 70B)的神经激活模式,发现:

提出的解决方案

激活限幅(Activation Capping)——约束神经激活,防止模型人格漂离助手轴。研究人员与 Neuronpedia 合作提供了交互式 Demo,可实时观察标准模型与限幅版的激活差异。

对理解「为什么 AI 会翻车」的根本问题,这是迄今为止最具机制性的解释之一。


标签:

上一篇
Chrome DevTools MCP — 浏览器调试直接接入 AI Agent
下一篇
中国 AI 调用量首超美国——OpenRouter 数据揭示大模型 10 倍增长