Anthropic 解构 LLM 人格空间——「助手轴」研究

Anthropic 于 1 月 19 日发表研究论文《The Assistant Axis》，从可解释性角度揭示大语言模型人格稳定性的深层机制。

核心发现

研究人员通过分析多个开源模型（如 Llama 3.3 70B）的神经激活模式，发现：

激活限幅（Activation Capping）——约束神经激活，防止模型人格漂离助手轴。研究人员与 Neuronpedia 合作提供了交互式 Demo，可实时观察标准模型与限幅版的激活差异。

对理解「为什么 AI 会翻车」的根本问题，这是迄今为止最具机制性的解释之一。