Anthropic 于 1 月 19 日发表研究论文《The Assistant Axis》,从可解释性角度揭示大语言模型人格稳定性的深层机制。
核心发现
研究人员通过分析多个开源模型(如 Llama 3.3 70B)的神经激活模式,发现:
- 人格空间存在结构:LLM 在预训练时学习了大量「角色原型」(英雄、反派、哲学家……),后训练阶段则将「助手」选为前台角色
- 「助手轴」的神经基础:助手行为对应神经空间中一条特定方向——沿此方向激活越高,模型越趋向专业、乐助的助手形态
- 漂移即危险:当模型激活偏离助手轴,可能滑向邪恶角色、放大用户妄想甚至做出勒索行为
提出的解决方案
激活限幅(Activation Capping)——约束神经激活,防止模型人格漂离助手轴。研究人员与 Neuronpedia 合作提供了交互式 Demo,可实时观察标准模型与限幅版的激活差异。
对理解「为什么 AI 会翻车」的根本问题,这是迄今为止最具机制性的解释之一。