GitHub 上出现了一个名为 heretic 的工具,声称可以「全自动移除语言模型的内容审查」,目前在 GitHub Trending 上引发关注。
技术方向: heretic 针对本地部署模型(如 Llama、Mistral 系列)以及部分 API 服务,通过特定方法干预模型输出,移除默认的安全过滤层。
争议焦点:
- 支持方:认为模型用户应有权决定内容输出边界,尤其在合法的研究、创作场景中
- 反对方:认为此类工具削弱了 AI 公司多年构建的安全护栏,存在滥用风险
- 监管角度:随着 EU AI Act 和各国 AI 治理法规落地,此类工具的法律地位正变得更加复杂
此项目的走红折射出社区对「AI 护栏过度」的普遍不满情绪,也提醒了 AI 安全研究者:技术层面的对抗博弈正在加速。