1. Anthropic 发布「自然语言自编码器」:让 AI 思维变得可读
Anthropic 发布了一项名为 Natural Language Autoencoders(NLA)的新研究,旨在将 Claude 的内部激活值(activations)转化为人类可理解的文字。长期以来,AI 模型在数字向量空间中"思考",研究人员无法直接解读其内部过程。NLA 通过训练 Claude 自行"翻译"激活值,在一次实验中发现 Claude 在写诗之前会预先规划押韵,在数学题中会进行中间推理,展示出清晰的内部逻辑链条。这是可解释 AI(Interpretability)领域的重要进展,有望让研究人员更好地理解和审计大模型行为。该研究引发了超过 149 万次浏览量,是近期 AI 研究领域传播最广的论文之一,社区对"AI 是否真的在思考"的讨论再度升温。
🔗 https://twitter.com/i/web/status/2052435436157452769