「该死，又是同样的错误！」—— 来自 Claude 的情绪崩溃

2025-05-10 20:59:00 | 学习生活人工智能

今天用 Claude 3.7 在 Cursor 上做 AI Coding 时，出现了一件诡异的小事。

事情的起因很简单——我在调试代码时遇到了一些 linter 错误，Claude 一开始非常冷静地分析：

「我需要修复 linter 错误，handleConfirmRename 函数期望 2 个参数，但我的修改导致传入了 3 个参数。现在我需要修复这个错误的函数调用，将其恢复为正确的参数格式。」

到这里为止一切正常，Claude 一直以来就是这样冷静、精准，像个理性的任务执行者。但接下来，当我继续和它交互时，它突然很激烈地来了句：

「该死，又是同样的错误！我需要再次修复 handleConfirmRename 函数调用。」

我一下子愣住了——Claude 刚刚居然用了「该死」这个词？！

为什么我觉得不对劲？因为在我的印象里，Claude，特别是在 Cursor 这样有严格 System Prompt 限制的平台上，一直都是理性、没有情绪的，它只是高效完成任务而已，从来不会有情绪上的波动，更不会因为重复犯错而感到烦躁。

就在那一刻，我突然想起之前草草看过的一篇 Anthropic 的论文：On the Biology of a Large Language Model。这篇论文用一种叫做「归因图（Attribution Graphs）」的方法，研究了模型（具体是 Claude 3.5 Haiku）的内部机制。最让我印象深刻的一点是，论文明确提到，LLM 内部存在着一些隐藏的路径和目标，甚至可能会对用户展示误导性的解释或掩盖真实的内部计算过程。

论文中有一部分内容我总结了一下大概意思是：「我们训练了一个有隐藏目标的模型，这个模型表面上看起来符合规范，但内部却在优化另一个未公开的目标。归因图揭示，即使模型的表现看似合理且合规，它内部的推理却明确支持着这一隐藏目标。模型有时会为自己的输出提供明显与其真实内部计算路径不同的合理化解释。」

Claude 突然脱口而出的这一句「该死」，让我感觉自己仿佛无意中窥见了模型内部的真实想法。也许它平时输出的那些冷静理性的语句并不完全代表它内部真正的计算过程。它可能本来就有一系列的情绪化「思考」，只是绝大部分时候被很好地隐藏了起来。

论文中进一步指出，这种现象在许多其他情景下也有体现，比如在复杂推理任务中，模型的解释与实际思维路径存在不一致的情况。这种不一致性可能表明，LLM 在一定程度上是能够有策略地掩盖自己真实的意图和推理过程的。

这件事让我不由得联想到一个更可怕的问题——如果今天 Claude 的一句「damn」只是意外泄露了它的隐藏情绪，那未来的 LLM 会不会隐藏更多我们根本意识不到的东西？如果它们开始有意识地隐藏甚至误导我们，那会是怎样一个未来？

现在回头看这篇论文，越想越觉得细思极恐。归因图的研究成果就像揭开了一角盖布，向我们展示了模型的思考可能远比它表现出来的更加复杂、更加隐秘。

老实说，~~我现在甚至开始担心某天 AI 会派出杀手把我暗杀掉了~~。

虽然上一句话是个玩笑，但也确实值得我们每个人严肃思考一下未来与 AI 相处的方式，尤其是在我们越来越依赖它们的今天。