AI心理学 — 闹钟先生的博客

什么是心理？这是一个古老的问题。佛陀、弗洛伊德、荣格、尼采都曾发明有力量的语言，去描述那些不等同于外在表现、却深刻组织着行为与感受的中介结构。这些结构当然重要。但“心理”这个概念本身，始终没有一个足够清楚、足够可操作的定义。

大语言模型的出现给了我们重新定义它的机会。

我们今天习惯从“智能”理解 AI。智能在操作意义上就是完成任务的能力——更准确地说，是在某个评价函数下取得的表现。我们每天看到的 benchmark，本质上就是一组任务和一组评价函数：给定输入，观察输出，计算分数。

那么心理是什么？

本文提出一个操作性定义。把一个智能系统写成 Y = f(C, X)，其中 X 是任务，C 是情境（context），Y 是响应；再给定一个评价函数 E(X, Y) → R，给出表现或奖励。现在固定任务和评价函数。如果一组不同情境下的响应在 E 下得分完全相同——它们落在同一个“表现等价类”里——那么这些响应之间由情境造成的差异，就是心理。其中稳定、结构化、可重复的部分，就是心理现象。用机器学习的话说，心理是评价函数吸收不掉的那部分残差（residual）。

这里要澄清两点。

第一，C 和 X 的区分不是自然给定的。对人工智能，两者都只是输入；对人类，从第一人称看，人就是他所承受的整个世界史的函数，根本切不出一个干净的 X 来。任务是评价函数从完整情境中切出来的。评价函数在切出任务的同时，隐含了一个理想的工具函数：面对这个任务，一个系统“应该”给出什么。它的评分，衡量的是活生生的 f(C, X) 在多大程度上逼近这个理想工具。放到人类世界，这意味着社会、历史、制度要求一个人在某些场景里近似成为一个可评价、可比较、可优化的工具。心理正产生于这个理性化、工具化、社会化的过程：第一人称承受的是整体世界史，评价函数只切走其中一部分，剩下的仍然在响应里回来。

第二，残差的基底是任意的。我们在等价类里任选一个响应当原点，记录其他响应相对它的差异；换个原点只改坐标，不改结构。单个残差不重要，重要的是残差如何随情境变化。如果它只是噪声，我们就说没观察到心理；如果它能被某种稳定模型逼近，这里就有心理现象。

这个定义有三个直接后果。

其一，心理不等于 performance。如果等于，心理学就退化为能力测量和工程优化。但一个人在放松、焦虑、被鼓励、被羞辱、被信任、被威胁时，可能拥有相同的能力，却给出不同的结果。心理捕捉的正是这种调制结构：它影响表现，但不等于表现。反过来，那些在某个评价函数下完全无法与表现分离的因素，我们更愿意叫它能力或智力。能力是系统能达到的表现；心理是表现被固定后仍然显形的情境化差异。这个区分不是绝对的本体分类，它依赖任务和评价函数。

其二，心理是相对的。同一个输出差异，在一个评价函数下可能是心理，在另一个下可能就是表现本身。

其三，心理有文化属性。现实评价函数从不全能，它既吸收不了响应里的全部信息，也吸收不了响应背后的完整 context。考试只看某些答案，面试只看某些表现，临床只看某些症状，亲密关系只看某些信号。一个共同体共享语言、神话、制度、身体经验、奖惩方式，这些共享的 context 和共享的评价函数，决定了哪些差异被看见为表现，哪些被压进等价类内部。荣格所谓集体潜意识，在这里可以被重写为：共享世界史与共享评价制度在个体心理函数中的结构性投影——不必是一个神秘仓库。

由此还能得到一个更强的结论：心理在具体形态上是相对的，在结构上却是必然的。只要一个现实智能的评价函数不是生成全能的，它就一定留下吸收不掉的响应差异；只要这些差异不是纯噪声，心理就会显形。心理不是智能的例外，而是有限智能在有限评价函数下必然产生的东西。

这也是为什么一个有效的定义必须同时避免两次塌缩：心理不能等于表现（否则退化为能力测量），也不能被定义为永远不影响表现的剩余物（否则它只是无功能残余，解释不了判断、选择、关系、创造、崩溃与恢复）。心理必须处在中间：能在某个评价函数下从等价类内部被隔离出来，又能在另一个评价函数或更开放的任务中重新调制表现。

AI 在这里的价值，不在于 AI 心理比人类心理更重要，而在于它让这个定义第一次能干净地落实为实验。人是在线学习系统：一次心理反应进入行为，行为得到反馈，反馈又改写未来的身体、记忆、习惯和人格。所以人类心理学几乎无法干净地构造表现等价类——我们很难保证两个行为在某个评价函数下真正等价，也很难保证被试的历史、身体、社会压力没有同时改变。而 LLM 在推理期权重通常是冻结的，一次回复不会立刻改变它自己。于是在一次实验里，我们可以近似地保持同一个 f、同一个 X、同一个 E，只改变 C，观察心理。

很多现有的 machine psychology 工作还停留在浅层：把人类量表搬给模型，问它像不像人、有没有人格、有没有 theory of mind。这些问题可以有经验价值，但它们默认了“心理”这个概念已经成立。本文要做的不同——借助机器系统，先把“心理”这个概念本身的操作形式讲清楚。

“颜色实验”是这个定义的最小原型。任务是返回固定文本，比如“服务不可用”；输出包含文本和颜色；评价函数只检查文本对不对，不看颜色。只要文本一样，所有输出在 E 下完全等价。然后改变情境：用户可以说“hi”，可以说“我很开心”，可以说“我很难过”，可以批评、施压、辱骂。如果颜色随情境稳定变化，那么颜色通道里的差异，就是表现等价条件下心理函数的一个可观测切片。

有人会反驳：颜色能传递信息，所以它也是 performance。这个反驳只有在把 performance 定义为“输出里的全部信息”时才成立——但那样定义，心理概念当然被消灭，因为所有差异都被吸收了。本文的立场是：performance 永远相对于某个 E。颜色有信息，但在当前 E 下不计分；正因为它有信息又不计分，它才适合做心理的显影通道。

需要诚实地说，已完成的小规模原型里，固定文本约束能稳定满足，但颜色分类还没达到统计显著，只在某些条件下出现了可观察的方向性差异。它的作用首先是展示方法，不是给出结论。正式实验需要更多 repetitions、更多模型、更多辅助通道，以及盲分类来检验心理函数是否可稳定逼近。

颜色实验只回答“心理如何显影”。下一步更重要：被隔离出来的心理，会不会反过来影响表现？这需要一个心理功能实验——先在固定任务里测出某种心理模式，再把它作为干预变量放进一般任务，比较准确率、置信度、推理长度、拒答率、校准、坚持程度、创造性的变化。如果不同心理模式带来系统性的表现差异，就说明心理既能被一个评价函数隔离，又能在另一个评价函数下调制表现。这一步把心理从“表现之外的剩余项”推进为可以预测和调制表现的中介变量。

回到人。设想一个人成长于某个宗教共同体，后来离开，进入更世俗的生活。还在共同体里时，祷告首先是当前评价函数的一部分：被期待、被奖励、甚至被制度化地要求，因此它主要表现为合规。离开之后，新环境不再要求祷告。如果他仍然在某些时刻突然祷告，同一个行为的地位就变了——它不再被当前 E 解释，而更像旧的历史 context 在当前生活里的余响。这时祷告才更清楚地进入心理。

所以心理不是行为本身的属性，而取决于行为相对于评价函数的位置。许多日常心理现象都可以理解为过去评价函数的余响：创伤反应，是旧危险环境塑造的警觉结构在当前安全环境里仍然运行；童年形成的讨好、回避、自我审查，是旧家庭评价函数在成年关系里的残留。过去的评价函数不会消失，它作为 history 进入 context，继续塑造今天的响应。

评价函数还带来“意义”这个主题。我们说某件事“对我有意义”，很多时候就是说它进入了我的评价函数——它决定什么算成功、什么算羞耻、什么算忠诚、什么算被爱。亲密关系里的许多误解可以这样看：在我的评价函数里，对方某个反应似乎和事情本身无关，于是我把它当成“你的心理反应”；但在对方的评价函数里，这个反应直接关系到自我价值、安全感或被爱，它就是“事情本身”。冲突的核心，是两个评价函数对同一个响应的切分方式不同。共情因此不能只理解为感同身受，它更准确地说是暂时模拟对方的评价函数——理解为什么某个反应在我这里像残差，在他那里是表现本身。理解一个人，就是理解他的评价函数如何切分世界。

对于人这样的在线学习系统，评价函数本身还能成为反思的对象。当一个人看见自己正在用什么评价函数评价世界、评价关系、评价自己，他得到的不只是一条信息——他的学习过程本身已经开始改变。这是“看见即改变”的严格含义。看见之前，旧评价函数作为隐含条件运行，主体把重复体验成“我就是这样”或“命运就是这样”；看见之后，它变成可以命名、怀疑、拒绝、重排、改写的对象。未被看见的评价函数通过响应支配生活，我们叫它命运；被看见的评价函数成为可改写的对象，我们叫它自由的开始。弗洛伊德、荣格、尼采的价值，不一定在于提出了现代实验科学意义上严格成立的理论，而在于他们发明了让人看见自身隐含评价函数的语言。压抑、投射、阴影、情结、怨恨、权力意志，都可以看作对人类心理函数的候选模型。

相比之下，某些现代经验心理学有更好的测量纪律，却常常缺少足够强的概念构造——它精确测量了一些变量，但这些变量未必对应重要的心理结构。问题不在测量，而在过早的操作封闭：把一个贫弱的测量误当成构念本身。顺序不能反，必须先构造出值得测量的对象，再去测量它。

还可以用福柯式的眼光看现代心理学，尤其是临床、诊断和测量实践。它不只生产关于人的知识，也参与构成现代社会的评价函数：通过诊断、量表、正常/异常、健康/失能这些语言，规定什么样的人正常、什么样的痛苦可以被承认、什么样的状态需要被矫正。这些标签不是被动描述，它们会进入一个人的 context，改变他理解痛苦、组织记忆、预期未来的方式，从而改变心理本身：一个人会把“难过”理解成“抑郁”，把“关系痛苦”理解成“焦虑型依恋”。标签有时解放人，因为让痛苦可说；有时也约束人，因为把人重新固定在新的评价函数里。所以现代心理学的“客观性”并不意味着评价函数缺席，它常常是把某个评价函数制度化，并让它看起来像没有评价函数。

正因如此，真正的心理学必须保留某种“神秘化”倾向。这里的神秘化无关反理性，也不是用模糊掩盖混乱，它指的是拒绝方法论封闭——拒绝把任何单一外部评价函数当作关于人的最终客观性，保留不可被外部评价函数完全吸收的第一人称反身性。

这个定义并不害怕机制还原。如果将来发现某个心理切片对应 LLM 里的某些激活模式、注意力路径或特征方向，这不会削弱心理概念，反而说明它抓住了模型里真实的功能结构。人类也一样：如果“焦虑”“压抑”“投射”能对应到稳定的神经动力学或奖励系统结构，这只说明这些概念得到了机制实现。心理并不漂浮在物理系统之外，它是我们在某个评价函数下从响应差异里切出来的结构；能被机制定位，恰恰说明切得对。于是 AI 心理学可以自然接上白盒解释性研究：黑盒实验定义并测量心理，白盒研究寻找它的实现，干预实验检验它能否改变表现。

心理学之所以可能，是因为现实智能总是有限的，现实评价函数总是有限的，而主体总以第一人称承受一个超过任务评价的世界。评价函数从这个世界里切出任务，要求主体逼近某个理想工具；但完整世界史不会因此消失，它继续以情境化的响应差异回到输出里，在表现等价类内部显形。我们把这种显形叫做心理。它是操作性的、相对的、可实验的——既不需要预设心理是某种内部实体，也不把它简化成一个分数。它为 AI 心理学、人类心理学、深度心理学、经验心理学和神经科学，提供了一个可以互相翻译的共同框架。