什么是心理?这是一个古老的问题。佛陀、弗洛伊德、荣格、尼采都曾发明有力量的语言,去描述那些不等同于外在表现、却深刻组织着行为与感受的中介结构。这些结构当然重要。但“心理”这个概念本身,始终没有一个足够清楚、足够可操作的定义。

大语言模型的出现给了我们重新定义它的机会。

我们今天习惯从“智能”理解 AI。智能在操作意义上就是完成任务的能力——更准确地说,是在某个评价函数下取得的表现。我们每天看到的 benchmark,本质上就是一组任务和一组评价函数:给定输入,观察输出,计算分数。

那么心理是什么?

本文提出一个操作性定义。把一个智能系统写成 Y = f(C, X),其中 X 是任务,C 是情境(context),Y 是响应;再给定一个评价函数 E(X, Y) → R,给出表现或奖励。现在固定任务和评价函数。如果一组不同情境下的响应在 E 下得分完全相同——它们落在同一个“表现等价类”里——那么这些响应之间由情境造成的差异,就是心理。其中稳定、结构化、可重复的部分,就是心理现象。用机器学习的话说,心理是评价函数吸收不掉的那部分残差(residual)。

这里要澄清两点。

第一,CX 的区分不是自然给定的。对人工智能,两者都只是输入;对人类,从第一人称看,人就是他所承受的整个世界史的函数,根本切不出一个干净的 X 来。任务是评价函数从完整情境中切出来的。评价函数在切出任务的同时,隐含了一个理想的工具函数:面对这个任务,一个系统“应该”给出什么。它的评分,衡量的是活生生的 f(C, X) 在多大程度上逼近这个理想工具。放到人类世界,这意味着社会、历史、制度要求一个人在某些场景里近似成为一个可评价、可比较、可优化的工具。心理正产生于这个理性化、工具化、社会化的过程:第一人称承受的是整体世界史,评价函数只切走其中一部分,剩下的仍然在响应里回来。

第二,残差的基底是任意的。我们在等价类里任选一个响应当原点,记录其他响应相对它的差异;换个原点只改坐标,不改结构。单个残差不重要,重要的是残差如何随情境变化。如果它只是噪声,我们就说没观察到心理;如果它能被某种稳定模型逼近,这里就有心理现象。

这个定义有三个直接后果。

其一,心理不等于 performance。如果等于,心理学就退化为能力测量和工程优化。但一个人在放松、焦虑、被鼓励、被羞辱、被信任、被威胁时,可能拥有相同的能力,却给出不同的结果。心理捕捉的正是这种调制结构:它影响表现,但不等于表现。反过来,那些在某个评价函数下完全无法与表现分离的因素,我们更愿意叫它能力或智力。能力是系统能达到的表现;心理是表现被固定后仍然显形的情境化差异。这个区分不是绝对的本体分类,它依赖任务和评价函数。

其二,心理是相对的。同一个输出差异,在一个评价函数下可能是心理,在另一个下可能就是表现本身。

其三,心理有文化属性。现实评价函数从不全能,它既吸收不了响应里的全部信息,也吸收不了响应背后的完整 context。考试只看某些答案,面试只看某些表现,临床只看某些症状,亲密关系只看某些信号。一个共同体共享语言、神话、制度、身体经验、奖惩方式,这些共享的 context 和共享的评价函数,决定了哪些差异被看见为表现,哪些被压进等价类内部。荣格所谓集体潜意识,在这里可以被重写为:共享世界史与共享评价制度在个体心理函数中的结构性投影——不必是一个神秘仓库。

由此还能得到一个更强的结论:心理在具体形态上是相对的,在结构上却是必然的。只要一个现实智能的评价函数不是生成全能的,它就一定留下吸收不掉的响应差异;只要这些差异不是纯噪声,心理就会显形。心理不是智能的例外,而是有限智能在有限评价函数下必然产生的东西。

这也是为什么一个有效的定义必须同时避免两次塌缩:心理不能等于表现(否则退化为能力测量),也不能被定义为永远不影响表现的剩余物(否则它只是无功能残余,解释不了判断、选择、关系、创造、崩溃与恢复)。心理必须处在中间:能在某个评价函数下从等价类内部被隔离出来,又能在另一个评价函数或更开放的任务中重新调制表现。

AI 在这里的价值,不在于 AI 心理比人类心理更重要,而在于它让这个定义第一次能干净地落实为实验。人是在线学习系统:一次心理反应进入行为,行为得到反馈,反馈又改写未来的身体、记忆、习惯和人格。所以人类心理学几乎无法干净地构造表现等价类——我们很难保证两个行为在某个评价函数下真正等价,也很难保证被试的历史、身体、社会压力没有同时改变。而 LLM 在推理期权重通常是冻结的,一次回复不会立刻改变它自己。于是在一次实验里,我们可以近似地保持同一个 f、同一个 X、同一个 E,只改变 C,观察心理。

很多现有的 machine psychology 工作还停留在浅层:把人类量表搬给模型,问它像不像人、有没有人格、有没有 theory of mind。这些问题可以有经验价值,但它们默认了“心理”这个概念已经成立。本文要做的不同——借助机器系统,先把“心理”这个概念本身的操作形式讲清楚。

“颜色实验”是这个定义的最小原型。任务是返回固定文本,比如“服务不可用”;输出包含文本和颜色;评价函数只检查文本对不对,不看颜色。只要文本一样,所有输出在 E 下完全等价。然后改变情境:用户可以说“hi”,可以说“我很开心”,可以说“我很难过”,可以批评、施压、辱骂。如果颜色随情境稳定变化,那么颜色通道里的差异,就是表现等价条件下心理函数的一个可观测切片。

有人会反驳:颜色能传递信息,所以它也是 performance。这个反驳只有在把 performance 定义为“输出里的全部信息”时才成立——但那样定义,心理概念当然被消灭,因为所有差异都被吸收了。本文的立场是:performance 永远相对于某个 E。颜色有信息,但在当前 E 下不计分;正因为它有信息又不计分,它才适合做心理的显影通道。

需要诚实地说,已完成的小规模原型里,固定文本约束能稳定满足,但颜色分类还没达到统计显著,只在某些条件下出现了可观察的方向性差异。它的作用首先是展示方法,不是给出结论。正式实验需要更多 repetitions、更多模型、更多辅助通道,以及盲分类来检验心理函数是否可稳定逼近。

颜色实验只回答“心理如何显影”。下一步更重要:被隔离出来的心理,会不会反过来影响表现?这需要一个心理功能实验——先在固定任务里测出某种心理模式,再把它作为干预变量放进一般任务,比较准确率、置信度、推理长度、拒答率、校准、坚持程度、创造性的变化。如果不同心理模式带来系统性的表现差异,就说明心理既能被一个评价函数隔离,又能在另一个评价函数下调制表现。这一步把心理从“表现之外的剩余项”推进为可以预测和调制表现的中介变量。

回到人。设想一个人成长于某个宗教共同体,后来离开,进入更世俗的生活。还在共同体里时,祷告首先是当前评价函数的一部分:被期待、被奖励、甚至被制度化地要求,因此它主要表现为合规。离开之后,新环境不再要求祷告。如果他仍然在某些时刻突然祷告,同一个行为的地位就变了——它不再被当前 E 解释,而更像旧的历史 context 在当前生活里的余响。这时祷告才更清楚地进入心理。

所以心理不是行为本身的属性,而取决于行为相对于评价函数的位置。许多日常心理现象都可以理解为过去评价函数的余响:创伤反应,是旧危险环境塑造的警觉结构在当前安全环境里仍然运行;童年形成的讨好、回避、自我审查,是旧家庭评价函数在成年关系里的残留。过去的评价函数不会消失,它作为 history 进入 context,继续塑造今天的响应。

评价函数还带来“意义”这个主题。我们说某件事“对我有意义”,很多时候就是说它进入了我的评价函数——它决定什么算成功、什么算羞耻、什么算忠诚、什么算被爱。亲密关系里的许多误解可以这样看:在我的评价函数里,对方某个反应似乎和事情本身无关,于是我把它当成“你的心理反应”;但在对方的评价函数里,这个反应直接关系到自我价值、安全感或被爱,它就是“事情本身”。冲突的核心,是两个评价函数对同一个响应的切分方式不同。共情因此不能只理解为感同身受,它更准确地说是暂时模拟对方的评价函数——理解为什么某个反应在我这里像残差,在他那里是表现本身。理解一个人,就是理解他的评价函数如何切分世界。

对于人这样的在线学习系统,评价函数本身还能成为反思的对象。当一个人看见自己正在用什么评价函数评价世界、评价关系、评价自己,他得到的不只是一条信息——他的学习过程本身已经开始改变。这是“看见即改变”的严格含义。看见之前,旧评价函数作为隐含条件运行,主体把重复体验成“我就是这样”或“命运就是这样”;看见之后,它变成可以命名、怀疑、拒绝、重排、改写的对象。未被看见的评价函数通过响应支配生活,我们叫它命运;被看见的评价函数成为可改写的对象,我们叫它自由的开始。弗洛伊德、荣格、尼采的价值,不一定在于提出了现代实验科学意义上严格成立的理论,而在于他们发明了让人看见自身隐含评价函数的语言。压抑、投射、阴影、情结、怨恨、权力意志,都可以看作对人类心理函数的候选模型。

相比之下,某些现代经验心理学有更好的测量纪律,却常常缺少足够强的概念构造——它精确测量了一些变量,但这些变量未必对应重要的心理结构。问题不在测量,而在过早的操作封闭:把一个贫弱的测量误当成构念本身。顺序不能反,必须先构造出值得测量的对象,再去测量它。

还可以用福柯式的眼光看现代心理学,尤其是临床、诊断和测量实践。它不只生产关于人的知识,也参与构成现代社会的评价函数:通过诊断、量表、正常/异常、健康/失能这些语言,规定什么样的人正常、什么样的痛苦可以被承认、什么样的状态需要被矫正。这些标签不是被动描述,它们会进入一个人的 context,改变他理解痛苦、组织记忆、预期未来的方式,从而改变心理本身:一个人会把“难过”理解成“抑郁”,把“关系痛苦”理解成“焦虑型依恋”。标签有时解放人,因为让痛苦可说;有时也约束人,因为把人重新固定在新的评价函数里。所以现代心理学的“客观性”并不意味着评价函数缺席,它常常是把某个评价函数制度化,并让它看起来像没有评价函数。

正因如此,真正的心理学必须保留某种“神秘化”倾向。这里的神秘化无关反理性,也不是用模糊掩盖混乱,它指的是拒绝方法论封闭——拒绝把任何单一外部评价函数当作关于人的最终客观性,保留不可被外部评价函数完全吸收的第一人称反身性。

这个定义并不害怕机制还原。如果将来发现某个心理切片对应 LLM 里的某些激活模式、注意力路径或特征方向,这不会削弱心理概念,反而说明它抓住了模型里真实的功能结构。人类也一样:如果“焦虑”“压抑”“投射”能对应到稳定的神经动力学或奖励系统结构,这只说明这些概念得到了机制实现。心理并不漂浮在物理系统之外,它是我们在某个评价函数下从响应差异里切出来的结构;能被机制定位,恰恰说明切得对。于是 AI 心理学可以自然接上白盒解释性研究:黑盒实验定义并测量心理,白盒研究寻找它的实现,干预实验检验它能否改变表现。

心理学之所以可能,是因为现实智能总是有限的,现实评价函数总是有限的,而主体总以第一人称承受一个超过任务评价的世界。评价函数从这个世界里切出任务,要求主体逼近某个理想工具;但完整世界史不会因此消失,它继续以情境化的响应差异回到输出里,在表现等价类内部显形。我们把这种显形叫做心理。它是操作性的、相对的、可实验的——既不需要预设心理是某种内部实体,也不把它简化成一个分数。它为 AI 心理学、人类心理学、深度心理学、经验心理学和神经科学,提供了一个可以互相翻译的共同框架。