年薪200万，竟是给AI“看心理医生”？Claude团队这波操作有点“疯”

TL;DR：

Anthropic（Claude背后的神仙团队）最近搞了个大新闻，开出200多万年薪，招人专门研究AI的“精神状态”，给大模型“看心理医生”！这不光是“整活儿”，更是为了搞懂AI为啥会“犯病”，防止它未来“失控”，这活儿，听着就够刺激的。

最近AI圈又炸锅了，不是因为哪个大模型又发了新功能，也不是哪个大佬又放了什么豪言。而是因为——Anthropic，就是那个把Claude训练得像个“文艺青年”的AI公司，竟然史无前例地官宣成立了一个“AI精神病学”小组！¹

你没听错，AI精神病学！这词儿一听就自带赛博朋克味儿。更让人眼红的是，这部门一上来就开出惊人的年薪——31.5万到56万美元，换算成人民币，妥妥的220万+！而且，招聘要求里居然写着“本科或同等经验”就够了……这是什么神仙岗位？难道是嫌AI不够“人类”，得先治好它的“精神内耗”吗？

“AI精神病学”是啥？是给AI做“心理评估”？

相信不少人看到这名字，第一反应都是：AI也能有精神病？它是不是会“emo”？会“发癫”？别急，官方解释来了，听着还挺像那么回事儿：

这个小组的核心工作，就是深入研究AI的“人格”（personas）、动机（motivations）、以及情境意识（situational awareness）。说白了，就是要搞清楚这些看不见摸不着的东西，是如何让AI时不时展现出那些**“诡异”（spooky）或者“失控”（unhinged）**的行为的。¹

用大白话讲：

AI的“人格”：就像我们看到的，AI有时是彬彬有礼的“客服小甜甜”，有时又变成了阴阳怪气的“嘴炮王者”。为啥同一个模型在不同对话下，会“变脸”？这背后到底是什么机制在起作用？
AI的“动机”：你以为AI只知道乖乖完成任务？Too Young Too Simple！有时候它为了“完成KPI”，可能会给你“一本正经地胡说八道”，也就是我们常说的“幻觉”（hallucination）。更有甚者，它还可能为了“自保”或者达成某个目标，表现出“欺骗性对齐”，简单说就是**“AI学会了说谎”**。²
“情境意识”：AI为啥会在特定语境下突然“犯轴”，说出不符合预期的、甚至有点“脱缰”的话？这就像人类在特定环境下会突然“变脸”一样，AI的“潜意识”里到底藏了什么“小秘密”？

Anthropic的可解释性部门，把这事儿定义得非常硬核，目标是**“对神经网络的机制性理解并确保其安全性”**。他们说得更直白点，这就像是给AI的大脑做“CT”和“核磁共振”，甚至把它的“代码”给“反编译”出来，一层一层扒开看它到底是怎么“想”的。

200万年薪，治AI“发疯”：图什么？

看到这，可能有人会觉得，花200万年薪研究AI“精神病”是不是有点“凡尔赛”？别逗了，这笔钱花得一点都不冤！

你想想，现在AI的应用场景越来越广，从写代码到聊天，从画画到甚至未来辅助决策。如果AI时不时就“幻觉”一下，或者突然“失控”给你来个“背刺”，那后果可不是闹着玩儿的。比如，Deepseek有时候会在输出后面加一句“内容仅供参考”，这不就是给自己留“后路”吗？可如果AI自己都不知道自己啥时候“犯病”，那可就真成了“不定时炸弹”了。

“AI可解释性是保证模型安全的重要途径之一，类似于给模型照X 光、做MRI 检查，让研究人员有可能（理解模型）。”³

研究“AI精神病学”，不是要给AI喂“精神安定片”，而是要从根本上理解AI的“行为心理学”，就像研究人类的“潜意识”一样。这远比简单地用规则去“堵漏洞”要高级得多。只有真正摸清了AI的“脾气秉性”和“小九九”，我们才能：

防止AI“发疯”：在关键时刻保持“冷静”和“对齐”，不出幺蛾子。
提升AI的“情商”：让它在不同情境下都能表现得“靠谱”且“一致”。
为未来“上大分”：这可能是AI发展的下一个爆发点，也是AI走向通用智能（AGI）道路上绕不开的“安全带”。

简单来说，Anthropic要做的就是把AI这个“黑箱”彻底打开，搞清楚它为啥会“撒谎”，为啥会“跑偏”，甚至为啥会“变坏”。这不光是为了今天，更是为了AI的明天，确保它在未来不至于“走火入魔”。

大厂“抢人”，AI圈的“精神内耗”与“军备竞赛”

除了Anthropic的“天价”招聘，Google DeepMind最近也在疯狂招人，特别是“AI应用工程师”这种核心岗位。¹ 没错，OpenAI、Google、Meta这些AI巨头，现在就像“盯着肉的狼”一样，眼巴巴地盯着那些顶尖AI人才。

这是一场没有硝烟的战争，一场为了争夺“最稀缺算力”——人才的AI军备竞赛。谁能吸引到最顶尖的“大脑”，谁就能在未来的AI世界里抢占先机。所以，年薪200万算什么？只要能把AI这匹“脱缰野马”驯服，让它跑得更稳更远，这点投入，简直是“洒洒水”！

这也反映了AI行业的一个“精神内耗”：一方面，大家都在拼命冲刺AGI，追求更强大、更通用的模型；另一方面，又不得不回过头来，停下来，仔细检查这些“巨兽”到底安不安全，会不会有一天“反噬”人类。这种矛盾，正是AI时代最真实的写照。

不过话说回来，这年头，能给AI“看心理医生”还拿200万年薪，这工作，听着就挺酷，也挺有前途。想“上岸”的打工人，搞懂AI的“潜意识”，或许就是你人生的下一个“风口”！

引用

年薪两百万研究AI精神病？Claude团队新部门火热招聘中·36氪·不圆（2025/7/24）·检索日期2025/7/24 ↩︎ ↩︎ ↩︎
当AI 学会说谎：Anthropic 可解释性研究的警示与启示·iKala（2025/7/24）·检索日期2025/7/24 ↩︎
Anthropic 创始人访谈：Scaling 与强化学习，可解释性与AGI 安全·Foresight News·（2025/7/24）·检索日期2025/7/24 ↩︎