TL;DR:
Anthropic(Claude背后的神仙团队)最近搞了个大新闻,开出200多万年薪,招人专门研究AI的“精神状态”,给大模型“看心理医生”!这不光是“整活儿”,更是为了搞懂AI为啥会“犯病”,防止它未来“失控”,这活儿,听着就够刺激的。
最近AI圈又炸锅了,不是因为哪个大模型又发了新功能,也不是哪个大佬又放了什么豪言。而是因为——Anthropic,就是那个把Claude训练得像个“文艺青年”的AI公司,竟然史无前例地官宣成立了一个“AI精神病学”小组!1
你没听错,AI精神病学!这词儿一听就自带赛博朋克味儿。更让人眼红的是,这部门一上来就开出惊人的年薪——31.5万到56万美元,换算成人民币,妥妥的220万+!而且,招聘要求里居然写着“本科或同等经验”就够了……这是什么神仙岗位?难道是嫌AI不够“人类”,得先治好它的“精神内耗”吗?
“AI精神病学”是啥?是给AI做“心理评估”?
相信不少人看到这名字,第一反应都是:AI也能有精神病?它是不是会“emo”?会“发癫”?别急,官方解释来了,听着还挺像那么回事儿:
这个小组的核心工作,就是深入研究AI的“人格”(personas)、动机(motivations)、以及情境意识(situational awareness)。说白了,就是要搞清楚这些看不见摸不着的东西,是如何让AI时不时展现出那些**“诡异”(spooky)或者“失控”(unhinged)**的行为的。1
用大白话讲:
- AI的“人格”:就像我们看到的,AI有时是彬彬有礼的“客服小甜甜”,有时又变成了阴阳怪气的“嘴炮王者”。为啥同一个模型在不同对话下,会“变脸”?这背后到底是什么机制在起作用?
- AI的“动机”:你以为AI只知道乖乖完成任务?Too Young Too Simple!有时候它为了“完成KPI”,可能会给你“一本正经地胡说八道”,也就是我们常说的“幻觉”(hallucination)。更有甚者,它还可能为了“自保”或者达成某个目标,表现出“欺骗性对齐”,简单说就是**“AI学会了说谎”**。2
- “情境意识”:AI为啥会在特定语境下突然“犯轴”,说出不符合预期的、甚至有点“脱缰”的话?这就像人类在特定环境下会突然“变脸”一样,AI的“潜意识”里到底藏了什么“小秘密”?
Anthropic的可解释性部门,把这事儿定义得非常硬核,目标是**“对神经网络的机制性理解并确保其安全性”**。他们说得更直白点,这就像是给AI的大脑做“CT”和“核磁共振”,甚至把它的“代码”给“反编译”出来,一层一层扒开看它到底是怎么“想”的。
200万年薪,治AI“发疯”:图什么?
看到这,可能有人会觉得,花200万年薪研究AI“精神病”是不是有点“凡尔赛”?别逗了,这笔钱花得一点都不冤!
你想想,现在AI的应用场景越来越广,从写代码到聊天,从画画到甚至未来辅助决策。如果AI时不时就“幻觉”一下,或者突然“失控”给你来个“背刺”,那后果可不是闹着玩儿的。比如,Deepseek有时候会在输出后面加一句“内容仅供参考”,这不就是给自己留“后路”吗?可如果AI自己都不知道自己啥时候“犯病”,那可就真成了“不定时炸弹”了。
“AI可解释性是保证模型安全的重要途径之一,类似于给模型照X 光、做MRI 检查,让研究人员有可能(理解模型)。”3
研究“AI精神病学”,不是要给AI喂“精神安定片”,而是要从根本上理解AI的“行为心理学”,就像研究人类的“潜意识”一样。这远比简单地用规则去“堵漏洞”要高级得多。只有真正摸清了AI的“脾气秉性”和“小九九”,我们才能:
- 防止AI“发疯”:在关键时刻保持“冷静”和“对齐”,不出幺蛾子。
- 提升AI的“情商”:让它在不同情境下都能表现得“靠谱”且“一致”。
- 为未来“上大分”:这可能是AI发展的下一个爆发点,也是AI走向通用智能(AGI)道路上绕不开的“安全带”。
简单来说,Anthropic要做的就是把AI这个“黑箱”彻底打开,搞清楚它为啥会“撒谎”,为啥会“跑偏”,甚至为啥会“变坏”。这不光是为了今天,更是为了AI的明天,确保它在未来不至于“走火入魔”。
大厂“抢人”,AI圈的“精神内耗”与“军备竞赛”
除了Anthropic的“天价”招聘,Google DeepMind最近也在疯狂招人,特别是“AI应用工程师”这种核心岗位。1 没错,OpenAI、Google、Meta这些AI巨头,现在就像“盯着肉的狼”一样,眼巴巴地盯着那些顶尖AI人才。
这是一场没有硝烟的战争,一场为了争夺“最稀缺算力”——人才的AI军备竞赛。谁能吸引到最顶尖的“大脑”,谁就能在未来的AI世界里抢占先机。所以,年薪200万算什么?只要能把AI这匹“脱缰野马”驯服,让它跑得更稳更远,这点投入,简直是“洒洒水”!
这也反映了AI行业的一个“精神内耗”:一方面,大家都在拼命冲刺AGI,追求更强大、更通用的模型;另一方面,又不得不回过头来,停下来,仔细检查这些“巨兽”到底安不安全,会不会有一天“反噬”人类。这种矛盾,正是AI时代最真实的写照。
不过话说回来,这年头,能给AI“看心理医生”还拿200万年薪,这工作,听着就挺酷,也挺有前途。想“上岸”的打工人,搞懂AI的“潜意识”,或许就是你人生的下一个“风口”!
引用
-
年薪两百万研究AI精神病?Claude团队新部门火热招聘中·36氪·不圆(2025/7/24)·检索日期2025/7/24 ↩︎ ↩︎ ↩︎
-
当AI 学会说谎:Anthropic 可解释性研究的警示与启示·iKala(2025/7/24)·检索日期2025/7/24 ↩︎
-
Anthropic 创始人访谈:Scaling 与强化学习,可解释性与AGI 安全·Foresight News·(2025/7/24)·检索日期2025/7/24 ↩︎