Zico Kolter:在 AI 失控的前夜,做那个“守门人”

温故智新AIGC实验室

TL;DR: 作为 OpenAI 安全与安全性委员会主席,Zico Kolter 试图在模型能力狂飙与现实世界安全之间架起一道防线。他认为 AI 安全已从“模型犯错”转向“系统级对抗”,主张通过工程化手段而非标签化的争论来应对 AI 智能体时代的新风险。

哲学思维与代码逻辑的交汇点

在位于卡内基梅隆大学的办公室里,Zico Kolter 谈起 AI 时,总有一种冷静的工程式克制。他不是那种会在聚光灯下高喊末日预言的人,也不是盲目的技术乐观主义者。作为一名拥有哲学与计算机双学位的学者,他的职业路径本身就是一种“跨学科”的博弈。

早在 2015 年 OpenAI 的初创派对上,他就试图通过招聘将人才引入学术界,却在那时就敏锐地感知到了一股“压倒性的野心”。“他们那时就押注于‘规模扩展’,这在当时的学术界并非主流,甚至被视为一种过于暴力的算法路径,”Kolter 回忆道。如今,他不仅是 CMU 机器学习系的主任,更是 OpenAI 安全决策的核心参与者。这种身份的双重性——既是前沿技术的推动者,又是治理风险的审视者——赋予了他独特的视角:他看得到模型的上限,也看得到深渊的边界。

不只是“更大就更安全”

在 Kolter 的叙事中,AI 安全并非一个能够自动解决的问题。他反驳了“模型越大越安全”的线性直觉,“鲁棒性不是模型的附属品,它需要极其昂贵的工程投入。”他曾主导了著名的 GCG(贪婪坐标梯度)攻击研究,那次在周日独自在家跑通的实验,让他目睹了模型在面对恶意对抗时的脆弱。

“第一次看到模型在被注入乱码后,一边一本正经地输出炸弹配方,一边逐渐逻辑滑向南瓜派食谱,我直接笑出了声。”

这种荒谬感背后的本质是:大型语言模型并不真正“理解”所谓的安全底线,它们只是在概率空间里寻求最优解。Kolter 认为,真正的安全防线是“瑞士奶酪模型”——通过输入检查、输出过滤、行为监控以及底层的安全训练,层层叠叠地堆叠防御。

智能体时代的真实威胁

随着 AI 智能体的普及,Kolter 意识到攻击面正在几何级数地扩张。他提出了一个核心警告:AI 智能体在处理外部数据时的脆弱性。当智能体开始主动调用工具、读取邮件、甚至获取 API Key 时,提示词注入(Prompt Injection)就不再是简单的“胡言乱语”,而是通向系统瘫痪的钥匙。

“智能体安全本质上是三件事的重叠:模型会不会被操纵、它是否执行了危险指令、以及它拥有多大的真实权限。”对于企业而言,Kolter 的建议极其务实:不要过分赋予智能体过高的权限,除非你已经在系统层面完成了隔离。

在“加速”与“停滞”之间寻找中间地带

面对行业内关于“末日派”与“加速派”的激烈争论,Kolter 表现出了一种近乎厌倦的理智。他不喜欢被标签化。他认为 99% 的研究者都处在一个温和的中间地带:这项技术有巨大的潜力,但必须面对风险。

他坦诚自己对“暂停六个月”的呼吁持保留态度,但同时又为那种“严肃探讨 AI 失控可能性”的氛围感到欣慰。“如果整个社会对这些风险无动于衷,那才是真正危险的。”他更愿意将安全研究视为一种动态的互动:在持续探索系统前沿的过程中,通过不断交锋来理解边界。

对于未来,Kolter 持审慎的乐观态度。他相信随着推理模型和自动化红队测试的演进,系统将变得更加稳固。他本人在日常工作中已经离不开智能体,这种“既依赖又警惕”的心态,或许正是当前 AI 时代每一个技术领袖的真实写照。

引用