Zico Kolter：在 AI 失控的前夜，做那个“守门人”

TL;DR：作为 OpenAI 安全与安全性委员会主席，Zico Kolter 试图在模型能力狂飙与现实世界安全之间架起一道防线。他认为 AI 安全已从“模型犯错”转向“系统级对抗”，主张通过工程化手段而非标签化的争论来应对 AI 智能体时代的新风险。

哲学思维与代码逻辑的交汇点

在位于卡内基梅隆大学的办公室里，Zico Kolter 谈起 AI 时，总有一种冷静的工程式克制。他不是那种会在聚光灯下高喊末日预言的人，也不是盲目的技术乐观主义者。作为一名拥有哲学与计算机双学位的学者，他的职业路径本身就是一种“跨学科”的博弈。

早在 2015 年 OpenAI 的初创派对上，他就试图通过招聘将人才引入学术界，却在那时就敏锐地感知到了一股“压倒性的野心”。“他们那时就押注于‘规模扩展’，这在当时的学术界并非主流，甚至被视为一种过于暴力的算法路径，”Kolter 回忆道。如今，他不仅是 CMU 机器学习系的主任，更是 OpenAI 安全决策的核心参与者。这种身份的双重性——既是前沿技术的推动者，又是治理风险的审视者——赋予了他独特的视角：他看得到模型的上限，也看得到深渊的边界。

不只是“更大就更安全”

在 Kolter 的叙事中，AI 安全并非一个能够自动解决的问题。他反驳了“模型越大越安全”的线性直觉，“鲁棒性不是模型的附属品，它需要极其昂贵的工程投入。”他曾主导了著名的 GCG（贪婪坐标梯度）攻击研究，那次在周日独自在家跑通的实验，让他目睹了模型在面对恶意对抗时的脆弱。

“第一次看到模型在被注入乱码后，一边一本正经地输出炸弹配方，一边逐渐逻辑滑向南瓜派食谱，我直接笑出了声。”

这种荒谬感背后的本质是：大型语言模型并不真正“理解”所谓的安全底线，它们只是在概率空间里寻求最优解。Kolter 认为，真正的安全防线是“瑞士奶酪模型”——通过输入检查、输出过滤、行为监控以及底层的安全训练，层层叠叠地堆叠防御。

智能体时代的真实威胁

随着 AI 智能体的普及，Kolter 意识到攻击面正在几何级数地扩张。他提出了一个核心警告：AI 智能体在处理外部数据时的脆弱性。当智能体开始主动调用工具、读取邮件、甚至获取 API Key 时，提示词注入（Prompt Injection）就不再是简单的“胡言乱语”，而是通向系统瘫痪的钥匙。

“智能体安全本质上是三件事的重叠：模型会不会被操纵、它是否执行了危险指令、以及它拥有多大的真实权限。”对于企业而言，Kolter 的建议极其务实：不要过分赋予智能体过高的权限，除非你已经在系统层面完成了隔离。

在“加速”与“停滞”之间寻找中间地带

面对行业内关于“末日派”与“加速派”的激烈争论，Kolter 表现出了一种近乎厌倦的理智。他不喜欢被标签化。他认为 99% 的研究者都处在一个温和的中间地带：这项技术有巨大的潜力，但必须面对风险。

他坦诚自己对“暂停六个月”的呼吁持保留态度，但同时又为那种“严肃探讨 AI 失控可能性”的氛围感到欣慰。“如果整个社会对这些风险无动于衷，那才是真正危险的。”他更愿意将安全研究视为一种动态的互动：在持续探索系统前沿的过程中，通过不断交锋来理解边界。

对于未来，Kolter 持审慎的乐观态度。他相信随着推理模型和自动化红队测试的演进，系统将变得更加稳固。他本人在日常工作中已经离不开智能体，这种“既依赖又警惕”的心态，或许正是当前 AI 时代每一个技术领袖的真实写照。

哲学思维与代码逻辑的交汇点

不只是“更大就更安全”

智能体时代的真实威胁

在“加速”与“停滞”之间寻找中间地带

引用