GPT-5发布「翻车」？奥特曼：怪我咯，团队太累了！

TL;DR：

刚发布的GPT-5，本以为是“王炸”，结果却“水土不服”，用户吐槽不断，甚至“求着”要回老版本GPT-4o。OpenAI CEO奥特曼紧急上线“救火”，不仅承认发布“太坎坷”，还把锅甩给了“团队太累”，并承诺会陆续“修复Bug”！

要说这年头，哪个AI大模型自带“顶流”光环？OpenAI家的GPT系列绝对是榜上有名。特别是每逢新版本发布，那可是万众瞩目，期待值直接拉满！这不，大家翘首以盼的GPT-5终于千呼万唤始出来，本以为会是又一场“神仙打架”后的“封神之作”。

结果呢？剧情反转来得比翻书还快！前期有多期望，后期就有多“破防”。GPT-5刚一亮相，各种“翻车”现场就接二连三地被曝光，社交媒体上瞬间被“吐槽”和“质疑”的声音淹没，简直是大型“真香定律”反向操作现场。

发布会前，OpenAI把GPT-5捧上了天，号称拥有“博士”级的智力水平。结果呢？X（前Twitter）上有网友亲自下场“拷打”，发现它连小学水平的数学题都搞不定，直接把大家“整不会了”。这不禁让人想问，这“博士学位”是哪个野鸡大学颁发的？¹

不仅是数学，逻辑推理、代码编写这些号称GPT-5的强项，也时不时地“掉链子”，各种“失误”案例在网上流传，让一众AI老司机们看了直摇头。这哪是博士，这分明是“实习生”刚转正吧？

更令人尴尬的是，在发布会的直播上，一个本该展示模型性能的图表竟然出现了低级错误：基准分数低得可怜，条形图却高高在上，活像一个“图表犯罪”现场！

一位X网友调侃道：“在看到这张图片后，感觉自己的工作保住了！” —— 不得不说，这届网友的“嘴替”能力真是YYDS。

面对这铺天盖地的吐槽，OpenAI联合创始人兼首席执行官山姆·奥特曼（Sam Altman）终于坐不住了。他带着GPT-5团队核心成员，空降Reddit的AMA（Ask Me Anything）活动，亲自上阵“灭火”，直面用户们的“灵魂拷问”。

对于发布会上的“图表犯罪”，奥特曼给出的解释是：

“为了准备发布会，团队成员大家都工作到很晚，非常疲惫，人为错误造成了这样的影响。” —— 瞧瞧，这“打工人”式的疲惫理由，是不是有那么一点“凡尔赛”的嫌疑？当然，理解归理解，用户体验可不是闹着玩的。

发布初期，OpenAI为了推广GPT-5，直接把很多用户的ChatGPT页面悄悄升级到了GPT-5，而原本的GPT-4o等选项则“神秘消失”了。结果，由于GPT-5的表现不尽如人意，大量用户直接“破防”，在网上哭诉：“把我的4o还回来！”“不要移除不同的版本——不同的人有不同的风格！”

这波“退货潮”声势浩大，奥特曼听到了。他第一时间表态：

“好的，我们听到了大家对4o的反馈；感谢你们花时间提出意见（还有这份热情！）。我们会让Plus用户重新使用4o，并会观察使用情况来决定支持多久。” —— 这波操作，简直是“悔改得真快”，直接给用户喂了颗“后悔药”。部分平台更改被撤回，用户终于能用回心爱的GPT-4o了。²

奥特曼还坦承，GPT-5的发布过程确实“坎坷”，甚至比他们预想的还要糟。他解释说，在发布后不久，他们遭遇了一次“安全事件”，导致自动切换器在当天大部分时间都无法使用，这才让GPT-5看起来“非常笨拙”。

面对各种质疑，奥特曼和他的团队还给出了不少后续解决方案和未来的“画饼”：

尽管开局不顺，但OpenAI团队对GPT-5的内在实力还是相当自信的。研究员Eric Mitchell就强调，GPT-5在几个关键领域比GPT-4有了巨大改进：

当被问及如果只能用一个提示词来展示GPT-5的实力时，Mitchell给出了几个刁钻的例子，比如一个关于“长短梯度去重”的陷阱问题——GPT-5应该能识别出这是个不存在的概念，而不是瞎编乱造。他还提到，GPT-5在结合日历和天气提供穿搭建议这种“生活化”场景中，展现了更强的情境感知和生活融合能力。

OpenAI的后训练研究员Michelle Pokrass更是直接放话：

“可以确认，GPT-5 > GPT-4。” —— 这语气，简直是“不容置疑”！

至于和竞品Opus 4.1的编程能力对比，OpenAI团队表示不便过多评价友商，但依然强调GPT-5的思考版是他们发布的“最好的编程模型”。

当然，也有未能实现的小目标。Pokrass透露，团队曾希望能为GPT-5实现“百万级上下文”，但目前由于计算成本过高而未能实现。看来，即使是AI巨头，在“烧钱”的计算资源面前，也得“抠抠搜搜”。

此外，安全团队的Saachi Jain也表示，GPT-5在安全方面做了不少改进，比如降低了拒绝率、加强了“越狱防护”能力，并且显著减少了“欺骗性”回复。但她也承认，在生物安全和历史内容审查方面存在“过度标记”问题，导致有些正常提问被误判，他们正在积极修复。

看来，GPT-5的发布，更像是一场大型的“压力测试”。虽然开局有点“翻车”，但奥特曼和团队的迅速回应，以及后续的改进承诺，至少让用户看到了解决问题的态度。大模型这条路，从来就不是“一帆风顺”的，也许只有经历过这些“小插曲”，才能真正走向成熟。

我们也将持续关注GPT-5的后续表现，看它能否真的“逆风翻盘”，上演一出“涅槃重生”的好戏。毕竟，谁不想拥抱一个真正“博士级”的AI呢？

引用