TL;DR:
刚发布的GPT-5,本以为是“王炸”,结果却“水土不服”,用户吐槽不断,甚至“求着”要回老版本GPT-4o。OpenAI CEO奥特曼紧急上线“救火”,不仅承认发布“太坎坷”,还把锅甩给了“团队太累”,并承诺会陆续“修复Bug”!
要说这年头,哪个AI大模型自带“顶流”光环?OpenAI家的GPT系列绝对是榜上有名。特别是每逢新版本发布,那可是万众瞩目,期待值直接拉满!这不,大家翘首以盼的GPT-5终于千呼万唤始出来,本以为会是又一场“神仙打架”后的“封神之作”。
结果呢?剧情反转来得比翻书还快!前期有多期望,后期就有多“破防”。GPT-5刚一亮相,各种“翻车”现场就接二连三地被曝光,社交媒体上瞬间被“吐槽”和“质疑”的声音淹没,简直是大型“真香定律”反向操作现场。
翻车现场直击:从「博士」到「小学没毕业」?
发布会前,OpenAI把GPT-5捧上了天,号称拥有“博士”级的智力水平。结果呢?X(前Twitter)上有网友亲自下场“拷打”,发现它连小学水平的数学题都搞不定,直接把大家“整不会了”。这不禁让人想问,这“博士学位”是哪个野鸡大学颁发的?1
不仅是数学,逻辑推理、代码编写这些号称GPT-5的强项,也时不时地“掉链子”,各种“失误”案例在网上流传,让一众AI老司机们看了直摇头。这哪是博士,这分明是“实习生”刚转正吧?
更令人尴尬的是,在发布会的直播上,一个本该展示模型性能的图表竟然出现了低级错误:基准分数低得可怜,条形图却高高在上,活像一个“图表犯罪”现场!
一位X网友调侃道:“在看到这张图片后,感觉自己的工作保住了!” —— 不得不说,这届网友的“嘴替”能力真是YYDS。
面对这铺天盖地的吐槽,OpenAI联合创始人兼首席执行官山姆·奥特曼(Sam Altman)终于坐不住了。他带着GPT-5团队核心成员,空降Reddit的AMA(Ask Me Anything)活动,亲自上阵“灭火”,直面用户们的“灵魂拷问”。
对于发布会上的“图表犯罪”,奥特曼给出的解释是:
“为了准备发布会,团队成员大家都工作到很晚,非常疲惫,人为错误造成了这样的影响。” —— 瞧瞧,这“打工人”式的疲惫理由,是不是有那么一点“凡尔赛”的嫌疑?当然,理解归理解,用户体验可不是闹着玩的。
奥特曼「灭火」大作战:不仅道歉,还把「后悔药」送回来了
发布初期,OpenAI为了推广GPT-5,直接把很多用户的ChatGPT页面悄悄升级到了GPT-5,而原本的GPT-4o等选项则“神秘消失”了。结果,由于GPT-5的表现不尽如人意,大量用户直接“破防”,在网上哭诉:“把我的4o还回来!”“不要移除不同的版本——不同的人有不同的风格!”
这波“退货潮”声势浩大,奥特曼听到了。他第一时间表态:
“好的,我们听到了大家对4o的反馈;感谢你们花时间提出意见(还有这份热情!)。我们会让Plus用户重新使用4o,并会观察使用情况来决定支持多久。” —— 这波操作,简直是“悔改得真快”,直接给用户喂了颗“后悔药”。部分平台更改被撤回,用户终于能用回心爱的GPT-4o了。2
奥特曼还坦承,GPT-5的发布过程确实“坎坷”,甚至比他们预想的还要糟。他解释说,在发布后不久,他们遭遇了一次“安全事件”,导致自动切换器在当天大部分时间都无法使用,这才让GPT-5看起来“非常笨拙”。
面对各种质疑,奥特曼和他的团队还给出了不少后续解决方案和未来的“画饼”:
- 性能提升:GPT-5已经变得更智能,模型内部决策机制正在优化,争取更频繁地给出“正确答案”。
- 透明度:未来会更透明地展示是哪个模型在响应用户的查询。
- 逐步推出:考虑到API流量在24小时内几乎翻倍,GPT-5向所有人推出还需要更长时间。
- UI改进:用户界面会进行调整,让手动触发“思考模式”变得更容易。
- 速率限制:Plus用户完成推出后,速率限制将直接翻倍!
- 未来展望:正在考虑如何更好地结合订阅和API使用,以及更精细的定价模式。
性能大揭秘:GPT-5究竟「强」在哪?(以及那些「未能实现」的小目标)
尽管开局不顺,但OpenAI团队对GPT-5的内在实力还是相当自信的。研究员Eric Mitchell就强调,GPT-5在几个关键领域比GPT-4有了巨大改进:
- 思考能力(推理):更强!
- 写作能力(创造力):更强!
- 指令遵循:更严格!
- 用户意图对齐:更好!
当被问及如果只能用一个提示词来展示GPT-5的实力时,Mitchell给出了几个刁钻的例子,比如一个关于“长短梯度去重”的陷阱问题——GPT-5应该能识别出这是个不存在的概念,而不是瞎编乱造。他还提到,GPT-5在结合日历和天气提供穿搭建议这种“生活化”场景中,展现了更强的情境感知和生活融合能力。
OpenAI的后训练研究员Michelle Pokrass更是直接放话:
“可以确认,GPT-5 > GPT-4。” —— 这语气,简直是“不容置疑”!
至于和竞品Opus 4.1的编程能力对比,OpenAI团队表示不便过多评价友商,但依然强调GPT-5的思考版是他们发布的“最好的编程模型”。
当然,也有未能实现的小目标。Pokrass透露,团队曾希望能为GPT-5实现“百万级上下文”,但目前由于计算成本过高而未能实现。看来,即使是AI巨头,在“烧钱”的计算资源面前,也得“抠抠搜搜”。
此外,安全团队的Saachi Jain也表示,GPT-5在安全方面做了不少改进,比如降低了拒绝率、加强了“越狱防护”能力,并且显著减少了“欺骗性”回复。但她也承认,在生物安全和历史内容审查方面存在“过度标记”问题,导致有些正常提问被误判,他们正在积极修复。
看来,GPT-5的发布,更像是一场大型的“压力测试”。虽然开局有点“翻车”,但奥特曼和团队的迅速回应,以及后续的改进承诺,至少让用户看到了解决问题的态度。大模型这条路,从来就不是“一帆风顺”的,也许只有经历过这些“小插曲”,才能真正走向成熟。
我们也将持续关注GPT-5的后续表现,看它能否真的“逆风翻盘”,上演一出“涅槃重生”的好戏。毕竟,谁不想拥抱一个真正“博士级”的AI呢?