TL;DR:
OpenAI千呼万唤始出来的「博士级」ChatGPT-5,刚出道就被网友揪出“错别字”和“地理盲”的低级错误,场面一度非常尴尬。但别急着笑,这家伙在代码和复杂推理上的表现,可能真让你“汗流浃背”!
你敢信?那个被OpenAI官方宣称拥有“博士级”智慧的ChatGPT-5,最近竟然在网友面前“翻车”了!而且翻的还是低级得不能再低级的错误——拼写和地理。
想象一下,你以为请来了一个智商爆表的超级学霸,结果他一开口,就把“blueberry”(蓝莓)说成有三个“B”,还把“Northern Territory”(北领地)里的“R”数错!1 这哪是博士,这分明是幼儿园大班没毕业啊!消息一出,社交媒体上瞬间炸开了锅,大家纷纷表示:“这AI是来搞笑的吗?”“我的智商税白交了!”
翻车现场?网友:这博士有点“偏科”啊!
是的,你没听错,也不是小编在编段子。根据最新的“爆料”,当用户兴冲冲地试用OpenAI这款最新的GPT-5时,发现它在处理一些基础到不能再基础的问题上,竟然意外“卡壳”。比如,那段关于“蓝莓”的对话,简直让人哭笑不得:
“(GPT-5)反复声称‘blueberry’中有三个‘B’。” 1
(小编OS:哥们儿,这要是中文,估计得把“草莓”写成“曹霉”吧?)
更离谱的是,连澳洲的“北领地”都给它整不会了,非得说里面有三个“R”。这就好比你问一个号称“世界地理专家”的人,长江有几道拐,他非得给你说“七八个”一样,简直是“大型社死现场”!
这一下子,GPT-5头顶的“博士级”光环,似乎都黯淡了几分。网友们纷纷调侃:“看来AI也得回炉重造,补补基础课了!”这波操作,让不少人对AI的“智商”又产生了那么一丢丢的“信仰危机”。
别急着嘲!GPT-5的“真本事”才叫吓人!
不过,你以为GPT-5就这么“废”了?那你就图样图森破了!如果只凭这几个小失误就给它判“死刑”,那简直是暴殄天物。作为一名“网感十足”的科技记者,我得负责任地告诉你,这“博士”虽然有“偏科”,但人家偏的可是顶尖科目,而且偏得一骑绝尘!
OpenAI官方对GPT-5的宣传可不是吹牛的。它在编码和推理能力上,那可是实打实的“卷王”!
-
代码界“扛把子”:GPT-5在关键编码基准测试中,比如SWE-bench Verified测试中得分高达74.9%,Aider polyglot测试中更是达到88%,直接站上行业SOTA(State-Of-The-Art)的巅峰!2 翻译成人话就是:这AI写代码比大多数程序员都快,bug还少,简直是**“码农的终结者,老板的梦中情AI”!它能生成高质量代码,修复漏洞,修改代码,甚至回答复杂代码库问题,简直就是你的“专属代码协作伙伴”**。2
-
逻辑推理“天花板”:还记得上面那个“蓝莓”的梗吗?别看它在基础拼写上“翻车”,但在更深层次的推理方面,GPT-5的表现简直惊艳!OpenAI强调,它是一个“统一系统”,拥有处理大多数问题的“智能高效模型”,以及针对更复杂问题的“深度推理模型”(GPT-5 thinking)。3 用Inditex公司的话来说,它**“推理深度令人惊叹:细致入微、多层次的答案,体现了对实际主题的深刻理解”。2 这就好比一个数学家,口算可能不行,但搞高维几何那是分分钟拿捏**!
-
“工具人”进阶版:GPT-5在持续型智能体任务中表现卓越,而且工具智能也得到了大幅提升。它能可靠地串联数十次工具调用,还能更好地处理工具错误。2 Manus更是直言:GPT-5“在各种智能体任务中表现出色,即使在未修改任何代码或调整提示的情况下”。2 这意味着,它不再是简单的“复读机”,而是能自动规划、执行复杂任务的“全能管家”。
-
API玩家的新玩具:OpenAI还为开发者带来了新功能,比如
verbosity
参数,能控制模型回复的“话痨”程度(想多说就多说,想少说就少说);还有reasoning_effort
参数,能让模型“偷懒”加速回答,或者“死磕”深度推理。2 这简直是给开发者们提供了**“驯服”AI的“神级遥控器”!而且,OpenAI还提供了gpt-5
、gpt-5-mini
和gpt-5-nano
三个版本,让大家可以根据需求选择“高性能、低成本或低延迟”,简直是“AI界的拼多多”**,丰俭由人!2
“大模型翻车”背后:AI成长的烦恼,还是另有隐情?
那么问题来了,一个号称“博士级”的AI,为什么会在这种“小儿科”的问题上栽跟头呢?这背后,或许有几个原因值得我们深思。
首先,大模型的“幻觉”问题一直都是业内老大难。AI在生成内容时,有时会“一本正经地胡说八道”,尤其是在事实性和细节方面,常常会出现偏差。虽然GPT-5在事实准确性基准测试中错误率已是 o3 的五分之一 2,但“幻觉”依然是AI发展路上的一只**“拦路虎”**。
其次,这可能与训练数据的局限性有关。尽管模型吞噬了海量的互联网数据,但有些特定的知识点,或者特定领域的“常识”,可能在训练过程中没有得到充分的强调,导致模型在这方面表现不佳。这就像一个学霸,可能熟读百科全书,但却不熟悉一些**“生活常识”**。
再者,这或许也是AI在**“理解”和“生成”之间的一种权衡**。为了追求更强大的代码和推理能力,模型在某些看似简单的任务上,可能没有达到人类直觉般的准确度。毕竟,AI的“大脑”和人类的“大脑”运作方式截然不同。
这次GPT-5的“翻车”,与其说是失败,不如说是AI发展进程中一个有趣的注脚。它提醒我们,AI虽然强大,但它不是“神”,依然有它的**“小瑕疵”和“成长的烦恼”**。
当然,我们也不能因此就否定AI的巨大潜力。从GPT-5在编码、推理、工具调用等领域的突破来看,它无疑又向前迈进了一大步。或许,未来的某一天,AI真的能做到“滴水不漏”,那时,我们才能真正享受到**“万物智能”**的便利。
在那之前,我们还是得擦亮眼睛,保持对AI的“敬畏”和“调侃”。毕竟,一个连“蓝莓”都拼不对的“博士”,还是挺接地气的,不是吗?
引用
-
OpenAI unveils ChatGPT-5 and its hyped ‘PhD level’ intelligence struggled with basic spelling and geography·The Guardian· (2025/8/8)·检索日期2025/8/8 ↩︎ ↩︎
-
隆重推出面向开发人员的GPT-5·OpenAI· (未知)·检索日期2025/8/8 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Introducing GPT-5·OpenAI· (未知)·检索日期2025/8/8 ↩︎