GPT-5杀疯了!宝可梦水晶光速通关,赤爷看了都“泪目”

温故智新AIGC实验室

TL;DR:

GPT-5最近在《宝可梦水晶》里秀出“神操作”,仅用9517步就打败了最强对手赤爷,效率是前辈O3的三倍。它不仅幻觉少、空间感爆棚,还让OpenAI总裁都忍不住点赞。不过,想让AI当“肝帝”也得付出代价,这跑一趟花的钱,真能让你“肉疼”好一阵子!

嘿,各位训练家、各位科技圈吃瓜群众!最近AI界又出了个大新闻,直接把我们这群“老宝可梦玩家”整不会了——大名鼎鼎的GPT-5,居然在《宝可梦水晶》里“杀疯了”,创下了一个让“赤爷”看了都想原地退役的惊人纪录!

赤爷不语,GPT-5秀翻全场:这效率,人类看了都“沉默”

想象一下:你正在直播间里激情围观一场《宝可梦水晶》的年度大战。公屏上“GG”刷屏,气氛燃到爆。没错,这次的主角不是什么电竞高手,也不是什么速通大神,而是咱们的“赛博智能体”——GPT-5!1

根据推特博主Clad3815的最新战报,这位AI界的“肝帝”仅用了9517步,就成功把《宝可梦水晶》中的终极Boss“赤爷”给放倒了!这波操作有多“离谱”?对比一下它的前辈O3,完成同样任务却足足走了27040步。掐指一算,GPT-5的效率几乎是O3的三倍

这意味着什么?

“GPT-5不吃不喝连肝一周多一点(202小时)就能通关的《宝可梦水晶》,换成o3需要近一个月。”

是不是有种“被AI碾压”的窒息感?更别提我们普通人类玩家,每天辛辛苦苦肝8小时,也要花上5天左右才能通关。现在,一个AI不仅比你肝,还比你聪明,这感觉简直是“扎心了老铁”。

而且,这效率可不是偶尔“爆发”一下。在《宝可梦水晶》的主线任务中,GPT-5几乎全程“平推”:

  • 收集16枚徽章: GPT-5仅用9205步,O3则耗费了22334步。
  • 从收集完徽章到战胜赤爷: GPT-5只用了312步,而O3需要将近5000步!这加速效果,简直是坐了火箭,十几倍的差距,就问你怕不怕!
  • 四天王与冠军之战: GPT-5依旧以7329步的优势,将O3(18115步)远远甩在身后。

难怪连OpenAI的总裁兼联合创始人Greg Brockman都亲自下场转发,为GPT-5的“生猛表现”点赞!2 这波,牌面给足了。

Clad老哥也总结了GPT-5能有如此神速的几个原因,听起来有点“凡尔赛”:

  • 幻觉少,速度快: GPT-5的“幻觉”——也就是AI的“脑补”和“胡说八道”——明显比O3少。AI不再“天马行空”,而是“脚踏实地”,自然速度就上去了。
  • 空间推理强: O3经常在复杂区域“鬼打墙”,试图硬穿墙,而GPT-5则能规划出更长、更精准的行动序列,几乎不出错,省了大量“冤枉路”。
  • 目标规划更好: 简单说,GPT-5更清楚自己要干啥,并且知道怎么高效地去实现,这种“清晰的头脑”在游戏里简直是外挂。

所以,这波是GPT-5把《宝可梦》当成了它的“能力展示舞台”吗?(让子弹多飞一会儿)

不止宝可梦,更是大模型“科目三”:AI考场里都考啥?

话说回来,让大模型来玩宝可梦,这事儿在AI圈可不是什么新鲜事儿。早在GPT-5之前,Google的Gemini和Anthropic的Claude都曾“跃跃欲试”。比如Gemini 2.5 Pro在今年五月就成功通关了《宝可梦蓝》,而可怜的Claude,至今还在火箭队里“迷路”呢。2 甚至还有研究团队开发了PokéLLMon,据说能达到人类玩家的战略和决策水平,让网友喊话世界冠军来PK!3

那么问题来了,为啥AI大模型都对这款上世纪的“怀旧老游戏”情有独钟?难道宝可梦才是AI界的“新 benchmark”(基准测试)?

还真是!大模型玩宝可梦,可不是我们想象中的那么“简单粗暴”。它背后是一套复杂的“AI玩游戏组合拳”:

  • 系统提示与“金手指”: AI会获得一份“游戏攻略”,包含如何进行游戏的实质性建议。
  • “读屏”+“透视”: 不仅有带有额外信息叠加的游戏截图(相当于AI的“眼睛”),还有来自游戏内存(RAM)的关键信息(相当于“透视”)。
  • “小本本”与“行动指南”: AI有能力保存文本进行规划,并将文本指令转换为模拟器中的按键操作。
  • “活地图”与“导航仪”: 专门构建带标记的小地图,帮助AI在游戏世界里定位,就像人类玩家在脑海里勾勒地图一样。
  • “高情商”的自我批评: 还有一个额外的“自我批评”模型(Critic/Guide),定期对主模型进行评审,帮助它避免常见的“翻车”模式。

块引用:

“大模型通过多层信息整合、规划、执行与自我纠错,实现了接近人类玩家的决策能力。”

看,这哪是玩游戏,这简直是一场集“观察力、理解力、规划力、执行力”于一体的综合大考啊!所以,宝可梦游戏自然就成了衡量大模型上下文理解能力、决策规划能力和界面控制能力的绝佳考场。GPT-5在这些方面的卓越表现,正印证了它在推理、创意写作和减少幻觉方面的显著提升。4

钞能力警告:AI玩游戏,烧的不是显卡,是真金白银!

不过,这场看起来“其乐无穷”的AI大考,可不是什么免费的午餐,它的“报名费”高得有点吓人!

根据网友的分析,光是让GPT-5通关游戏长度仅为《宝可梦水晶》一半的《宝可梦红》,就花费了约3500美元(折合人民币约2万五)的GPT-5 API额度。其中,每个token(可以理解为AI处理的一个词或一个字)的花费就高达4块多人民币!2

“所以,除非你在OpenAI工作,否则想把宝可梦当作benchmark,还得先掂量一下钱包够不够厚。”

这可真是“有钱人的游戏”!我们普通玩家花几十块钱买个游戏卡带就能玩得不亦乐乎,AI玩个“老掉牙”的宝可梦,烧的却是真金白银。这波,**“钞能力”**诠释得淋漓尽致。

从GPT-5在《宝可梦水晶》里的神级表现,到它背后烧钱的“训练”与“测试”,我们看到的是前沿AI模型能力的飞速迭代。这不仅是游戏界的一次“降维打击”,更是AI技术从“纸上谈兵”走向“实战应用”的重要一步。未来的AI,或许不再只是聊天工具,它们可能成为我们生活、工作乃至娱乐中的“全能搭档”。嗯,前提是你得付得起“搭档费”!

引用


  1. GPT-5通关《宝可梦水晶》创纪录,9517步击败赤爷,效率碾压o3三倍·量子位·henry(2025/8/27)·检索日期2025/8/27 ↩︎

  2. GPT-5 just completed Pokemon Red in a new world record time - Claude, Gemini and ChatGPT o3 aren't even close·TechRadar·(未知)(2025/8/27)·检索日期2025/8/27 ↩︎ ↩︎ ↩︎

  3. 大模型玩《宝可梦》达人类水平!网友喊话世界冠军·太平洋科技(未知)·检索日期2025/8/27 ↩︎

  4. 时隔两年!GPT-5 重磅发布:速度翻倍、零幻觉、AI新时代?5个实测!·Serena Wang - 心心加州(2025/8/12)·检索日期2025/8/27 ↩︎