OpenAI新Agent刚发就被“锤”？中国24人小队惊天“逆袭”，成本质量“双杀”！

TL;DR：

科技圈又出大瓜！OpenAI刚发布的万能Agent，还没热乎就被24人中国初创团队Genspark“无情”碾压，成本、质量全线溃败。海外用户都惊呼：这才是真正的“代差领先”，中国AI智能体有点东西！

重磅炸弹：OpenAI新Agent，真香还是“翻车”？

就在今天凌晨，AI圈的“顶流”OpenAI又甩出了一颗重磅炸弹——ChatGPT Agent正式上线！¹ 听到这个名字，是不是感觉它要化身你的“私人管家”了？没错，OpenAI宣称，这玩意儿能让AI助手通过控制自身的网页浏览器，完成各种多步骤的复杂任务，标志着他们正式杀入“智能体人工智能（agentic AI）”这个高阶赛道。简单来说，就是AI不仅能跟你“聊骚”，还能替你“动手”了！

想想看，以前的ChatGPT就像个“智商超高”的键盘侠，只会嘴上说说。现在它进化了！据说，ChatGPT Agent结合了OpenAI早期“Operator”（操作执行）和“Deep Research”（深度研究）的看家本领，再加上ChatGPT本身的“话痨”优势，All in One，直接在你面前的虚拟沙盒里，上网、跑代码、写文档，一气呵成！² 搞定啥事儿呢？从帮你搭配并购买一套“战袍”，到制作一份PPT，再到更新财务报表，甚至规划一日三餐，听起来是不是有点像科幻片里的“万能手”？当然，涉及到真金白银的操作，比如下单购物，它还是很“懂事”地会先征求你的同意，免得AI把你家底掏空。¹

OpenAI官方还很自信地放出了“成绩单”：在自家的基准测试里，ChatGPT Agent表现那叫一个“傲视群雄”，什么“人类终极考试”啊、“前沿数学”啊，准确率都比前代模型o3翻了一番。尤其在数据分析和建模方面，甚至碾压了人类！¹ 有尝鲜的用户直呼“ChatGPT Agent太夸张了，仅仅几分钟就做到了这个程度！”¹

揭秘Agent：它到底能帮你“干大事”还是“办小事”？

那么，这个集大成者的Agent，到底是怎么在你眼皮底下“搞事情”的呢？其实，它在一个专属的、安全的虚拟小世界（沙盒）里运行，有自己的虚拟操作系统和可访问真实互联网的浏览器，完全不会“染指”你的个人设备，隐私安全这块儿，OpenAI倒是考虑得挺周全。¹

它能做的事儿，可不只是简单的问答了。想象一下，你告诉它：“给我写个关于AI未来趋势的PPT。”它就能自己上网搜集资料、整理信息、生成大纲，甚至还能帮你把PPT框架都搭好。当然，OpenAI也“坦诚”了，幻灯片生成功能还在测试阶段，可能“格式和精致度较为基础”——听，这是官方自带的“泼冷水”吗？ 话说回来，有体验者表示，9分钟就能搞出个“稍加修改即能达到实用水平”的PPT，也算相当给力了。更有意思的是，据说它还能通过强化学习来“自我改进”PPT的输出质量。¹ 好家伙，AI也开始“内卷”了？

不过，这种**“开箱即用”**的高度用户友好性，也牺牲了Agent的定制化和可组合性。有开发者就“吐槽”了，在大多数AI使用场景中，根本没必要请出这位“大佛”——功能强大且性价比更高的o3模型，完全能满足需求。而且，像Claude Code这种能在电脑上直接运行、能访问所有文件、高度定制化的专业工具，在某些研究任务上依然是“yyds”。所以，ChatGPT Agent目前可能还是那个“有用，但还不是一款日常使用的产品。”¹ 毕竟，谁天天需要一个全自动的“瑞士军刀”来削铅笔呢？

理想很丰满，现实很“骨感”：OpenAI“自证”与“他证”的鸿沟

话说回来，OpenAI官方的“自吹自擂”是一回事，真实世界的“他证”又是另一回事了。当我们将目光投向实际应用场景，就会发现这位新晋Agent的能力，似乎存在着明显的“盲区”和“局限”。¹

有“眼尖”的用户发现，在PaperBench、SWE-Bench等更专业的基准测试中，ChatGPT Agent的表现反而不如其“前辈”o3模型。¹ 更扎心的是，有人让它分析Kaggle数据集并转换为PPT和Excel，结果“虽然没有出现操作错误，但其中一些数据不太对劲。” AI也开始“瞎编”了吗？ 媒体分析指出，这背后可能的原因是，它并非一个完备的问题解决型智能，而更像是一个**“复杂的高级模仿者”**。一旦遇到超出训练数据范围的新任务，它就可能“卡壳”。³

更有趣的是，在一次“网络靶场”评估中，ChatGPT Agent被要求在模拟环境中执行全面操作，比如识别服务器。结果它成功了初始步骤，却无法将必要的手段串联起来以达成最终目标，即便提供提示也无济于事。这不就是传说中的“执行力强但缺乏统筹能力”吗？ 当然，在这种“模拟黑客攻击”的场景下，AI无法自主推进任务，或许是件“好事”——万一它真成了“赛博朋克”里的黑客，我们这些凡人可怎么活？¹

中国力量“绝杀”：24人小分队，凭啥把AI巨头“按在地上摩擦”？

正当OpenAI新Agent光环略显暗淡之际，一场来自东方的“降维打击”悄然上演，直接把这场“科技盛宴”推向了高潮！² “ChatGPT Agent看起来像是Manus的真正竞争对手。”——这句海外用户评价，在AI圈激起了千层浪。而其中最亮眼的“选手”，莫过于由前百度集团副总裁、小度科技CEO景鲲和原小度科技CTO朱凯华联合创立的MainFunc公司旗下的通用AI智能体——Genspark！⁴

Genspark不仅最初定位为AI搜索引擎，后来更是华丽转身为“超级智能体（Super Agent）”，能够自主思考、规划任务，并调用工具完成复杂的多步骤任务。更炸裂的是，它上线仅9天，ARR（年度经常性收入）就突破了1000万美元！¹ 这赚钱速度，简直是AI界的“印钞机”啊！

资深AI产品负责人Shubham Saboo直接“点名批评”OpenAI：“ChatGPT Agent被过度夸大了。Genspark和Manus AI在生成研究充分的人工智能演示文稿以及处理电子表格方面，早已遥遥领先。”¹

高潮来了！MainFunc联合创始人兼CEO景鲲在X平台“凡尔赛”地宣布：他们用OpenAI演示视频里一模一样的提示词，Genspark一次成功，而且“耗时仅为其几分之一，成本也只是其几分之一，质量却高出好几倍！”¹ Saboo看了都忍不住转发直呼：“Genspark Super Agent真的能一次性击败OpenAI的ChatGPT！”¹

景鲲那激动的心情，溢于言表：

引用 “我从未想过会有这一天——作为一个只有24人的小初创公司，我们竟然能领先这么多……甚至领先于OpenAI……”¹

看这凡尔赛发言，是不是感觉到了AI圈的“风水轮流转”？ 海外网友也纷纷“认证”：“你们让我惊叹，一个小团队竟能如此成功。”更有用户直言：“你们（Genspark）制作的幻灯片绝对是碾压级的第一名，其他产品根本难以企及。”¹

这波“反向输出”，无疑是给OpenAI狠狠地“打了个脸”。一个24人的中国初创团队，在成本和质量上，给AI巨头上了生动的一课。Genspark的“秘密武器”除了强大的AI Agent Engine和定制化的Sparkpages技术⁴，更在于创始人景鲲团队深厚的“本土化经验”和对用户需求的“手术刀”般精准洞察。⁴

未来已来，AI智能体的“神仙打架”才刚刚开始。谁能真正解决用户的痛点，谁能持续提供“真香”的服务，谁才能成为下一个“AI顶流”！

引用

OpenAI新Agent遭中国24人初创团队碾压，实测成本、质量全输惨，海外用户：中国Agent代差领先·AI前线·华卫（2025/7/18）·检索日期2025/7/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
ChatGPT智能体正式发布，多个创业赛道昨夜无眠·量子位·白交雷刚（2025/07/18）·检索日期2025/7/18 ↩︎ ↩︎
ChatGPT’s new AI agent can browse the web and create PowerPoint slideshows·Ars Technica（2025/07/18）·检索日期2025/7/18 ↩︎
Genspark：AI Agent 赛道的差异化突围者 | AI 智能体·53AI（2025/5/22）·检索日期2025/7/18 ↩︎ ↩︎ ↩︎