OpenAI新Agent刚发就被“锤”?中国24人小队惊天“逆袭”,成本质量“双杀”!

温故智新AIGC实验室

TL;DR:

科技圈又出大瓜!OpenAI刚发布的万能Agent,还没热乎就被24人中国初创团队Genspark“无情”碾压,成本、质量全线溃败。海外用户都惊呼:这才是真正的“代差领先”,中国AI智能体有点东西!

重磅炸弹:OpenAI新Agent,真香还是“翻车”?

就在今天凌晨,AI圈的“顶流”OpenAI又甩出了一颗重磅炸弹——ChatGPT Agent正式上线!1 听到这个名字,是不是感觉它要化身你的“私人管家”了?没错,OpenAI宣称,这玩意儿能让AI助手通过控制自身的网页浏览器,完成各种多步骤的复杂任务,标志着他们正式杀入“智能体人工智能(agentic AI)”这个高阶赛道。简单来说,就是AI不仅能跟你“聊骚”,还能替你“动手”了!

想想看,以前的ChatGPT就像个“智商超高”的键盘侠,只会嘴上说说。现在它进化了!据说,ChatGPT Agent结合了OpenAI早期“Operator”(操作执行)和“Deep Research”(深度研究)的看家本领,再加上ChatGPT本身的“话痨”优势,All in One,直接在你面前的虚拟沙盒里,上网、跑代码、写文档,一气呵成!2 搞定啥事儿呢?从帮你搭配并购买一套“战袍”,到制作一份PPT,再到更新财务报表,甚至规划一日三餐,听起来是不是有点像科幻片里的“万能手”?当然,涉及到真金白银的操作,比如下单购物,它还是很“懂事”地会先征求你的同意,免得AI把你家底掏空。1

OpenAI官方还很自信地放出了“成绩单”:在自家的基准测试里,ChatGPT Agent表现那叫一个“傲视群雄”,什么“人类终极考试”啊、“前沿数学”啊,准确率都比前代模型o3翻了一番。尤其在数据分析和建模方面,甚至碾压了人类1 有尝鲜的用户直呼“ChatGPT Agent太夸张了,仅仅几分钟就做到了这个程度!”1

揭秘Agent:它到底能帮你“干大事”还是“办小事”?

那么,这个集大成者的Agent,到底是怎么在你眼皮底下“搞事情”的呢?其实,它在一个专属的、安全的虚拟小世界(沙盒)里运行,有自己的虚拟操作系统和可访问真实互联网的浏览器,完全不会“染指”你的个人设备,隐私安全这块儿,OpenAI倒是考虑得挺周全。1

它能做的事儿,可不只是简单的问答了。想象一下,你告诉它:“给我写个关于AI未来趋势的PPT。”它就能自己上网搜集资料、整理信息、生成大纲,甚至还能帮你把PPT框架都搭好。当然,OpenAI也“坦诚”了,幻灯片生成功能还在测试阶段,可能“格式和精致度较为基础”——听,这是官方自带的“泼冷水”吗? 话说回来,有体验者表示,9分钟就能搞出个“稍加修改即能达到实用水平”的PPT,也算相当给力了。更有意思的是,据说它还能通过强化学习来“自我改进”PPT的输出质量。1 好家伙,AI也开始“内卷”了?

不过,这种**“开箱即用”**的高度用户友好性,也牺牲了Agent的定制化和可组合性。有开发者就“吐槽”了,在大多数AI使用场景中,根本没必要请出这位“大佛”——功能强大且性价比更高的o3模型,完全能满足需求。而且,像Claude Code这种能在电脑上直接运行、能访问所有文件、高度定制化的专业工具,在某些研究任务上依然是“yyds”。所以,ChatGPT Agent目前可能还是那个“有用,但还不是一款日常使用的产品。”1 毕竟,谁天天需要一个全自动的“瑞士军刀”来削铅笔呢?

理想很丰满,现实很“骨感”:OpenAI“自证”与“他证”的鸿沟

话说回来,OpenAI官方的“自吹自擂”是一回事,真实世界的“他证”又是另一回事了。当我们将目光投向实际应用场景,就会发现这位新晋Agent的能力,似乎存在着明显的“盲区”和“局限”。1

有“眼尖”的用户发现,在PaperBench、SWE-Bench等更专业的基准测试中,ChatGPT Agent的表现反而不如其“前辈”o3模型。1 更扎心的是,有人让它分析Kaggle数据集并转换为PPT和Excel,结果“虽然没有出现操作错误,但其中一些数据不太对劲。” AI也开始“瞎编”了吗? 媒体分析指出,这背后可能的原因是,它并非一个完备的问题解决型智能,而更像是一个**“复杂的高级模仿者”**。一旦遇到超出训练数据范围的新任务,它就可能“卡壳”。3

更有趣的是,在一次“网络靶场”评估中,ChatGPT Agent被要求在模拟环境中执行全面操作,比如识别服务器。结果它成功了初始步骤,却无法将必要的手段串联起来以达成最终目标,即便提供提示也无济于事。这不就是传说中的“执行力强但缺乏统筹能力”吗? 当然,在这种“模拟黑客攻击”的场景下,AI无法自主推进任务,或许是件“好事”——万一它真成了“赛博朋克”里的黑客,我们这些凡人可怎么活?1

中国力量“绝杀”:24人小分队,凭啥把AI巨头“按在地上摩擦”?

正当OpenAI新Agent光环略显暗淡之际,一场来自东方的“降维打击”悄然上演,直接把这场“科技盛宴”推向了高潮!2 “ChatGPT Agent看起来像是Manus的真正竞争对手。”——这句海外用户评价,在AI圈激起了千层浪。而其中最亮眼的“选手”,莫过于由前百度集团副总裁、小度科技CEO景鲲和原小度科技CTO朱凯华联合创立的MainFunc公司旗下的通用AI智能体——Genspark4

Genspark不仅最初定位为AI搜索引擎,后来更是华丽转身为“超级智能体(Super Agent)”,能够自主思考、规划任务,并调用工具完成复杂的多步骤任务。更炸裂的是,它上线仅9天,ARR(年度经常性收入)就突破了1000万美元!1 这赚钱速度,简直是AI界的“印钞机”啊!

资深AI产品负责人Shubham Saboo直接“点名批评”OpenAI:“ChatGPT Agent被过度夸大了。Genspark和Manus AI在生成研究充分的人工智能演示文稿以及处理电子表格方面,早已遥遥领先。”1

高潮来了!MainFunc联合创始人兼CEO景鲲在X平台“凡尔赛”地宣布:他们用OpenAI演示视频里一模一样的提示词,Genspark一次成功,而且“耗时仅为其几分之一,成本也只是其几分之一,质量却高出好几倍!”1 Saboo看了都忍不住转发直呼:“Genspark Super Agent真的能一次性击败OpenAI的ChatGPT!”1

景鲲那激动的心情,溢于言表:

引用 “我从未想过会有这一天——作为一个只有24人的小初创公司,我们竟然能领先这么多……甚至领先于OpenAI……”1

看这凡尔赛发言,是不是感觉到了AI圈的“风水轮流转”? 海外网友也纷纷“认证”:“你们让我惊叹,一个小团队竟能如此成功。”更有用户直言:“你们(Genspark)制作的幻灯片绝对是碾压级的第一名,其他产品根本难以企及。”1

这波“反向输出”,无疑是给OpenAI狠狠地“打了个脸”。一个24人的中国初创团队,在成本和质量上,给AI巨头上了生动的一课。Genspark的“秘密武器”除了强大的AI Agent Engine和定制化的Sparkpages技术4,更在于创始人景鲲团队深厚的“本土化经验”和对用户需求的“手术刀”般精准洞察。4

未来已来,AI智能体的“神仙打架”才刚刚开始。谁能真正解决用户的痛点,谁能持续提供“真香”的服务,谁才能成为下一个“AI顶流”!

引用