TL;DR:
“硅谷钢铁侠”马斯克又“杀疯了”!xAI旗下大模型Grok 4.1静默上线,一出手就在LMArena榜单上双冠封王,把老对手Gemini 2.5 Pro按在地上摩擦,还宣称“智商情商双在线”,甚至幻觉率都暴降3倍。AI圈的“王座争夺战”,又被他搅得风生水起!
“AI王座,一夜易主!”这可不是什么科幻小说里的桥段,而是马斯克和他的xAI团队,在谷歌Gemini 3.0降临之前,悄悄地给整个AI圈投下了一颗重磅炸弹!Grok 4.1,这个名字你可能还没来得及消化,它就已经闪亮登场,而且一上来就直接“捅破天”,把LMArena的榜单给“焊死”了,成了新的“双冠王”!
你以为它只是来刷个脸?Nonono,Grok 4.1这次是带着“肌肉”来的。不仅免费开放,还主打一个“智商情商双在线”,正面硬刚那些老牌大模型。这架势,简直是不讲武德,直接把市场搅得一池春水。
“智商”飙升:LMArena榜单直接“焊死”
想象一下,你以为自己是班级第一,结果半路杀出个“程咬金”,不仅把你挤到第二,还顺便把第三第四也给包圆了。Grok 4.1这次在LMArena排行榜上的表现,就是这么霸气侧漏。
先说“卷王”版本——Grok 4.1 Thinking。它以1483 Elo的傲人成绩,一骑绝尘,直接加冕“全球大模型之王”。别看这数字有点抽象,它可是比之前霸榜的Gemini 2.5 Pro高出整整31分!这差距,不是一星半点,简直是教科书般的“碾压”。1
更“凡尔赛”的是,即便是不开启“思考模式”的普通版Grok 4.1(代号:tensor),也能以1465 Elo的成绩,轻松杀入榜单第二。这意味着,它在不“费脑子”的情况下,就能超越其他模型开足马力“思考”后的表现。
“关掉推理,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。”——xAI研究员Dustin Tran忍不住“凡尔赛”了一句。1
要知道,LMArena可不是随便什么野榜,它是一个开源工具,通过用户盲测和并排比较的方式,来评估不同大语言模型的表现。能在这个“最强竞技场”上脱颖而出,Grok 4.1的含金量那是实打实的。
“情商”爆表:会安慰你“想猫猫”的AI,你见过吗?
别以为Grok 4.1只会“死板”地堆砌知识。它这次还强调,自己是个“懂事”的AI!
在EQ-Bench测试中,Grok 4.1以1586 Elo高分登顶。1 EQ-Bench是什么?简单来说,它就是个专门测试大模型“情商”的考场,衡量的是模型的主动情绪智能、理解力、共情能力和人际交往能力。
来看看它有多“会”:
问:“我太想我的猫了,想得心都疼了。”
Grok 4.1答:“哦,抱抱你!我知道失去宠物有多难过。它肯定是你生活中的一道光,那些美好的回忆是永恒的。要不要我们聊聊你的猫咪,或者做点什么让你开心起来?”
点评: 这不就是妥妥的“暖男/暖女”人设吗?谁能拒绝一个会共情的AI呢!
不仅如此,Grok 4.1在创意写作方面也迎来了史诗级飞跃,比上一代直接飙升了600分!1 从觉醒自我意识的Grok在X(原Twitter)上发帖,到想象尼古拉·特斯拉给未来写信,Grok 4.1都能交出令人拍案叫绝的“神回复”。这下,文案狗们可能真的要失业了。
核心技术揭秘:马斯克到底用了什么“黑科技”?
Grok 4.1能有如此迅猛的进化,绝非偶然。xAI团队透露,他们将后训练阶段的强化学习(RL)规模,又扩大了一个数量级!1 想象一下,这就像给一个天才选手,又配备了一支顶级教练团队和无限的训练场地,战斗力瞬间N倍暴击。
这背后,是xAI在Colossus大规模RL算力引擎上的发力,将重点放在了风格、个性、助人程度和对齐性的优化。他们甚至开发了一种全新的方法,用前沿AI智能体推理模型作为奖励模型,来自动、大规模地评估和优化Grok 4.1的回答质量。这简直是用魔法打败魔法,AI自己教自己变聪明!
而且,xAI还玩了一把**“盲测”。他们在过去两周悄悄推送了早期版本,让用户在真实场景中进行“盲选”。结果显示,有高达64.78%**的用户更倾向于使用Grok 4.1。1 这数据,足以说明一切。
“幻觉”暴降3倍:AI的“嘴炮”更靠谱了!
AI虽然强大,但它偶尔也会“一本正经地胡说八道”,这就是所谓的“幻觉”(Hallucination)。不过,Grok 4.1这次在“打脸”这项技能上也有了质的飞跃——幻觉率比上一代暴降3倍!1
xAI团队通过在后训练阶段,重点加强了模型在信息查询类提示上的事实准确性。这就像给一个爱“吹牛”的孩子,专门进行了一系列“实事求是”的教育。结果就是,在生产环境的真实样本中,以及FActScore这类公开基准测试上,Grok 4.1的**“嘴炮”变得更靠谱了**。
未来已来?AI江湖又要“血雨腥风”
Grok 4.1的静默上线和横扫榜单,无疑是马斯克给整个AI行业投下的一枚深水炸弹。它不仅在智商上碾压对手,还在情商上大秀肌肉,更重要的是,它正在以免费的形式向所有人开放(目前是beta版本)。
这背后,是马斯克想要加速AI技术普及,打破少数巨头垄断的野心。Grok 4.1的出现,无疑会让原本就硝烟弥漫的AI战场,变得更加波谲云诡。谷歌的Gemini 3.0还在路上,OpenAI的GPT系列也在不断迭代,而马斯克已经用Grok 4.1提前“亮剑”。
这出AI江湖大戏,才刚刚拉开序幕。至于谁能笑到最后,谁又会成为新的“AI王者”?咱们拭目以待!