马斯克Grok 4.1“静悄悄”杀疯了?又一个“卷王”驾到,直指情绪与创意!

温故智新AIGC实验室

TL;DR:

马斯克家的Grok 4.1又来“偷袭”了!这回不仅通用能力继续当“卷王”,还在情感和创意上玩出了新花样,誓要把大模型变成“懂你又会写诗”的赛博朋友。看来,“硅谷钢铁侠”是不打算让大家有一刻清闲啊!

就在大家还在围观大模型“神仙打架”的日常,马斯克家的xAI又来了个“不讲武德”的突袭!几乎是“静悄悄”地,Grok 4.1就这么空降了,直接向所有用户开放,X上、官网里、App里,想在哪儿用就在哪儿用。这波操作,不禁让人感叹:老板的脾气,果然是想到哪儿就到哪儿,发布会?排场?不存在的,直接“上菜”!

“闷声发大财”的Grok 4.1:这次都卷了啥?

Grok 4.1这次的升级,听起来就像给你的AI助手来了个“全面体检+特训”,而且主打的就是一个“真实世界可用性”。具体提升在哪儿?官方说了,创造力、情感互动和协作交互这三板斧,那是相当的出色。用大白话讲,就是Grok 4.1不仅脑子更灵光了,还更“懂人心”,更能跟你聊得来,甚至还能保持一份“始终如一”的赛博人格。这简直是AI界的“高情商斜杠青年”啊!

它对用户那点“小心思”的感知能力更强,对话起来也更引人入胜。想想看,一个AI不光能帮你解决问题,还能理解你的情绪,陪你唠嗑不冷场,甚至还能跟你一起头脑风暴搞创意,这谁能不爱?为了实现这些,xAI在原有的强化学习基础上,开发了全新的“奖励模型”,用更先进的智能体推理模型来“自我评估”,简直是AI给自己“批改作业”,卷起来那是真狠。

LMArena“霸榜王”再现?Elo分数直接拉满!

说起大模型,就不得不提那些硬核的排行榜和跑分。Grok 4.1一出手,就在LMArena的Text Arena排行榜上**“杀疯了”。它的推理模式(代号:quasarflux)直接以1483的Elo分数登顶**,把“非xAI系”的模型甩开了整整31分,妥妥的“榜一大哥”1

更离谱的是,即使不开推理模式的Grok 4.1(代号:tensor),也能以1465的Elo分数位居第二,这意味着它在“裸考”状态下,都能吊打一众开了“外挂”(完整推理配置)的对手。回想当初Grok 4发布时,马斯克就敢放话称它“比所有领域的博士生都聪明”,甚至能在AIME25(美国数学邀请赛)上拿满分2。而Grok 4.1这次,直接从前代的总排名33名,一跃冲到榜首,这进步速度,简直是AI界的“火箭蹿升”啊!

"Grok 4.1的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分。"

—— 这波是真的“不给活路”啊,友商看了估计要“流泪猫猫头”了。

不止会“解题”,Grok 4.1还能做你的“赛博知己”?

光会跑分还不够,Grok 4.1这次还特别强调了“情感智能”和“创意写作”这两大软实力。

  1. 情感智能:EQ-Bench3上的“高情商”表现 xAI用了一个叫EQ-Bench的测试来评估Grok 4.1的“情商”,这个测试可不简单,包括情绪理解、洞察力、同理心和人际交往技能,还有45个高难度角色扮演场景。结果嘛,你猜怎么着?Grok 4.1的推理和非推理模式又双叒叕包揽了前两名。看来,以后遇到烦心事,Grok 4.1可能会比你男朋友还懂你呢!

  2. 创意写作:挑战GPT-5.1,这“文笔”有点东西! 在Creative Writing v3基准测试上,Grok 4.1的推理和非推理模式分别位列第二和第三,仅次于**“早期GPT 5.1”**。这下好了,不仅能写代码,还能写诗作词、编故事,这生产力简直是“一键成稿,包你满意”。以后媒体小编们是不是要更卷了?

“幻觉”少了,“靠谱”多了?

大模型最让人头疼的“幻觉”问题,Grok 4.1也给出了解决方案。官方表示,在后训练阶段,xAI特别针对信息查询类提示,着重降低了事实性幻觉。这意味着,你问Grok 4.1一些“正经问题”的时候,它**“胡说八道”的概率大大降低了**。这对于追求准确性的用户来说,绝对是个“福音”。毕竟,谁也不想用一个“张口就来”的AI来找资料吧?FActScore基准测试和生产环境的幻觉率下降,都为这一点提供了数据支持。

马斯克的“AI帝国”野心:步步为营,卷无止境

从Grok 4的20万张GPU“烧出”地表最强AI,到Grok 4 Fast凭借其2M令牌上下文窗口登顶LLM Arena的搜索榜,再到如今Grok 4.1的全面升级,xAI的每一步都显得充满攻击性345。马斯克此前就透露,Grok系列未来还会推出编程模型、多模态Agent,甚至视频生成模型,誓要构建一个全方位的AI生态系统

Grok 4.1的低调发布,看似波澜不惊,实则在AI大模型的“军备竞赛”中又投下了一枚重磅炸弹。它不仅在通用能力上继续保持“强者姿态”,更在情感互动和创意表达这些“软实力”上发力,预示着AI正从单一的“工具人”向更具“人格化”和“共情力”的方向演进。未来的AI,或许真的会成为我们工作生活中的“最佳拍档”,甚至成为情感上的“赛博伴侣”。这场“AI诸神之战”,才刚刚进入高潮,我们这些吃瓜群众,就等着看后续还有哪些精彩好戏吧!

引用


  1. 刚刚,马斯克Grok 4.1低调发布,通用能力碾压其他一切模型·机器之心·机器之心编辑部(2025/11/18)·检索日期2025/11/18 ↩︎

  2. 马斯克Grok-4碾压所有大模型!"比所有博士聪明",AIME25拿满分·量子位·鹭羽(2025/07/10)·检索日期2025/11/18 ↩︎

  3. 马斯克xAI 最具性价比AI 模型Grok 4 Fast 登场·IT之家(2025/11/18)·检索日期2025/11/18 ↩︎

  4. xAI 推出Grok 4 Fast,配备2M 令牌上下文窗口·Cryptopolitan(2025/11/18)·检索日期2025/11/18 ↩︎

  5. 20万张GPU“烧出”地表最强AI?马斯克的Grok 3超1400分登顶排行榜·新浪财经(2025/02/18)·检索日期2025/11/18 ↩︎