阿里Qwen3-Max“手撕”GPT5？万亿参数的AI学霸，这波操作有点秀！

TL;DR：

阿里通义又双叒叕"放大招"了！新一代旗舰模型Qwen3-Max横空出世，不仅在编码和Agent能力上把GPT5、Claude Opus 4甩在身后，连数学题都能轻松拿满分，简直是AI界的"学霸"本霸！

云栖大会又搞事情了！就在9月24日，阿里通义就像开了外挂一样，直接甩出了一枚重磅炸弹——旗舰模型Qwen3-Max。这货一亮相，瞬间就在全球AI江湖掀起了“腥风血雨”，官方放话：性能超越GPT5、Claude Opus 4，直接杀进了全球前三！¹ 喂，GPT，你的王座还好吗？

王炸登场：阿里这波操作有点“燃”！

咱们先来看看这个“王炸”到底有多“能打”。Qwen3-Max可不是那种光喊口号的“花架子”，它直接拿出了实打实的成绩单。这模型分为指令（Instruct）和推理（Thinking）两大版本，预览版就已经在Chatbot Arena排行榜上霸气地占据了第三名的位置，这架势，正式版不得“原地飞升”？¹

据官方透露，这个通义千问家族里最能打、最“顶”的基础模型，预训练数据量高达36T tokens，总参数更是直接冲破了万亿大关！² 这数据量和参数，简直就是把“大力出奇迹”写在了脸上。有了这身硬核配置，Qwen3-Max在编码编程（Coding）和Agent工具调用能力上简直是**“降维打击”**。

在大模型用Coding解决真实世界问题的SWE-Bench Verified测试中，Instruct版本斩获69.6分，直接杀入全球第一梯队，这个分数，让不少“代码苦手”看了都得直呼“爷青结”！¹² 而在聚焦Agent工具调用能力的Tau2-Bench测试中，Qwen3-Max更是以突破性的74.8分，把Claude Opus4和DeepSeek-V3.1都甩在了身后。¹

（点评：瞧瞧这成绩，简直是AI界的“别人家孩子”，不仅会学习，还会自己动手解决问题，让“打工人”情何以堪！）

不止会写代码，还能当“数学天才”？

你以为它只会写代码、玩Agent？那你就图样图森破了。Qwen3-Max的推理增强版本——Qwen3-Max-Thinking-Heavy，简直是AI界的“清华北大附中”学霸。它结合了工具调用和并行推理技术，在推理能力上直接**“开挂”**，尤其是那些让无数人类头疼的数学题。

在聚焦数学推理的AIME 25和HMMT测试中，Qwen3-Max-Thinking-Heavy竟然史无前例地拿下了满分100分！¹ 这在国内可是头一回，直接把“别人家的孩子”的人设稳稳立住了。

它为什么能这么牛？其实道理很简单，就像我们做数学题会用计算器、草稿纸一样，大模型在解数学题时也学会了**“调动工具”，它能自己写代码来做题，同时，增加测试时的计算资源，也让模型表现变得更好。这操作，简直是把“聪明才智”和“后天努力”**完美结合！

大模型“卷王”的进阶之路：Scaling Law还香吗？

还记得大模型预训练界的“金科玉律”——Scaling Law（规模化法则）吗？它告诉我们，只要数据和参数规模够大，AGI（通用人工智能）就离我们不远了。之前，有些大佬还在担心自然数据的上限，觉得Scaling Law是不是快到头了？

结果Qwen3-Max用实际行动告诉大家：“不，你还可以！” 它的性能突破有力证明了，继续**“卷”数据、“卷”参数，依然能锻造出更强的模型，这无疑给整个AI圈都打了一剂强心针。阿里通义千问系列，现在已经实现了从0.5B到超万亿参数的“全尺寸覆盖”，三百多个大模型，简直是“模型超市”**，满足你各种奇葩需求！¹

看到这里，是不是已经**“心痒痒”想体验一下这个AI学霸了？别急，现在Qwen3-Max已经在通义千问QwenChat上免费开放体验了，你也可以通过阿里云百炼平台调用API服务，轻松“召唤”**这个万亿参数的巨兽。¹³

总之，阿里这波Qwen3-Max的操作，不只是秀肌肉，更是在告诉我们，中国AI大模型在国际舞台上，已经不仅仅是“跟跑者”，而是能实实在在“领跑”的存在。未来AI的战场，只会越来越精彩，“吃瓜群众”表示，搬好小板凳，坐等更多“神仙打架”！

引用

阿里通义旗舰模型Qwen3-Max亮相 · InfoQ（2025/9/24）· 检索日期2025/9/24 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
阿里发布Qwen3-Max，性能超GPT5，跻身全球前三 · 亿欧（2025/9/24）· 检索日期2025/9/24 ↩︎ ↩︎
通义大模型_AI大模型_一站式大模型推理和部署服务-阿里云 · 阿里云（2025/9/24）· 检索日期2025/9/24 ↩︎