DeepSeek V3.1:不止“深思”,还要做你的“全能打工人”!

温故智新AIGC实验室

TL;DR:

DeepSeek 又来“闷声发大财”了!新发布的V3.1模型,不仅自带“思考模式”和“普通模式”,能让你省钱省力,更是在AI Agent这条路上狂飙突进,代码、数学、工具调用样样行,大有要当“AI打工人天花板”的架势!关键是,API价格还特别“香”!

21日,科技圈的吃瓜群众们又被DeepSeek的操作秀了一脸!“DeepSeek小爆发”这几个字,可不是随便说说的。人家悄咪咪地放了个大招——最新版本模型DeepSeek-V3.1正式上线!这消息刚出炉一个小时,X(就是那个“蓝鸟”变“黑鸟”的地方)上的浏览热度就直接冲到了26万!嚯,这热度,是要“炸场”的节奏啊!

DeepSeek这次到底憋了个什么“王炸”?别急,让咱们这些“网感十足”的科技记者带你扒一扒。

双模式“智能芯”:既能“深思熟虑”,也能“秒回”

这次DeepSeek-V3.1最让人眼前一亮,也最“秀”操作的,莫过于它那**“混合型模型”的身份了。简单来说,就是这哥们儿支持“思考模式”“非思考模式”**混合运行。这啥意思?

想象一下,你的AI助理平时是“秒回小能手”(非思考模式),跟你唠嗑、回邮件那是张口就来,快得像开了加速器。但遇到需要“烧脑”的复杂任务,比如帮你写份详细的商业计划书,或者调试一段Bug满天飞的代码时,它就能瞬间切换到“深度思考模式”,像个老教授一样,慢慢琢磨、层层推理。这不就相当于,你花一份钱,请了个既能当“助理”又能当“智囊”的“AI全能王”吗?

DeepSeek官方也嘚瑟地表示,这新模式得益于他们深度优化的训练策略和大规模长文档扩展,所以在推理速度、工具调用智能、代码和数学任务上,都有了“质的飞跃”。

咱们来捋捋这新版模型的三大“高光时刻”:

  • 混合思考模式: 一个模型,两种模式,就像变形金刚,根据需求想变就变。
  • 更智能的工具调用: 这AI现在可不是只会动嘴皮子了,它能更聪明地使用各种工具,完成Agent(智能体)任务的能力直接“Buff叠满”。
  • 更高的思考效率: 拿V3.1-Think模式跟老大哥R1-0528比,回答质量能“打个平手”,但响应速度直接“甩开几条街”。

数据“秀肌肉”:Agent能力,直接“起飞”!

光说不练假把式,AI圈最看重的是啥?那当然是实打实的数据!DeepSeek这次可是把“肌肉”秀了个够。

官方放出的测试结果显示,V3.1-Think在AIME 2025(美国数学邀请赛)得分88.4%,GPQA Diamond(高难度研究生级知识问答数据集)得分80.1%,LiveCodeBench(实时编码基准)得分74.8%。这些数据都比老模型R1-0528要好。

更有意思的是,V3.1-Think的输出tokens(可以理解为AI说的话的字数)反而大幅减少了。

“这就像一个学霸,别人写几大页才能考高分,它只用寥寥数语,就能把答案说得滴水不漏,效率直接拉满!”

这背后意味着什么?意味着V3.1-Think在计算资源优化上简直是**“降维打击”**!用更少的资源,达到相似甚至更高的准确率,这不就是“又快又省”的典型代表吗?

而这次更新的重中之重,就是它那逆天的智能体能力。在软件工程和Agent任务基准上的性能提升,简直让人“直呼好家伙”:

  • SWE-Bench Verified: V3.1得分66.0%,对比V3-0324的45.4%和R1-0528的44.6%,简直是“遥遥领先”,说明这货处理复杂代码任务是真的靠谱。
  • SWE-Bench Multilingual: 多语言版本得分54.5%,大幅领先前代。这意味着DeepSeek V3.1在全球化开发场景中,可以做你的“多语言代码翻译官”,沟通无障碍!
  • Terminal-Bench: 在模拟命令行环境的复杂任务中,V3.1得分31.3%,远超V3-0324的13.3%和R1-0528的5.7%。这说明它在自动化运维和DevOps应用方面,简直是个“神助攻”!

DeepSeek-V3.1(基于MoE架构,总参数671B,激活37B)在搜索Agent、长上下文理解、事实问答和工具使用等领域也表现强势,尤其是在工具使用(如xbench-DeepSearch)和事实QA(如SimpleQA)中表现领先。这明摆着就是要让大家用它来构建各种AI Agent应用,比如**“自动化搜索小能手”或者“代码辅助大师”**。

在Huggingface上,DeepSeek放出了更详细的评估,V3.1在常规推理和知识问答任务(如 MMLU-Redux 和 MMLU-Pro)上,整体表现稳定提升,基本接近行业顶尖大模型水平。在HLE(Humanity’s Last Exam,一个结合搜索和Python的复合推理任务)上,V3.1通过率29.8%,甚至接近了GPT-5、Grok 4等国际一线大模型!在SWE-Bench Verified代码评测中,也与Claude 4.1、Kimi K2等“顶级玩家”保持同一水准。甚至在Terminal Bench终端自动化测试中,它的得分还略高于GPT-5和o3等知名竞品。

虽然V3.1并非在所有维度都全面碾压前代(比如在部分常规对话和知识问答场景下,R1-0528依然有竞争力),但这“偏科生”偏得恰到好处,它把精力都集中在了AI Agent这个未来趋势上,可谓是**“深谋远虑”**!

价格“卷王”,还自带“梦幻联动”!

性能再好,价格“劝退”那也是白搭。DeepSeek这次在价格上,可真是拿捏住了!

  • Input API Price(输入定价):
    • Cache Hit(缓存命中):0.07美元/百万tokens
    • Cache Miss(缓存未命中):0.56美元/百万tokens
  • Output API Price(输出定价): 1.68美元/百万tokens

这是什么概念?用句网络流行语来说,这价格简直是“良心到爆”!难怪MenloVentures的风险投资人Deedy,这位在X上有20万粉丝的科技界大V,直接发推大呼“鲸鱼回来了”!

这哥们儿是真懂行啊!这价格,简直是要在大模型API市场里“掀桌子”的节奏!不过,也有小道消息(咳咳,其实是Google搜索的公开信息)说,DeepSeek从2025年9月6日凌晨起,会对API接口调用价格进行调整。具体涨多少,咱们拭目以待,但至少现在,这价格是真香!

更让人惊喜的是,DeepSeek-V3.1还首次实现了对Anthropic API的原生兼容。这意味着什么?就是用户可以像调用Claude或Anthropic生态的模型一样,无缝接入DeepSeek!开发者们再也不用为了适配新模型而“肝”得死去活来,直接就能用上DeepSeek-V3.1的强大能力,这波操作简直是**“诚意满满”**!

科技圈“一股清流”:不爱炒作,只爱“放模型”

现在科技圈发新品,哪个不是提前造势、预热拉满?DeepSeek可不吃这一套。两天前人家就“默默”发了V3.1-Base模型,网友们直接惊叹于DeepSeek这种**“发模型如发快递”**的低调节奏。

别的模型发布,那恨不得把规格和性能数据炒上天;DeepSeek反其道而行之,直接把模型文件甩出来,让开发者们先“尝鲜”,测试完了再说细节。这不就是传说中的“用产品说话”吗?高效、务实、开发者友好,这才是**科技圈的“一股清流”**啊!

总而言之,DeepSeek-V3.1可能不是那个“拳打Grok4、脚踩GPT-5”的霸王龙,但它有自己明确的、清晰的侧重点和优势——那就是在AI Agent领域“杀疯了”。它不仅提升了智能体的执行效率和准确率,还在价格上展现了“卷王”的姿态,同时提供了开发者友好的API兼容性。 DeepSeek的“Agent时代” 正式拉开帷幕,未来AI打工人的世界,或许将由它重新定义!

引用