DeepSeek V3.1：不止“深思”，还要做你的“全能打工人”！

TL;DR：

DeepSeek 又来“闷声发大财”了！新发布的V3.1模型，不仅自带“思考模式”和“普通模式”，能让你省钱省力，更是在AI Agent这条路上狂飙突进，代码、数学、工具调用样样行，大有要当“AI打工人天花板”的架势！关键是，API价格还特别“香”！

21日，科技圈的吃瓜群众们又被DeepSeek的操作秀了一脸！“DeepSeek小爆发”这几个字，可不是随便说说的。人家悄咪咪地放了个大招——最新版本模型DeepSeek-V3.1正式上线！这消息刚出炉一个小时，X（就是那个“蓝鸟”变“黑鸟”的地方）上的浏览热度就直接冲到了26万！嚯，这热度，是要“炸场”的节奏啊！

DeepSeek这次到底憋了个什么“王炸”？别急，让咱们这些“网感十足”的科技记者带你扒一扒。

双模式“智能芯”：既能“深思熟虑”，也能“秒回”

这次DeepSeek-V3.1最让人眼前一亮，也最“秀”操作的，莫过于它那**“混合型模型”的身份了。简单来说，就是这哥们儿支持“思考模式”与“非思考模式”**混合运行。这啥意思？

想象一下，你的AI助理平时是“秒回小能手”（非思考模式），跟你唠嗑、回邮件那是张口就来，快得像开了加速器。但遇到需要“烧脑”的复杂任务，比如帮你写份详细的商业计划书，或者调试一段Bug满天飞的代码时，它就能瞬间切换到“深度思考模式”，像个老教授一样，慢慢琢磨、层层推理。这不就相当于，你花一份钱，请了个既能当“助理”又能当“智囊”的“AI全能王”吗？

DeepSeek官方也嘚瑟地表示，这新模式得益于他们深度优化的训练策略和大规模长文档扩展，所以在推理速度、工具调用智能、代码和数学任务上，都有了“质的飞跃”。

咱们来捋捋这新版模型的三大“高光时刻”：

混合思考模式： 一个模型，两种模式，就像变形金刚，根据需求想变就变。
更智能的工具调用： 这AI现在可不是只会动嘴皮子了，它能更聪明地使用各种工具，完成Agent（智能体）任务的能力直接“Buff叠满”。
更高的思考效率： 拿V3.1-Think模式跟老大哥R1-0528比，回答质量能“打个平手”，但响应速度直接“甩开几条街”。

数据“秀肌肉”：Agent能力，直接“起飞”！

光说不练假把式，AI圈最看重的是啥？那当然是实打实的数据！DeepSeek这次可是把“肌肉”秀了个够。

官方放出的测试结果显示，V3.1-Think在AIME 2025（美国数学邀请赛）得分88.4%，GPQA Diamond（高难度研究生级知识问答数据集）得分80.1%，LiveCodeBench（实时编码基准）得分74.8%。这些数据都比老模型R1-0528要好。

更有意思的是，V3.1-Think的输出tokens（可以理解为AI说的话的字数）反而大幅减少了。

“这就像一个学霸，别人写几大页才能考高分，它只用寥寥数语，就能把答案说得滴水不漏，效率直接拉满！”

这背后意味着什么？意味着V3.1-Think在计算资源优化上简直是**“降维打击”**！用更少的资源，达到相似甚至更高的准确率，这不就是“又快又省”的典型代表吗？

而这次更新的重中之重，就是它那逆天的智能体能力。在软件工程和Agent任务基准上的性能提升，简直让人“直呼好家伙”：

SWE-Bench Verified： V3.1得分66.0%，对比V3-0324的45.4%和R1-0528的44.6%，简直是“遥遥领先”，说明这货处理复杂代码任务是真的靠谱。
SWE-Bench Multilingual： 多语言版本得分54.5%，大幅领先前代。这意味着DeepSeek V3.1在全球化开发场景中，可以做你的“多语言代码翻译官”，沟通无障碍！
Terminal-Bench： 在模拟命令行环境的复杂任务中，V3.1得分31.3%，远超V3-0324的13.3%和R1-0528的5.7%。这说明它在自动化运维和DevOps应用方面，简直是个“神助攻”！

DeepSeek-V3.1（基于MoE架构，总参数671B，激活37B）在搜索Agent、长上下文理解、事实问答和工具使用等领域也表现强势，尤其是在工具使用（如xbench-DeepSearch）和事实QA（如SimpleQA）中表现领先。这明摆着就是要让大家用它来构建各种AI Agent应用，比如**“自动化搜索小能手”或者“代码辅助大师”**。

在Huggingface上，DeepSeek放出了更详细的评估，V3.1在常规推理和知识问答任务（如 MMLU-Redux 和 MMLU-Pro）上，整体表现稳定提升，基本接近行业顶尖大模型水平。在HLE（Humanity’s Last Exam，一个结合搜索和Python的复合推理任务）上，V3.1通过率29.8%，甚至接近了GPT-5、Grok 4等国际一线大模型！在SWE-Bench Verified代码评测中，也与Claude 4.1、Kimi K2等“顶级玩家”保持同一水准。甚至在Terminal Bench终端自动化测试中，它的得分还略高于GPT-5和o3等知名竞品。

虽然V3.1并非在所有维度都全面碾压前代（比如在部分常规对话和知识问答场景下，R1-0528依然有竞争力），但这“偏科生”偏得恰到好处，它把精力都集中在了AI Agent这个未来趋势上，可谓是**“深谋远虑”**！

价格“卷王”，还自带“梦幻联动”！

性能再好，价格“劝退”那也是白搭。DeepSeek这次在价格上，可真是拿捏住了！

Input API Price（输入定价）：
- Cache Hit（缓存命中）：0.07美元/百万tokens
- Cache Miss（缓存未命中）：0.56美元/百万tokens
Output API Price（输出定价）： 1.68美元/百万tokens

这是什么概念？用句网络流行语来说，这价格简直是“良心到爆”！难怪MenloVentures的风险投资人Deedy，这位在X上有20万粉丝的科技界大V，直接发推大呼“鲸鱼回来了”！

这哥们儿是真懂行啊！这价格，简直是要在大模型API市场里“掀桌子”的节奏！不过，也有小道消息（咳咳，其实是Google搜索的公开信息）说，DeepSeek从2025年9月6日凌晨起，会对API接口调用价格进行调整。具体涨多少，咱们拭目以待，但至少现在，这价格是真香！

更让人惊喜的是，DeepSeek-V3.1还首次实现了对Anthropic API的原生兼容。这意味着什么？就是用户可以像调用Claude或Anthropic生态的模型一样，无缝接入DeepSeek！开发者们再也不用为了适配新模型而“肝”得死去活来，直接就能用上DeepSeek-V3.1的强大能力，这波操作简直是**“诚意满满”**！

科技圈“一股清流”：不爱炒作，只爱“放模型”

现在科技圈发新品，哪个不是提前造势、预热拉满？DeepSeek可不吃这一套。两天前人家就“默默”发了V3.1-Base模型，网友们直接惊叹于DeepSeek这种**“发模型如发快递”**的低调节奏。

别的模型发布，那恨不得把规格和性能数据炒上天；DeepSeek反其道而行之，直接把模型文件甩出来，让开发者们先“尝鲜”，测试完了再说细节。这不就是传说中的“用产品说话”吗？高效、务实、开发者友好，这才是**科技圈的“一股清流”**啊！

总而言之，DeepSeek-V3.1可能不是那个“拳打Grok4、脚踩GPT-5”的霸王龙，但它有自己明确的、清晰的侧重点和优势——那就是在AI Agent领域“杀疯了”。它不仅提升了智能体的执行效率和准确率，还在价格上展现了“卷王”的姿态，同时提供了开发者友好的API兼容性。 DeepSeek的“Agent时代” 正式拉开帷幕，未来AI打工人的世界，或许将由它重新定义！

双模式“智能芯”：既能“深思熟虑”，也能“秒回”

数据“秀肌肉”：Agent能力，直接“起飞”！

价格“卷王”，还自带“梦幻联动”！

科技圈“一股清流”：不爱炒作，只爱“放模型”

引用