DeepSeek 发布最强开源新品，瞄向全能 Agent，给 GPT-5 与 Gemini 3 下战书

AI 大厂，正在互相设防

2026 年 7 月 2 日

旧船已漏，新陆未现 — 一个普通人在 AI 时代的观察与思考

2026 年 7 月 2 日

图片来源：unsplash

ChatGPT 迎来三周岁生日之际，竞争对手 DeepSeek 送来了一份「生日礼」，似乎并不想让这位大模型领域的先行者过得那么轻松。

12 月 1 日晚间，DeepSeek 一口气发布了 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 两个正式版模型，同步发布的技术论文显示，这两个推理能力达到了全球领先水平。

根据 DeepSeek 介绍，已经在网页端、App、API 全部更新的「常规军」V3.2 重在平衡推理能力与输出长度，适合日常使用。

在 Benchmark 推理测试中，V3.2 与 GPT5、Claude  4.5 在不同领域各有高低，只有 Gemini 3 Pro 对比前三者均有较明显优势。

图片来自 DeepSeek 官微

与此同时，DeepSeek 方面还表示，对比国产大模型厂商月之暗面新近发布的 Kimi-K2-Thinking，V3.2 的输出长度大幅降低，显著减少了计算开销与用户等待时间。在智能体评测中，V3.2 得分也高于同为开源的 Kimi-K2-Thinking 和 MiniMax M2，是目前的「最强开源大模型」，相比闭源大模型的巅峰也已无限迫近。

图片来自 DeepSeek 官微

更值得注意的是，V3.2 在一些问答场景和通用 Agent 任务中的表现。在一个关于旅游攻略的具体场景咨询中，V3.2 通过深度思考和网站爬虫、搜索引擎等工具调用，给出了十分详尽、精确的攻略和建议。V3.2 更新的 API 首次支持了在思考模式下使用工具调用能力，大大提升了用户获取到的答案的丰富度和适用性。

而且，DeepSeek 方面特别强调，V3.2「并没有针对这些测试集的工具进行特殊训练」。

我们注意到，在大模型测试得分越来越高，但在与普通用户的互动中却经常犯一些常识性错误的当下（尤其以 GPT5 发布时遭遇的吐槽为代表），DeepSeek 近期「上新」时经常强调这一点，证明自身走的不是一条只用正确的答案作为奖励机制，打造出了看似高智商的「最强大脑」，却无法胜任用户个人所需的简单任务、简单问题的「低情商」智能体。

而只有从根本上克服这一点，成为所谓高智商、高情商的「双高」大模型，才有孕育出全能、可靠、高效的 AI Agent 的能力。DeepSeek 方面也表示，相信 V3.2 在真实应用场景中能够展现出较强的泛化性。

为了在计算效率、强大推理能力与智能体性能之间取得平衡，DeepSeek 在训练、整合以及应用层面进行了全方位的优化。根据技术论文，V3.2 引入了 DSA（DeepSeek 稀疏注意力机制），能在长上下文场景中显著降低计算复杂度，同时保持模型性能。

同时，为了将推理能力整合到工具使用场景中，DeepSeek 开发了新的合成流程，能够系统性地大规模生成训练数据。这一方法促进了可扩展的智能体训练后优化，显著提升了复杂、交互式环境中的泛化能力和对指令跟随能力。

另外，如上文所述，V3.2 也是 DeepSeek 推出的首个将思考融入工具使用的模型，大幅提高了模型的泛化能力。

相比于重视平衡性，专注于如何「说人话、干人事」的 V3.2，长思考「特种部队」V3.2 Speciale 的定位则是将将开源模型的推理能力推向极致，探索模型能力的边界。

值得一提的是，V3.2 Speciale 的一大亮点是结合了上周刚刚发布的最强数学大模型 DeepSeek-Math-V2 的定理证明能力。

我们此前的文章中提到，Math-V2 不仅在 2025 国际数学奥林匹克竞赛和 2024 中国数学奥林匹克上都取得了金牌级成绩，在 IMO-Proof Bench 基准测试评估中还得到了比 Gemini 3 更好的成绩。

而且，与此前提到的思路类似，这款数学模型同样在努力克服正确答案奖励机制和「做题家」的身份，以自验证的方式突破目前 AI 在深度推理方面的局限，让大模型真的弄懂何为数学，怎样推导过程，以此形成更强大、稳定、实用也泛用的定理证明能力。

在推理能力上大幅增强的 V3.2 Speciale，也在主流推理基准测试中取得了媲美 Gemini 3.0 Pro 的成绩。不过，V3.2 Speciale 的能力优势需消耗大量 Tokens，显著升高的成本让其目前不支持工具调用和日常对话、写作，仅供研究使用。

从 OCR 到 Math-V2，再到 V3.2 和 V3.2 Speciale，DeepSeek 近期的新品发布不仅每次都收获赞誉一片，也在绝对能力提升的同时不断明确着「实用性」「泛化能力」等发展主线。

2025 年后半程，GPT-5、Gemini 3、Claude Opus 4.5 相继发布，测试成绩一次好过一次，再加上快速追赶的 DeepSeek，「最牛大模型」的赛道已经有些拥挤。而头部的大模型在训练上已有较明显的区别，表现上也各有特色，相信 2026 年的大模型的竞赛会更加精彩。（作者｜胡珈萌，编辑｜李程程）