省钱，我只服梁文锋

（本文作者为字母 AI，钛媒体经授权发布）

周鸿祎一小时密集输出：AI 落地最大的误区，是把先进发动机装在马车上

2026 年 6 月 28 日

白酒三驾马车「老新交替」：华润啤酒的「白+啤」下半场怎么踢？

2026 年 6 月 28 日

文 | 字母 AI

DeepSeek 最让人诟病的地方就是服务器总崩，但是从现在开始，DeepSeek 可能再也不会出现服务器卡顿和宕机了。

原因在于，梁文锋挂名发表了一篇论文，标题为《DSpark：基于置信度调度的推测解码与半自回归生成》。按照 DeepSeek 的传统，DSpark 读起来应该是 D·Spark，而不是 DS·park。

这是梁文锋从 2024 年发表的《DeepSeek LLM》之后，他挂名发表的第 12 篇论文。不只是如此，DSpark 这篇论文，还和梁文锋在 2010 年发表的硕士毕业论文“ 撞车” 了。

DSpark 相当于是给 DeepSeek 装上了加速器，对用户来说，体感就是快、稳、不崩。

同样质量的回答，速度直接快了 60% 到 80%，原来等 10 秒的回复现在五六秒就出来.

最关键的是，高峰时段，DeepSeek 也不会再一直“ 转圈” 了。

这个 DSpark 到底有多神奇？别急，我讲给你听。

DSpark 到底是什么，解决了 DeepSeek 什么老问题

大模型生成文字这件事，本质上是一个“ 猜字游戏”。模型每写一个字，都要把前面所有写过的字重新看一遍，算一遍，才能决定下一个字该写什么。

每写一个字，AI 就得从头到尾跑一次，写 100 个字，就要把自己写的东西重新消化 99 遍。学术上，把这个“ 自己回归自己” 的过程，叫做“ 自回归生成”。

整个过程就是现在的自己在跟上一步的自己较劲，上一步没算完，下一步就动不了。

所以过去几年，业界都在琢磨同一件事，能不能让模型一口气猜一串字？

这个思路，就是 DSpark 论文中提到的核心机制—— 投机解码（Speculative Decoding）。

它的运行逻辑是这样的，找一个跑得快但水平一般的模型当草稿，让它先凭感觉一口气猜出后面好几个字，然后把这一串字一次性拿给大模型验证。

大模型扫一眼，前面连续猜对的直接保留，从第一个猜错的地方开始，大模型自己写一个对的，草稿模型再接着往下猜。

这样就可以确保，输出的内容是大模型认可的，而且速度还比一个字一个字猜地要快。

业内普遍认为有两种投机解码。

第一种是“ 老实人” 打法。草稿模型也一个字一个字地猜，猜完一个、看一眼前文、再猜下一个。好处是输出质量更高，坏处是它猜得太慢了，速度跟大模型自己写都差不多了。

第二种是不管三七二十一，刷刷刷一口气把后面所有字全猜出来。虽然速度快，但是猜字时根本不会考虑前面完整的句子，它只看上一个字是什么。

这就导致一开始还好，但是猜字越往后，输出质量就会越低。

论文里把这个现象叫“ 后缀衰减”：第一个字的正确率还行，第二个大幅下滑，到了第五个第六个基本上就是在瞎猜了。

DSpark 的核心思路叫半自回归生成。简单来说，它把上述两种办法给结合在一起了。

第一步，以极快的手速哗哗哗把后面的字全给你猜出来。猜完之后回过头来检查一遍，看看有没有什么语句不通顺、错别字之类地。

第二步，DSpark 会给每个字打个“ 靠谱分”，比如第一个字 90 分，第二个 80 分，第三个 60 分，第四个 30 分。但是这里有个问题，打完分之后，DSpark 就知道哪个字写错了，如果要给它改对，相当于回到了一开始自回归的方法当中，好不容易提高的效率，又送回去了。

所以 DSpark 提出了一个方法，它会提前测量好大模型在不同批大小下的处理速度，然后每个请求的草稿按靠谱分从高到低排好队。

它先把所有请求里最高分的那一批，拿给大模型验。

这个过程很快，因为量少。然后它问自己：要不要把第二批也加进去？加了之后大模型要多花一点时间，这批字有 80% 是对的，能多赚几百个正确结果。多花的时间除以多赚的正确字，算出来一个效率值。赚了，加。第三批，60% 正确率。以此类推。

根据当前服务器的忙碌程度，不忙的时候，全拿过去，能多猜对一个就多猜对一个。

如果大模型此时很忙，那就只把前几个高分拿过去让大模型验，后面那些大概率错的就别去添乱了，省下时间多服务几个用户。

整个过程，叫做置信度调度验证。

之前有很多加速方案，但它们都有一个共同的毛病，那就是单用户测起来快得不得了，一上高并发就崩。

现在的 DeepSeek，一到晚上高峰就卡、就崩。

本质上就是高峰时段用户请求多，GPU 的批处理压力极大，但之前 MTP-1 的投机解码方案会把大量算力浪费在验证那些大概率猜错的 token 上。

这些 token 被草稿模型随便猜出来，大模型看了一眼就驳回，但驳回的过程已经消耗了宝贵的 GPU 周期。

有效吞吐量被严重拉低，请求越积越多，排队越来越长，用户体验就是卡顿甚至加载不出来。

DSpark 部署后，这个问题应该会得到缓解。

实测数据显示，在严格的低延迟要求下，比如 V4-Flash 要保证每个用户每秒看到 120 个字，之前的 MTP-1 系统基本撑不住多少并发就崩了，而 DSpark 还能保持 6 倍以上的吞吐量。

在更常规的中等负载场景下，要求每个用户每秒 80 个字，DSpark 单 GPU 的总吞吐量从 10000 token 每秒提升到 15100 token 每秒，直接涨了 51%。

成本打下来多少，会不会牺牲回答质量？

在 AI 行业，训练成本是一次性的，推理成本却是永续的。

怎么理解这个问题呢？你训练一个大模型，不管你花了几个亿、几十个亿，花完就花完了。

推理不一样，模型上线之后，用户每问一个问题，GPU 就要跑一次，这个成本 7×24 小时不停，用户越多跑得越多，永远停不下来。

这就意味着，谁能把推理成本打下来，谁就能赚钱。也可以反过来说，模型再强，如果推理成本控制不住，那么模型的规模越大，厂商死得就越快。

同样的 GPU 数量，DSpark 在完全不改变硬件的前提下，可以让每个用户的生成速度快 60% 到 85%。

原来等 10 秒钟才出来的回复，现在五六秒就出来了。

DeepSeek 还给出了一个非常极端的场景。遇到热点事件、大量用户同时涌进来的时候，之前的系统如果扛不住，要么排队排到用户放弃，要么直接崩掉。扩容需要时间，GPU 也不是你说加就能立刻加上的。

DSpark 靠动态调度，负载一高，自动缩短验证长度，避免占用关键的批处理容量。这样就能在不扩容的情况下扛住流量尖峰。

那么问题又来了，快是快了，DeepSeek 会因此而偷工减料？回答质量会不会下降？

答案是零损失。

这是投机解码这个技术路线本身的数学性质决定的。拒绝采样机制从数学上严格保证：大模型最终输出的每一个 token，它的概率分布和大模型自己一个字一个字写出来的分布完全一致。所以单从数学验证上来讲，质量不会下降。

DSpark 论文原文写到：“the acceptance rule preserves the target distribution exactly, speculative decoding accelerates generation without any quality loss.” 接纳规则能够精准完整地保留目标分布，投机解码可在不损失输出质量的前提下加速生成过程。

不仅如此，论文还在数学推理、代码生成、日常对话三个领域做了离线准确率测试，和原模型没有统计显著差异。

线上部署之后，也没有收到回答质量下降的用户反馈。

而且由于草稿模型本身体积非常小，只占总计算量的不到 10%，虽然多多少少会影响服务器负载，但是在 51% 的实测提升面前，这点负载可以忽略不计。

DeepSeek 向来以便宜著称，推理成本打下来 40% 之后，DeepSeek 就有了更大的降价空间。

它本来的 API 定价就已经是行业最低的了，现在成本再降一截，token 价格可能也会跟着降。甚至有可能进一步提高免费用户的额度。

更关键的是，这次 DeepSeek 不光是发了模型权重，还把整个 DeepSpec 训练框架开源了。

DeepSpec 是专门用来训练投机解码草稿模型的统一训练工具箱，也就是说，你可以用这套工具给自己的 Qwen3、Gemma 等模型训练草稿模型。

等于把整个行业的推理成本基准线又往下拉了一个台阶。