2026 年 6 月 28 日 星期日
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 黄金

DeepSeek 又变强了:发布 DSpark 框架 推理速度提升超 60%

2026 年 6 月 28 日
在 黄金
阅读时间: 1 min read
阅读:1007
A A

【TechWeb】6 月 27 日,DeepSeek 团队联合北京大学发布名为 《DSpark》 的研究论文 (基于 speculative decoding 方向),提出一种用于加速大模型推理的新方法。

该技术在保持生成文本分布完全无损 (Lossless) 的前提下,成功突破了大语言模型 (LLM) 在高并发生产环境中的推理性能瓶颈,实测数据显示,其单用户生成速度较现有主流方案最高提升 85%。

目前,该框架已被部署在 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的真实线上流量中,大幅加速了大语言模型 (LLM) 的推理速度。

值得注意的是,DeepSeek 创始人梁文锋也位列论文作者名单之中。

大模型推理的 「速度焦虑」

据了解,主流语言模型生成文本时,基本采用 autoregressive(自回归) 方式。每生成一个新 token 都需要一次完整的前向传播,推理延迟随输出长度线性增长。这也造成了大模型回复总感觉很慢的原因。

在实时对话、多轮智能体工作流等高交互场景中,生成速度直接影响用户体验,也会影响 GPU 利用率。

推测解码技术提供了一条解决路径:用一个轻量级草稿模型快速生成若干候选 token,再由大模型批量验证。

然而,现有方案各有缺陷。自回归草稿模型逐 token 串行生成,质量虽高但生成延迟随候选长度线性增长;并行草稿模型虽能一次产出全部候选,但 token 间缺少依赖关系,导致后续候选被大量拒绝,浪费计算资源。

DSpark 的两把 「手术刀」

围绕上述两大瓶颈,DSpark 提出了两项互补机制。

一个是 「半自回归生成」 架构 (Semi-Autoregressive Generation)。

DSpark 在并行生成主干的基础上引入轻量级顺序模块,逐 token 注入前缀依赖信息。可以理解为:前面用并行方式快速铺开候选,后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

该模块提供两种实现——仅依赖前一个 token 的马尔可夫头,以及通过循环状态累积完整前缀信息的 RNN 头。实验表明,两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度。

另一个是置信度调度验证机制。

传统方案对整段候选无差别校验,在高负载时大量算力被浪费在极可能被拒绝的尾部 token 上。

置信度调度验证机制,可根据不同请求的成功概率与系统负载,自适应调整验证长度,从而减少无效计算开销。

在离线测试中,该方法显著提升了可接受生成长度;在 DeepSeek-V4 线上系统中,相比基线模型,推理速度提升约 60%–85%,并有效降低高并发下的吞吐损耗。

DSpark 在每个候选位置输出置信度分数,预测该 token 的存活概率。硬件感知前缀调度器根据实时引擎吞吐量,为每个请求动态决定最优验证长度,优先将算力分配给预期回报最高的 token。

据了解,论文还同时开源了模型检查点与训练框架 DeepSpec,以推动社区进一步研究。DeepSpec 是一个面向 speculative decoding 训练的代码库,包含 Eagle3、DFlash 和 DSpark。

广告

【TechWeb】6 月 27 日,DeepSeek 团队联合北京大学发布名为 《DSpark》 的研究论文 (基于 speculative decoding 方向),提出一种用于加速大模型推理的新方法。

该技术在保持生成文本分布完全无损 (Lossless) 的前提下,成功突破了大语言模型 (LLM) 在高并发生产环境中的推理性能瓶颈,实测数据显示,其单用户生成速度较现有主流方案最高提升 85%。

目前,该框架已被部署在 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的真实线上流量中,大幅加速了大语言模型 (LLM) 的推理速度。

值得注意的是,DeepSeek 创始人梁文锋也位列论文作者名单之中。

大模型推理的 「速度焦虑」

据了解,主流语言模型生成文本时,基本采用 autoregressive(自回归) 方式。每生成一个新 token 都需要一次完整的前向传播,推理延迟随输出长度线性增长。这也造成了大模型回复总感觉很慢的原因。

在实时对话、多轮智能体工作流等高交互场景中,生成速度直接影响用户体验,也会影响 GPU 利用率。

推测解码技术提供了一条解决路径:用一个轻量级草稿模型快速生成若干候选 token,再由大模型批量验证。

然而,现有方案各有缺陷。自回归草稿模型逐 token 串行生成,质量虽高但生成延迟随候选长度线性增长;并行草稿模型虽能一次产出全部候选,但 token 间缺少依赖关系,导致后续候选被大量拒绝,浪费计算资源。

DSpark 的两把 「手术刀」

围绕上述两大瓶颈,DSpark 提出了两项互补机制。

一个是 「半自回归生成」 架构 (Semi-Autoregressive Generation)。

DSpark 在并行生成主干的基础上引入轻量级顺序模块,逐 token 注入前缀依赖信息。可以理解为:前面用并行方式快速铺开候选,后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

该模块提供两种实现——仅依赖前一个 token 的马尔可夫头,以及通过循环状态累积完整前缀信息的 RNN 头。实验表明,两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度。

另一个是置信度调度验证机制。

传统方案对整段候选无差别校验,在高负载时大量算力被浪费在极可能被拒绝的尾部 token 上。

置信度调度验证机制,可根据不同请求的成功概率与系统负载,自适应调整验证长度,从而减少无效计算开销。

在离线测试中,该方法显著提升了可接受生成长度;在 DeepSeek-V4 线上系统中,相比基线模型,推理速度提升约 60%–85%,并有效降低高并发下的吞吐损耗。

DSpark 在每个候选位置输出置信度分数,预测该 token 的存活概率。硬件感知前缀调度器根据实时引擎吞吐量,为每个请求动态决定最优验证长度,优先将算力分配给预期回报最高的 token。

据了解,论文还同时开源了模型检查点与训练框架 DeepSpec,以推动社区进一步研究。DeepSpec 是一个面向 speculative decoding 训练的代码库,包含 Eagle3、DFlash 和 DSpark。

Related articles

沃什鹰派施压 89% 加息概率给国际金盖上 「天花板」

2026 年 6 月 28 日

大摩称伦敦金看 5200? 先问 ETF 答不答应

2026 年 6 月 28 日

【TechWeb】6 月 27 日,DeepSeek 团队联合北京大学发布名为 《DSpark》 的研究论文 (基于 speculative decoding 方向),提出一种用于加速大模型推理的新方法。

该技术在保持生成文本分布完全无损 (Lossless) 的前提下,成功突破了大语言模型 (LLM) 在高并发生产环境中的推理性能瓶颈,实测数据显示,其单用户生成速度较现有主流方案最高提升 85%。

目前,该框架已被部署在 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的真实线上流量中,大幅加速了大语言模型 (LLM) 的推理速度。

值得注意的是,DeepSeek 创始人梁文锋也位列论文作者名单之中。

大模型推理的 「速度焦虑」

据了解,主流语言模型生成文本时,基本采用 autoregressive(自回归) 方式。每生成一个新 token 都需要一次完整的前向传播,推理延迟随输出长度线性增长。这也造成了大模型回复总感觉很慢的原因。

在实时对话、多轮智能体工作流等高交互场景中,生成速度直接影响用户体验,也会影响 GPU 利用率。

推测解码技术提供了一条解决路径:用一个轻量级草稿模型快速生成若干候选 token,再由大模型批量验证。

然而,现有方案各有缺陷。自回归草稿模型逐 token 串行生成,质量虽高但生成延迟随候选长度线性增长;并行草稿模型虽能一次产出全部候选,但 token 间缺少依赖关系,导致后续候选被大量拒绝,浪费计算资源。

DSpark 的两把 「手术刀」

围绕上述两大瓶颈,DSpark 提出了两项互补机制。

一个是 「半自回归生成」 架构 (Semi-Autoregressive Generation)。

DSpark 在并行生成主干的基础上引入轻量级顺序模块,逐 token 注入前缀依赖信息。可以理解为:前面用并行方式快速铺开候选,后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

该模块提供两种实现——仅依赖前一个 token 的马尔可夫头,以及通过循环状态累积完整前缀信息的 RNN 头。实验表明,两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度。

另一个是置信度调度验证机制。

传统方案对整段候选无差别校验,在高负载时大量算力被浪费在极可能被拒绝的尾部 token 上。

置信度调度验证机制,可根据不同请求的成功概率与系统负载,自适应调整验证长度,从而减少无效计算开销。

在离线测试中,该方法显著提升了可接受生成长度;在 DeepSeek-V4 线上系统中,相比基线模型,推理速度提升约 60%–85%,并有效降低高并发下的吞吐损耗。

DSpark 在每个候选位置输出置信度分数,预测该 token 的存活概率。硬件感知前缀调度器根据实时引擎吞吐量,为每个请求动态决定最优验证长度,优先将算力分配给预期回报最高的 token。

据了解,论文还同时开源了模型检查点与训练框架 DeepSpec,以推动社区进一步研究。DeepSpec 是一个面向 speculative decoding 训练的代码库,包含 Eagle3、DFlash 和 DSpark。

广告

【TechWeb】6 月 27 日,DeepSeek 团队联合北京大学发布名为 《DSpark》 的研究论文 (基于 speculative decoding 方向),提出一种用于加速大模型推理的新方法。

该技术在保持生成文本分布完全无损 (Lossless) 的前提下,成功突破了大语言模型 (LLM) 在高并发生产环境中的推理性能瓶颈,实测数据显示,其单用户生成速度较现有主流方案最高提升 85%。

目前,该框架已被部署在 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的真实线上流量中,大幅加速了大语言模型 (LLM) 的推理速度。

值得注意的是,DeepSeek 创始人梁文锋也位列论文作者名单之中。

大模型推理的 「速度焦虑」

据了解,主流语言模型生成文本时,基本采用 autoregressive(自回归) 方式。每生成一个新 token 都需要一次完整的前向传播,推理延迟随输出长度线性增长。这也造成了大模型回复总感觉很慢的原因。

在实时对话、多轮智能体工作流等高交互场景中,生成速度直接影响用户体验,也会影响 GPU 利用率。

推测解码技术提供了一条解决路径:用一个轻量级草稿模型快速生成若干候选 token,再由大模型批量验证。

然而,现有方案各有缺陷。自回归草稿模型逐 token 串行生成,质量虽高但生成延迟随候选长度线性增长;并行草稿模型虽能一次产出全部候选,但 token 间缺少依赖关系,导致后续候选被大量拒绝,浪费计算资源。

DSpark 的两把 「手术刀」

围绕上述两大瓶颈,DSpark 提出了两项互补机制。

一个是 「半自回归生成」 架构 (Semi-Autoregressive Generation)。

DSpark 在并行生成主干的基础上引入轻量级顺序模块,逐 token 注入前缀依赖信息。可以理解为:前面用并行方式快速铺开候选,后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

该模块提供两种实现——仅依赖前一个 token 的马尔可夫头,以及通过循环状态累积完整前缀信息的 RNN 头。实验表明,两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度。

另一个是置信度调度验证机制。

传统方案对整段候选无差别校验,在高负载时大量算力被浪费在极可能被拒绝的尾部 token 上。

置信度调度验证机制,可根据不同请求的成功概率与系统负载,自适应调整验证长度,从而减少无效计算开销。

在离线测试中,该方法显著提升了可接受生成长度;在 DeepSeek-V4 线上系统中,相比基线模型,推理速度提升约 60%–85%,并有效降低高并发下的吞吐损耗。

DSpark 在每个候选位置输出置信度分数,预测该 token 的存活概率。硬件感知前缀调度器根据实时引擎吞吐量,为每个请求动态决定最优验证长度,优先将算力分配给预期回报最高的 token。

据了解,论文还同时开源了模型检查点与训练框架 DeepSpec,以推动社区进一步研究。DeepSpec 是一个面向 speculative decoding 训练的代码库,包含 Eagle3、DFlash 和 DSpark。

相关 文章

沃什鹰派施压 89% 加息概率给国际金盖上 「天花板」

来自 周天财经
2026 年 6 月 28 日
0

今日周二 (6 月 23 日) 亚盘时段,国际黄金...

大摩称伦敦金看 5200? 先问 ETF 答不答应

来自 周天财经
2026 年 6 月 28 日
0

今日周二 (6 月 23 日) 亚盘时段,伦敦金早...

周大福黄金价格今天多少一克 (2026 年 06 月 23 日)

来自 周天财经
2026 年 6 月 28 日
0

周大福黄金价格今天多少一克 (2026 年 0...

周大福铂金多少钱一克 (2026 年 06 月 23 日) 参考价格

来自 周天财经
2026 年 6 月 28 日
0

周大福铂金多少钱一克 (2026 年 06 月 2...

周生生黄金价格今天多少一克 (2026 年 06 月 23 日)

来自 周天财经
2026 年 6 月 27 日
0

周生生黄金价格今天多少一克 (2026 年 0...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2
周末,一大波利好来了!明天A股怎么走?

周末,一大波利好来了!明天 A 股怎么走?

2026 年 6 月 28 日

AI 算力需求驱动云业绩高增,云计算 ETF 易方达 (516510) 近一周合计 「吸金」 超 2 亿元领跑同类产品

2026 年 6 月 28 日

沃什鹰派施压 89% 加息概率给国际金盖上 「天花板」

2026 年 6 月 28 日
【济安评级】养老金产品管理人评级披露(2026年5月)

【济安评级】 养老金产品管理人评级披露 (2026 年 5 月)

2026 年 6 月 28 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录