2026 年 6 月 29 日 星期一
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 商业

省钱,我只服梁文锋

2026 年 6 月 29 日
在 商业
阅读时间: 2 mins read
阅读:782
A A


(本文作者为 字母 AI,钛媒体经授权发布)

Related articles

周鸿祎一小时密集输出:AI落地最大的误区,是把先进发动机装在马车上

周鸿祎一小时密集输出:AI 落地最大的误区,是把先进发动机装在马车上

2026 年 6 月 28 日
白酒三驾马车「老新交替」:华润啤酒的「白+啤」下半场怎么踢?

白酒三驾马车 「老新交替」:华润啤酒的 「白+啤」 下半场怎么踢?

2026 年 6 月 28 日

文 | 字母 AI

DeepSeek 最让人诟病的地方就是服务器总崩,但是从现在开始,DeepSeek 可能再也不会出现服务器卡顿和宕机了。

广告

原因在于,梁文锋挂名发表了一篇论文,标题为 《DSpark:基于置信度调度的推测解码与半自回归生成》。按照 DeepSeek 的传统,DSpark 读起来应该是 D·Spark,而不是 DS·park。

这是梁文锋从 2024 年发表的 《DeepSeek LLM》 之后,他挂名发表的第 12 篇论文。不只是如此,DSpark 这篇论文,还和梁文锋在 2010 年发表的硕士毕业论文“ 撞车” 了。

DSpark 相当于是给 DeepSeek 装上了加速器,对用户来说,体感就是快、稳、不崩。

同样质量的回答,速度直接快了 60% 到 80%,原来等 10 秒的回复现在五六秒就出来.

最关键的是,高峰时段,DeepSeek 也不会再一直“ 转圈” 了。

这个 DSpark 到底有多神奇?别急,我讲给你听。

DSpark 到底是什么,解决了 DeepSeek 什么老问题

大模型生成文字这件事,本质上是一个“ 猜字游戏”。模型每写一个字,都要把前面所有写过的字重新看一遍,算一遍,才能决定下一个字该写什么。

每写一个字,AI 就得从头到尾跑一次,写 100 个字,就要把自己写的东西重新消化 99 遍。学术上,把这个“ 自己回归自己” 的过程,叫做“ 自回归生成”。

整个过程就是现在的自己在跟上一步的自己较劲,上一步没算完,下一步就动不了。

所以过去几年,业界都在琢磨同一件事,能不能让模型一口气猜一串字?

这个思路,就是 DSpark 论文中提到的核心机制—— 投机解码 (Speculative Decoding)。

它的运行逻辑是这样的,找一个跑得快但水平一般的模型当草稿,让它先凭感觉一口气猜出后面好几个字,然后把这一串字一次性拿给大模型验证。

大模型扫一眼,前面连续猜对的直接保留,从第一个猜错的地方开始,大模型自己写一个对的,草稿模型再接着往下猜。

这样就可以确保,输出的内容是大模型认可的,而且速度还比一个字一个字猜地要快。

业内普遍认为有两种投机解码。

第一种是“ 老实人” 打法。草稿模型也一个字一个字地猜,猜完一个、看一眼前文、再猜下一个。好处是输出质量更高,坏处是它猜得太慢了,速度跟大模型自己写都差不多了。

第二种是不管三七二十一,刷刷刷一口气把后面所有字全猜出来。虽然速度快,但是猜字时根本不会考虑前面完整的句子,它只看上一个字是什么。

这就导致一开始还好,但是猜字越往后,输出质量就会越低。

论文里把这个现象叫“ 后缀衰减”:第一个字的正确率还行,第二个大幅下滑,到了第五个第六个基本上就是在瞎猜了。

DSpark 的核心思路叫半自回归生成。简单来说,它把上述两种办法给结合在一起了。

第一步,以极快的手速哗哗哗把后面的字全给你猜出来。猜完之后回过头来检查一遍,看看有没有什么语句不通顺、错别字之类地。

第二步,DSpark 会给每个字打个“ 靠谱分”,比如第一个字 90 分,第二个 80 分,第三个 60 分,第四个 30 分。但是这里有个问题,打完分之后,DSpark 就知道哪个字写错了,如果要给它改对,相当于回到了一开始自回归的方法当中,好不容易提高的效率,又送回去了。

所以 DSpark 提出了一个方法,它会提前测量好大模型在不同批大小下的处理速度,然后每个请求的草稿按靠谱分从高到低排好队。

它先把所有请求里最高分的那一批,拿给大模型验。

这个过程很快,因为量少。然后它问自己:要不要把第二批也加进去?加了之后大模型要多花一点时间,这批字有 80% 是对的,能多赚几百个正确结果。多花的时间除以多赚的正确字,算出来一个效率值。赚了,加。第三批,60% 正确率。以此类推。

根据当前服务器的忙碌程度,不忙的时候,全拿过去,能多猜对一个就多猜对一个。

如果大模型此时很忙,那就只把前几个高分拿过去让大模型验,后面那些大概率错的就别去添乱了,省下时间多服务几个用户。

整个过程,叫做置信度调度验证。

之前有很多加速方案,但它们都有一个共同的毛病,那就是单用户测起来快得不得了,一上高并发就崩。

现在的 DeepSeek,一到晚上高峰就卡、就崩。

本质上就是高峰时段用户请求多,GPU 的批处理压力极大,但之前 MTP-1 的投机解码方案会把大量算力浪费在验证那些大概率猜错的 token 上。

这些 token 被草稿模型随便猜出来,大模型看了一眼就驳回,但驳回的过程已经消耗了宝贵的 GPU 周期。

有效吞吐量被严重拉低,请求越积越多,排队越来越长,用户体验就是卡顿甚至加载不出来。

DSpark 部署后,这个问题应该会得到缓解。

实测数据显示,在严格的低延迟要求下,比如 V4-Flash 要保证每个用户每秒看到 120 个字,之前的 MTP-1 系统基本撑不住多少并发就崩了,而 DSpark 还能保持 6 倍以上的吞吐量。

在更常规的中等负载场景下,要求每个用户每秒 80 个字,DSpark 单 GPU 的总吞吐量从 10000 token 每秒提升到 15100 token 每秒,直接涨了 51%。

成本打下来多少,会不会牺牲回答质量?

在 AI 行业,训练成本是一次性的,推理成本却是永续的。

怎么理解这个问题呢?你训练一个大模型,不管你花了几个亿、几十个亿,花完就花完了。

推理不一样,模型上线之后,用户每问一个问题,GPU 就要跑一次,这个成本 7×24 小时不停,用户越多跑得越多,永远停不下来。

这就意味着,谁能把推理成本打下来,谁就能赚钱。也可以反过来说,模型再强,如果推理成本控制不住,那么模型的规模越大,厂商死得就越快。

同样的 GPU 数量,DSpark 在完全不改变硬件的前提下,可以让每个用户的生成速度快 60% 到 85%。

原来等 10 秒钟才出来的回复,现在五六秒就出来了。

DeepSeek 还给出了一个非常极端的场景。遇到热点事件、大量用户同时涌进来的时候,之前的系统如果扛不住,要么排队排到用户放弃,要么直接崩掉。扩容需要时间,GPU 也不是你说加就能立刻加上的。

DSpark 靠动态调度,负载一高,自动缩短验证长度,避免占用关键的批处理容量。这样就能在不扩容的情况下扛住流量尖峰。

那么问题又来了,快是快了,DeepSeek 会因此而偷工减料?回答质量会不会下降?

答案是零损失。

这是投机解码这个技术路线本身的数学性质决定的。拒绝采样机制从数学上严格保证:大模型最终输出的每一个 token,它的概率分布和大模型自己一个字一个字写出来的分布完全一致。所以单从数学验证上来讲,质量不会下降。

DSpark 论文原文写到:“the acceptance rule preserves the target distribution exactly, speculative decoding accelerates generation without any quality loss.” 接纳规则能够精准完整地保留目标分布,投机解码可在不损失输出质量的前提下加速生成过程。

不仅如此,论文还在数学推理、代码生成、日常对话三个领域做了离线准确率测试,和原模型没有统计显著差异。

线上部署之后,也没有收到回答质量下降的用户反馈。

而且由于草稿模型本身体积非常小,只占总计算量的不到 10%,虽然多多少少会影响服务器负载,但是在 51% 的实测提升面前,这点负载可以忽略不计。

DeepSeek 向来以便宜著称,推理成本打下来 40% 之后,DeepSeek 就有了更大的降价空间。

它本来的 API 定价就已经是行业最低的了,现在成本再降一截,token 价格可能也会跟着降。甚至有可能进一步提高免费用户的额度。

更关键的是,这次 DeepSeek 不光是发了模型权重,还把整个 DeepSpec 训练框架开源了。

DeepSpec 是专门用来训练投机解码草稿模型的统一训练工具箱,也就是说,你可以用这套工具给自己的 Qwen3、Gemma 等模型训练草稿模型。

等于把整个行业的推理成本基准线又往下拉了一个台阶。

坚持省钱 16 年

2010 年,梁文锋在浙江大学读硕士,他的硕士论文题目叫 《基于低成本 PTZ 摄像机的目标跟踪算法研究》。

这个名字现在看起来非常“ 梁文锋”。

当时做计算机视觉目标跟踪的实验室,标配是几万块一台的工业相机,精度高、可控性强。梁文锋不买,他用的是几百块钱的普通民用球机。

他的论点是,硬件的差距可以用算法补。通过自研的跟踪算法优化,他把便宜摄像头的跟踪精度做到了接近贵价设备的水平。

16 年过去,梁文锋依然执着于用算法给硬件省钱,可以说是相当的不忘初心了。

为什么别的大模型公司都想方设法提升性能,DeepSeek 却想要省钱?因为钱是梁文锋自己的。

在 DeepSeek 完成融资后,外媒爆料称,DeepSeek 成立近三年,完全由梁文锋创立的幻方量化用利润养活,并且期间多次拒绝外部投资。

幻方量化 2025 年平均收益率高达 56.55%,全年营收约 86 亿元,梁文锋个人持股 85%,每年分红数十亿元,个人资产据估算在 500 亿至 1000 亿元之间。今年启动的首轮超 500 亿元融资中,梁文锋个人掏了 200 亿,占总融资额的 40%,是最大单一出资方。

外部投资者的钱不直接进 DeepSeek 主体,而是先注入由梁文锋担任普通合伙人的有限合伙企业,外部投资方成为有限合伙人,只有收益权和财务信息查阅权,没有任何投票权,全部股份锁定五年,禁止转让和退出。

在 DeepSeek,梁文锋同时扮演投资者、管理者和研究者。

省下来的每一分成本,都是直接装进梁文锋自己的口袋里。

面对“ 多买 100 张 GPU 还是让团队做工程优化” 这道题时,大多数人的答案都是前者。快,并且有 OpenAI 和 Anthropic 作为开路先锋,花的又不是自己的钱,是投资人的钱,也没什么好心疼的。

梁文锋选后者,因为他比任何人都清楚这张卡要跑多少 token 才能回本。

三个角色叠在一个人身上,产生了一个 AI 行业里极其罕见的决策闭环。

研究者提出“ 可以省”,管理者判断“ 应该省”,投资者确定“ 自己买单也愿意省”。没有层级汇报,没有跨部门拉齐。

DSpark 就是这条决策链的最新产物。

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

相关 文章

周鸿祎一小时密集输出:AI落地最大的误区,是把先进发动机装在马车上

周鸿祎一小时密集输出:AI 落地最大的误区,是把先进发动机装在马车上

来自 周天财经
2026 年 6 月 28 日
0

人人都在用 AI,公司效率却没提高;攻击成...

白酒三驾马车「老新交替」:华润啤酒的「白+啤」下半场怎么踢?

白酒三驾马车 「老新交替」:华润啤酒的 「白+啤」 下半场怎么踢?

来自 周天财经
2026 年 6 月 28 日
0

(本文作者为 向善财经,钛媒体经授权发布...

中国硬件科技股,正站在反弹的十字路口

中国硬件科技股,正站在反弹的十字路口

来自 周天财经
2026 年 6 月 28 日
0

中国硬件科技股正试图把快速上涨,转化为可...

Rokid发布智能眼镜AIOS YodaOS,称行业尚处「BlackBerry时代」

Rokid 发布智能眼镜 AIOS YodaOS,称行业尚处 「BlackBerry 时代」

来自 周天财经
2026 年 6 月 28 日
0

2026 年 6 月 26 日,智能眼镜厂商 Rok...

AI高考志愿填报避雷指南

AI 高考志愿填报避雷指南

来自 周天财经
2026 年 6 月 28 日
0

(本文作者为 脑极体,钛媒体经授权发布)...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2

2026 丙午年 150 克彩色金币价格 (2026 年 06 月 23 日)

2026 年 6 月 29 日

特朗普指责伊朗攻击霍尔木兹海峡船只违反停火协议

2026 年 6 月 29 日
美光手撕苹果,库克求救长鑫

美光手撕苹果,库克求救长鑫

2026 年 6 月 29 日
省钱,我只服梁文锋

省钱,我只服梁文锋

2026 年 6 月 29 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录