2026 年 4 月 11 日 星期六
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 行业新闻

Token 经济时代,AI 推理跑不快的瓶颈是 「存力」?

2025 年 11 月 7 日
在 行业新闻
阅读时间: 1 min read
阅读:47727
A A

Related articles

星巴克发布「千店千面」战略,未来三年覆盖1500个县级行政区

星巴克发布 「千店千面」 战略,未来三年覆盖 1500 个县级行政区

2026 年 4 月 10 日
蒸馏:全员skill的职场恐怖故事

蒸馏:全员 skill 的职场恐怖故事

2026 年 4 月 10 日


大模型产业正在经历一场并不喧闹却足够深刻的结构性转向。过去两年,整个行业在造模型和堆 GPU 上不断加码,英伟达几乎成为所有基础设施讨论的起点和终点。

然而,当模型开始真正走向规模化推理、走向企业级落地、走向多模态和长上下文的新阶段之后,人们才逐渐意识到,决定 AI 体验、成本和性能的关键,不再只是更大的 GPU 集群,隐藏在算力体系背后、曾长期被视为后台工程的 「存力」,浮出水面。

民生证券最新研报指出,受益于 AI 需求的强劲拉动,2025 年第四季度存储价格有望持续看涨。这一积极预测,源于 AI 应用对存储提出更高要求,以及服务器端对高阶 DRAM 和 HBM 的需求增长,挤占了消费级 DRAM 的产能。

在日前由中国信息通信研究院组织的 「先进存力 AI 推理工作研讨会」 上,行业嘉宾达成共识,推理时代的性能瓶颈、成本压力和体验优化,正在从算力侧转移到存储侧,先进存力不再是配角,而是推动 AI 真正落地的主动力量之一。

推理,正在改变 AI 产业的优先级

如果说过去两年是 「参数规模」 的军备竞赛,那么 2025 年开始的阶段则更接近 「推理效率」 的商业竞争。Token 调用量爆发式增长,推理成本持续攀升,在 AI 推理的性能指标中,都是以 「Token 数」 为量纲。

AI 加速落地,意味着 「Token 经济」 的时代。模型训练可以只发生在几个大型企业的超级节点中,但模型推理则遍布千行百业、无数产品端,决定着实际用户体验、服务成本和业务可持续性。

图片来自AI生成

推理负载的根本变化集中在三个方面:

  • 第一,长上下文和复杂任务让 KVCache 从模型的 「临时记忆」 变成影响性能的核心资产,其容量随输入长度呈指数级增长;
  • 第二,多模态从文本扩展到图像、音频、视频和时序数据,原本简单的顺序读写 I/O 模式已无法满足实时推理的复杂需求;
  • 第三,训推一体化趋势加速,模型在持续迭代和增量更新,推理系统需要在高负载下保持一致性、低延迟和稳定性。

这些变化共同导致一个现实——GPU 不是算不动,而是经常在 「等数据」。当 HBM 无法容纳不断膨胀的 KVCache,当多模态输入让 I/O 链路变得拥堵,当存储延迟上下波动影响推理任务调度,GPU 的利用率下降并不因为算力不足,而是数据供给不上来。

于是,推理系统出现了越来越明显的存力瓶颈,算力资源在无谓地空转,直接推高了推理成本。数据显示,在推理侧每提升 20% 的算力利用率,就能带来 15%—18% 的整体成本下降,这一数字相比多少张 GPU 卡的投入,显然更具性价比。

算力不再稀缺,真正稀缺的是 「把 GPU 喂饱」 的能力

传统的信息基础设施中,存储的角色通常偏向 「被动」。它存放数据、提供容量、保证安全与持久化。然而在大模型推理场景中,存储开始承担起一部分 「助推计算」 的职责:如何更快地将数据送到模型手中,如何让 KVCache 不阻塞推理,如何在不同模态间实现高效的数据编织,如何在训推混合负载下保持稳定性能,这些都决定了最终的推理吞吐和延迟。

行业的通常做法是通过分层缓存 + 动态调度提升 KVCache 管理效率,将系统划分为本地极速层、共享扩展层与冷备层,以异构介质对应不同场景的数据特性,并根据访问频率与时延诉求自动决策数据存放位置,从而在容量扩展、热点响应和成本控制三方面取得平衡。

中国移动云能力中心项目总师周宇表示,为提升数据流转效率,移动云正在推进基于 CXL 的新型高速互联,通过将 CPU 内存、GPU 显存及云主机内的闪存统一池化,使系统能够按需分配存储与内存资源,突破传统架构的物理边界。配合数据编织技术,多模态数据可在跨域环境下进行高效流转,以实现 「一次写入、多模访问」 的统一体验。

华为数据存储产品线战略与业务发展部总裁王旭东提到,IT 基础设施能力面临三大挑战:「管不好」 的数据、「喂不饱」 的算力、「降不下」 的成本。推理数据来源多样难以形成高质量、可持续供应的数据集,存储系统的带宽和 IOPS(每秒读写次数) 不足,导致 GPU 等昂贵算力资源长时间空闲。

推理时代的存储不再是以容量为中心,而是以 「数据流动」 为中心,因此必须围绕数据采集、治理、缓存、流转构建一套新的体系。

他表示,传统存储架构难以兼顾高吞吐、低时延及异构数据融合的需求,造成业务发展瓶颈,阻碍 AI 应用落地。华为针对 AI 推理研发的 UCM 推理记忆数据管理技术在行业落地中的核心作用,通过 「集中高质数据、提速 AI 训练、优化推理效能」 三个角度,打造 AI 推理加速解决方案。

图片来自AI生成

华为在与运营商的合作中已经验证:对万卡集群进行全栈存力优化后,训练可以连续运行 22 天不间断,算效提升超过 50%,推理吞吐也同时得到显著改善。

北京硅基流动科技有限公司解决方案总监唐安波从框架层切入推理效率,硅基流动构建的 AI infra 工具链,聚焦提升算力利用率。核心推理框架适配 100 多款开源大模型,并通过公有云服务平台为广大开发者和企业提供优质的大模型服务。

解决方案上,结合 UCM 技术卸载 KVCache 释放显存、提升性能,还通过智能网关优化调度、弹性扩缩容应对长上下文等痛点,基于存储的 KVCache 方案可大幅提升系统吞吐。

下一代 AI 底座:存力的新共识

当人们讨论大模型的能力时,总习惯于关注参数规模、推理速度、token 上限,但真正决定这些能力能否商业化的,是底层的 「数据流动能力」。训练靠 GPU,推理靠体系,而体系的核心越来越不是算多少、算多快,而是 「如何让算力不被浪费」。

先进存力之所以成为行业焦点,不是因为存储厂商突然活跃,也不是存储颗粒涨价,而是整个 AI 推理体系遇到了结构性瓶颈。只有让数据能够在多模态、多级缓存、池化架构中更加高效、可靠地流动,大模型的能力才能真正转化为体验、业务与价值。

未来三年,至少有四个方向会成为产业共识。其一,GPU 不再是最稀缺的资源,真正的稀缺是 「喂饱 GPU 的能力」。当 GPU 性能增长遇到边际收益下降,而推理负载持续增长时,如何提高 GPU 利用率比继续堆卡更具价值。存力池化、CXL 布局、多级缓存体系和 KVCache 外存化将成为必要能力。

其二,多模态带来的数据爆炸会让存储从 「存放数据」 走向 「管理数据」。它将成为 AI 系统的主动组件,而不是被动容器。数据如何分类、如何治理、如何调度、如何快速靠近算力,将直接定义推理体验。

其三,训推一体化使存储系统的 「实时性」 从可选变为必选。在过去,训练对业务实时性影响不大,但未来增量训练和在线推理合流,一次 IO 放大可能直接导致前台延迟波动。存储不再只是后端,而成为业务链路的一部分。

其四,CXL 架构将重塑未来 AI 基础设施的内存与存储边界。CXL 不是某个厂商的技术,而是一种新架构语言,它让内存不再绑定 CPU,也让显存不再成为孤岛,构造出一种算力存力一体化的可能。

未来的 AI 竞争,不会只停留在模型比拼上,而是深入到底座重构之中。(本文作者 | 张帅,编辑 | 盖虹达)

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's 巴伦中文网官方网站

广告

相关 文章

星巴克发布「千店千面」战略,未来三年覆盖1500个县级行政区

星巴克发布 「千店千面」 战略,未来三年覆盖 1500 个县级行政区

来自 周天财经
2026 年 4 月 10 日
0

2026 年 4 月 7 日,星巴克中国伙伴论坛上...

蒸馏:全员skill的职场恐怖故事

蒸馏:全员 skill 的职场恐怖故事

来自 周天财经
2026 年 4 月 10 日
0

文 | 脑极体 「你好,我是已离职员工 XX...

【钛晨报】中国自贸试验区扩围至23个,新增内蒙古;腾讯云:5月9日起对AI算力、容器服务及弹性MapReduce(EMR)相关产品刊例价进行调整;消息称特斯拉Cybercab量产启动

【钛晨报】 中国自贸试验区扩围至 23 个,新增内蒙古;腾讯云:5 月 9 日起对 AI 算力、容器服务及弹性 MapReduce(EMR) 相关产品刊例价进行调整;消息称特斯拉 Cybercab 量产启动

来自 周天财经
2026 年 4 月 10 日
0

【钛媒体综合】 日前,国务院印发 《中国 (内...

胡峥:产业链视角下,低成本与高性价比是商业航天的核心趋势 | 钛资本航空航天组

股票精选回顾:哪些奏效了,接下来会怎样

来自 周天财经
2026 年 4 月 10 日
0

(本文作者为 Barrons 巴伦,钛媒体...

独家 | Happy Horse-1.0确系阿里研发,将于近期正式发布

独家 | Happy Horse-1.0 确系阿里研发,将于近期正式发布

来自 周天财经
2026 年 4 月 9 日
0

钛媒体 App 综合多方获悉,业内备受关注的...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2

兴业证券非银首席分析师徐一洲:创业板改革拓宽广度,与科创板错位协同

2026 年 4 月 11 日

津巴布韦将实施锂精矿出口配额,锂矿板块盘中拉升

2026 年 4 月 11 日

今日黄金 t+d 价格是多少 (2026 年 4 月 8 日)

2026 年 4 月 11 日

近三日资金净流入!机器人 ETF 华夏 (562500) 高位震荡持续走强

2026 年 4 月 11 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录