
2025 年上半年,中国 AI 基础设施服务市场规模达 198.7 亿元,同比激增 122.4%。IDC 预测,这一数字将在 2029 年逼近 1500 亿元。与市场狂热形成鲜明对比的是,Gartner 报告曾指出:「超 50% 的 AI 项目因架构问题无法上线」。
当生成式 AI(GenAI) 从技术验证走向规模化应用,企业正陷入 「算力渴求与效率瓶颈并存、创新需求与架构桎梏交织」 的矛盾。
被架构困住的智能转型
赛迪顾问在 《企业级 AI 应用落地白皮书 2025》 中指出,尽管 83% 的企业将 AI 列为战略优先级,但实际落地成功率仅 29%。
与此同时,Gartner 在 《2025 年企业 AI 架构成熟度报告》 中指出,AI 落地失败的根源并非单一技术缺陷,而是 「算力供给、数据治理、系统协同、安全合规」 构成的系统性架构失衡。这种失衡在不同行业呈现出共性挑战,却又因场景差异衍生出个性化难题。
对此,青云科技 CEO 林源表示,从 ChatGPT 问世之后,2023 年开始,至今企业的数智化转型已经经历了三个阶段。
- 第一个阶段,当 ChatGPT 带来了新一轮 AI 浪潮之后,智能算力的紧俏成为阻碍企业 AI 应用的最大难题。甚至至今,高性能的算力也依旧是困扰企业 AI 落地的一个痛点,Gartner 预测,2025 年全球 AI 训练算力缺口将达 42%,中国市场这一比例将升至 55%。「当时市场的主要的痛点是,非专业的算力投资者如何去解决算力管理和运营的问题,」 林源进一步指出,「所以青云当时提出了 AI Infra 1.0,其核心也是让智算投资者能运维运营智算中心。」
- 第二个阶段,随着智算中心的建设,越来越多的客户也愿意对 AI 进行尝鲜。而在更多行业不同场景的客户去拥抱 AI 的过程中,不同的场景,也存在差异化的需求,这些方面在当时是无法得到充分满足的。
- 第三个阶段,当 DeepSeek 爆发之后,企业对待 AI 的态度也从 「尝鲜」 走向了认真考虑如何让 AI 在企业内部落地的方向。在林源看来,这个过程企业会面对更多的问题。
当企业处于 AI 应用第三阶段时,首要面对的就是一些 「历史遗留」 的 IT 架构问题。原先,企业 IT 架构的多代际叠加导致算力资源碎片化。IDC《2025 企业算力管理报告》 显示,制造企业平均存在 4.2 个独立算力池 (传统服务器、虚拟化集群、GPU 节点等),跨池调度效率仅为 28%。67% 的制造企业坦言:「算力与存储升级跟不上模型迭代速度」。「多重架构带来的是企业级 AI 落地过程中,更为多重的挑战。」 林源强调。
此外,为追求上线速度,53% 的企业采用紧耦合 AI 架构,将模型训练、推理与业务系统直接绑定。这种 「一次性搭建」 模式的代价在迭代阶段集中显现。
另一方面,企业内部的 IT 团队与业务部门也面临着问题和冲突,企业的业务越来越复杂、越来越多元化,新技术又让企业业务的更迭频率变快。在面对这么复杂多变的企业应用的场景之下,企业的 IT 部门能力难以支撑,往往疲于奔命。「不仅如此,在现在的大环境之下,企业一方面要做技术创新,另一方面还要面对业务稳定性的刚性要求,这样让企业内部的数字化团队更加举步维艰,做多反而错多。」 林源一语道破了企业当前应用 AI 的痛点。
此外,边缘与中心算力协同不足加剧失衡。随着 AI 推理向边缘设备扩散,企业需同时管理智算中心集群与边缘节点,但据赛迪顾问数据显示,仅 19% 的企业实现算力协同调度。
总体来看,企业当前面对着 「既要,又要,还要」 的三重核心挑战,林源表示,首先,企业既要保留历史 IT 投资,又要拥抱 AI 创新,实现新老兼容;其次,面对愈发多元化的业务需求与越简单越好的 IT 架构诉求之间的矛盾,企业如何平衡好两者之间的关系;第三,企业需要在创新过程的技术迭代性的同时,满足业务的稳定性。
AI Infra成破解落地困局的核心引擎
面对如此多的挑战和问题,企业需要一座衔接历史与未来的 「桥梁」,在林源看来,这座桥梁需要具备三个特性:首先,新的 IT 与应用必须要兼容用户原有的 IT 资产,必须要尊重客户现有的存量业务。
其次,新的 IT 架构必须具备按需部署,可 「进化」 的特性,「所有的客户都非常担心一步到位的技术革命,因为企业会面临极大的风险与极高的成本压力。同时不同客户的阶段不同、能力不同、需求不同,所以我们需要能够满足不同客户的按需、分阶段升级的需求。」 林源强调。
第三,要确保在每次 IT 架构迭代的过程中,用户业务的连续性、数据安全和升级的平滑性。
而 AI Infra 的出现让这些问题有了统一的解题思路。赛迪顾问将 2025 年定义为 「中国 AI Infra 平台应用元年」,其核心价值在于通过 「算力统筹、存储革新、架构整合、生态开放」 四大能力,实现 AI 落地的 「降本、提效、安全、可控」。
通过 「全域调度、弹性伸缩、能效优化」 三大技术路径,AI Infra 能让 「碎片化」 的算力,统筹到一起,形成 「一体化」 的算力平台,从而提升算力的利用效率,破解算力供给难题,推动算力资源价值最大化。
AI Infra 通过整合 GPU/TPU/DCU 等多元芯片,构建统一调度的异构算力池,实现 「按需分配、动态扩容」。除此之外,通过 AI Infra,企业还能实现国产化算力应用的突破。比如,华为昇腾 910B 芯片已实现千亿参数大模型训练,寒武纪 CMX-9 芯片以 15 瓦功耗实现 64TOPS 算力,适配边缘场景需求。燧原科技在庆阳部署的国产异构智算中心,成为 「东数西算」 示范项目,单集群算力达 100PFLOPS,成本较进口方案降低 35%。
而在算力调度方面,基于云原生技术的统一调度平台成为核心。通过算力标签与性能预测模型,实现资源与业务的精准匹配。
以青云科技为例,据林源介绍,青云的 KubeSphere 调度层实现了 「通算+超算+智算」 的全域整合,「在统一的调度层之上,就是青云不同能力的呈现,包括企业需要的完整虚拟化能力、全栈云能力、云原生的能力,以及 AI 智算的能力,都可以在这个统一平台去呈现。这一层是全功能的,确保了客户的业务能够随着 IT 架构的变革实现逐步的进化,保障客户业务的连续性。」 林源介绍道。
在制造业案例中,某制造业企业面临虚拟化管硬件、云原生管应用、智算平台管算力统一纳管的困境。原先该企业需要使用三套系统、三套流程,造成了跨平台协调的高内耗。而据林源介绍,基于青云 AI Infra 3.0 架构,该企业实现了架构协同,「无论是数据存储分析、云原生应用部署,亦或是推理算力供给,都在一个平台上进行搭建和交付。这实现了全链路自动化,将 IT 部门响应业务部门的速度从 1 小时大幅缩短到 15 分钟。这不仅是效率提升,更是业务竞争力的重塑。」 林源如是说。
在生物制药案例中,用户利用 AI Infra 3.0 架构中成熟的模型服务能力来对接专业大模型,通过模型和推理引擎分离架构来选择最适配的推理引擎,及时解决对接集成工作,让客户能快速上线医疗 AI 分析能力,将新型药物的分子设计周期从 18 个月压缩至 12 个月,将高性能复合材料的微观结构模拟时间从 72 小时缩短到 43 小时。
而这仅是 AI Infra 价值的 「冰山一角」。IDC《2025 AI Infra 价值评估报告》 指出,部署新一代 AI Infra 的企业,AI 项目上线率从 29% 提升至 78%,投资回报率提高 120%。
AI Infra 迎来商业化爆发
AI Infra 的战略价值引发全球厂商激烈角逐。Dell'OroGroup 预测,2025 年全球 AI Infra 市场规模将突破 800 亿美元,年复合增长率达 58%。当前市场呈现 「国内厂商聚焦本土痛点、国外厂商强化技术壁垒」 的格局,细分领域的竞争已进入白热化。
厂商纷纷布局的背后是 AI Infra 技术竞赛,国内厂商主要围绕 「信创适配、架构整合、成本控制」 三大本土需求,形成 「全栈型、垂直技术型、生态整合型」 三类玩家,成为目前市场上的主导。
全栈型方面,青云科技以 「桥梁式架构」 破解历史兼容难题,其 AI Infra 3.0 通过 PrimusOS 内核层与 KubeSphere 调度层,实现多代际架构整合;华为以昇腾芯片为核心的全栈布局,覆盖 「芯片-框架-平台-应用」。昇腾 910B 芯片支持千亿参数模型训练,Atlas350 标卡适配超节点部署,某科研机构的大模型训练效率提升 25%。阿里云以规模算力与生态整合见长,灵骏 AI 集群支持千卡规模训练,GPU 弹性算力响应时间缩短至 5 分钟。分布式存储系统支持千亿级小文件调度,推理时延控制在 6ms 以内,服务比亚迪等车企,自动驾驶模型训练周期缩短 50%。
垂直技术型方面,浪潮信息的 AI 服务器全球市占率 47%,液冷技术使 PUE 降至 1.15。某智算中心采用其方案后节能 40%,年均电费减少 280 万元。2025Q1 其 AI 服务器出货量同比增长 62%,稳居全球第一;国产 GPU 企业燧原科技在庆阳异构智算中心中应用的算力规模达 100PFLOPS,成本较进口方案降低 35%。其云燧 T20GPU 已适配 100+AI 模型,在政务、金融领域的渗透率达 18%。
生态整合型方面,腾讯云以 「云原生+Agent」 推动生态协同,国内首个跨型号 GPU 调度的 Serverless 平台,模型启动速度提升 17 倍。Agent Infra 解决方案支持数十万实例并发,服务货拉拉等企业,车路协同响应时延降至 15ms;百度智能云则是聚焦模型与 Infra 协同,文心一言大模型与千帆 AI 平台深度整合。
放眼国际,与国内服务商相比,国际服务商主要周期全球化与生态上,稍有领先。微软 Azure 通过 「云+AI」 深度融合,打造了全球首个 NVIDIA GB300 NVL72 集群 (4600+BlackwellUltraGPU),支持 OpenAI 超大规模推理,内存带宽 1.44exaflops。自研 Maia 100 AI 芯片 (5nm 工艺) 功耗较竞品降低 30%,部署于 GPT-3.5Turbo 推理,但在中国区市场占有率仅 5%;AWS 则是凭借模块化与成本方面的优势,占有一席之地。其 Trainium2 芯片性能是第一代 4 倍,Trn2 UltraServer 支持 64 芯片集群,训练成本较 GPU 降低 30-40%。IoT Greengrass 支持边缘推理,与 SageMaker 集成。
基于此,赛迪顾问预测,未来 3 年全球 AI Infra 市场将呈现 「双轨并行」 格局——中国市场国产化率将从 2025 年的 45% 提升至 2027 年的 65%,政务、金融等领域实现 100% 国产化;全球高端市场仍由 NVIDIA、微软等主导,市占率保持 70% 以上。
放眼全球,AI Infra 的竞争已从单一产品比拼升级为 「技术-生态-场景」 的综合较量。国内厂商需在保持成本与场景优势的同时,突破高端芯片、基础软件等核心技术瓶颈。未来的赢家,必将是既能掌控核心技术,又能深刻理解行业需求的企业。
2025 年作为 AI Infra 应用元年,标志着企业 AI 转型从 「概念探索」 进入 「规模化落地」 的关键阶段。AI 融入企业运营的每一个环节,成为驱动生产力变革的核心力量,已经是不可逆的事实,而 AI Infra,正是开启这一时代的关键钥匙。(文|Leo 张 ToB 杂谈,作者|张申宇,编辑丨盖虹达)
















