作业帮基础架构专家亮相第十届 A2M 峰会分享用技术杠杆破解 AI 算力效率困局

近日，国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会（北京站）如期举办，作业帮基础架构研发工程师张浩然受邀发表主题演讲《AI 时代资源效率困境和破局之道》，以多地域集群大规模 GPU 调度实战为核心内容，系统拆解了 AI 基础设施领域「规模扩张与效率停滞」的行业困境，并首次公开作业帮自研的三大核心破局方案。

规模越大，浪费越严重：AI 算力效率的行业性悖论

演讲伊始，张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境：过去 5 年 AI 训练算力每六个月翻一番，远超摩尔定律；但与此同时，行业智算中心 GPU 平均利用率却长期低于 30%。

「花了十倍的钱，买了十倍的卡，实际有效算力可能只涨了 2 到 3 倍。」他直言，这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件，浪费反而越严重，成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景，张浩然指出：单靠「堆硬件」的路已经走不通，AI 算力的下一个战场，是效率。

与教科书中理想化的单一超大集群不同，作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。

作业帮分享三大核心破局实践经验

面对上述挑战，作业帮基础架构团队历经多年迭代，形成了一套层层递进、相互配合的系统性解法，实现了「用更少的资源，跑更多的 AI 服务/任务」的核心目标。

第一，跨地域算力网络创新——作业帮自研了一套统一流量调度系统，核心理念是让调用方对变动零感知：从部署方面看，作业帮团队自容器化之初就创建了多云容灾，超前地搭建了多集群部署、镜像分发等能力；而部署之后的核心难点是通信问题，作业帮基础架构团队创新性尝试，让流量调度器根据各地域健康度和配比自动分发，对于无专线的地区，集群间会通过公网进行通信，并在协议层级进行加密；对于有专线的地区，则能进行专线和公网的切换，以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动，服务 SLA（Service Level Agreement）依然稳定维持在 99.99% 以上。

第二，单集群内的碎片化治理——对于效率提升的最大贡献点，则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套，从调度、回收、整理三个层面协同作战：调度策略上，整卡的模型不同服务优先堆叠，同服务尽量分散；显存模型则按照显存维度极致堆叠。回收策略方面，废弃 K8s 默认 Pod 回收逻辑，改为向计算「哪台机器缩容后能空出最多卡」的方向推进。而在碎片化治理阶段，经资源逐层检查与预调度，确认不影响在线服务后，对回收的资源进行标记，根据高峰和非高峰的策略，把散落的卡 Pod 迁走，尽可能空出资源。

第三，在离线混合部署——前两套方案打好基础后，作业帮将在离线混部策略升级为「只要有空闲整机，则立刻填充离线训练任务」的高效模式，彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时，系统自动驱逐任务量最少的离线任务，确保在线 SLA 不受影响。

经过上述系统性优化，作业帮跨地域算力网络彻底打破地域限制，业务扩容再也不受单云/单地域束缚：GPU 平均利用率长期维持在 90% 以上，可用算力增加约 20%，这些成果直接转化为业务价值和成本节约。

「AI 时代，规模只是入场券，效率才是生死线。」这句张浩然在演讲结尾送给全场的话，也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司，作业帮在基础架构侧的技术积累已远超行业平均水准，不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案，更将这套工程化经验开放分享，为整个 AI 基础设施行业的降本提效探路。

据悉，A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一，本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办，吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。