近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论
演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。
「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。
与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。
作业帮分享三大核心破局实践经验
面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。
第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。
第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。
第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。
经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。
「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。
据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。
近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论
演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。
「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。
与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。
作业帮分享三大核心破局实践经验
面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。
第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。
第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。
第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。
经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。
「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。
据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。
近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论
演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。
「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。
与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。
作业帮分享三大核心破局实践经验
面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。
第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。
第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。
第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。
经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。
「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。
据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。
近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论
演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。
「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。
与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。
作业帮分享三大核心破局实践经验
面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。
第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。
第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。
第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。
经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。
「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。
据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。









