2026 年 6 月 23 日 星期二
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 黄金

作业帮基础架构专家亮相第十届 A2M 峰会 分享用技术杠杆破解 AI 算力效率困局

2026 年 6 月 23 日
在 黄金
阅读时间: 1 min read
阅读:673
A A

近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论

演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。

「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。

与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。

作业帮分享三大核心破局实践经验

面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。

第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。

第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。

第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。

经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。

「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。

据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。

广告

近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论

演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。

「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。

与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。

作业帮分享三大核心破局实践经验

面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。

第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。

第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。

第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。

经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。

「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。

据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。

Related articles

6 月 10 日西部黄金股票走弱 跌超 2.47%

2026 年 6 月 23 日

6 月 10 日西部黄金股票走弱 跌超 2.47%

2026 年 6 月 23 日

近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论

演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。

「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。

与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。

作业帮分享三大核心破局实践经验

面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。

第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。

第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。

第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。

经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。

「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。

据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。

广告

近日,国内极具影响力的 AI 工程化实践峰会——第十届 A2M 峰会 (北京站) 如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲 《AI 时代资源效率困境和破局之道》,以多地域集群大规模 GPU 调度实战为核心内容,系统拆解了 AI 基础设施领域 「规模扩张与效率停滞」 的行业困境,并首次公开作业帮自研的三大核心破局方案。

规模越大,浪费越严重:AI 算力效率的行业性悖论

演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去 5 年 AI 训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心 GPU 平均利用率却长期低于 30%。

「花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了 2 到 3 倍。」 他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达 15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠 「堆硬件」 的路已经走不通,AI 算力的下一个战场,是效率。

与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域 GPU 型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。

作业帮分享三大核心破局实践经验

面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了 「用更少的资源,跑更多的 AI 服务/任务」 的核心目标。

第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务 SLA(Service Level Agreement) 依然稳定维持在 99.99% 以上。

第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了 GPU 调度器、RS-Webhook 和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃 K8s 默认 Pod 回收逻辑,改为向计算 「哪台机器缩容后能空出最多卡」 的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡 Pod 迁走,尽可能空出资源。

第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为 「只要有空闲整机,则立刻填充离线训练任务」 的高效模式,彻底告别固定时间窗口的潮汐离线。当在线 Pod 预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线 SLA 不受影响。

经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU 平均利用率长期维持在 90% 以上,可用算力增加约 20%,这些成果直接转化为业务价值和成本节约。

「AI 时代,规模只是入场券,效率才是生死线。」 这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育 AI 的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了 GPU 利用率 90%+的方案,更将这套工程化经验开放分享,为整个 AI 基础设施行业的降本提效探路。

据悉,A2M 峰会是国内最早聚焦 AI 工程化实践的技术盛会之一,本届峰会北京站于 2026 年 6 月 13 日至 14 日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。

相关 文章

6 月 10 日西部黄金股票走弱 跌超 2.47%

来自 周天财经
2026 年 6 月 23 日
0

2026 年 6 月 10 日,今日西部黄金 (60...

6 月 10 日西部黄金股票走弱 跌超 2.47%

来自 周天财经
2026 年 6 月 23 日
0

2026 年 6 月 10 日,今日西部黄金 (60...

6 月 10 日洛阳钼业股票下跌 1.52%

来自 周天财经
2026 年 6 月 23 日
0

2026 年 6 月 10 日洛阳钼业 (60399...

百川发布新一代医疗增强大模型 M4:登顶 HealthBench

百川发布新一代医疗增强大模型 M4:登顶 HealthBench

来自 周天财经
2026 年 6 月 23 日
0

【TechWeb】6 月 22 日消息,近日,...

6 月 10 日金市晚评:炸了!美国 CPI 超预期!黄金崩跌 70 美元空头剑指 4100

来自 周天财经
2026 年 6 月 22 日
0

北京时间周三 (6 月 10 日) 欧洲时段,美元...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2

最新数据:2025 年上海地区券商信息技术岗人数超过研究岗

2026 年 6 月 23 日

6 月 10 日西部黄金股票走弱 跌超 2.47%

2026 年 6 月 23 日

6 月 10 日西部黄金股票走弱 跌超 2.47%

2026 年 6 月 23 日
作业帮基础架构专家亮相第十届A2M峰会 分享用技术杠杆破解AI算力效率困局

作业帮基础架构专家亮相第十届 A2M 峰会 分享用技术杠杆破解 AI 算力效率困局

2026 年 6 月 23 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录