随着 AI 在应用端的快速落地,AI Agent 的角色也越来越多样化,除了客服、营销、内容创作等根据技能划分的基础工作角色外,更加垂直、专业度更高、甚至更需要经验的应用场景也在出现,合合信息推出的 Chaterm 就瞄向了运维专家方向。
Chaterm 核心能力一览
作为一个运维人员,如果遇到一个连自己都描述不清楚的服务器问题,只说 「服务器好像卡了」,Chaterm 能帮助找到问题吗?答案是 「可以」, Chaterm 产品负责人 Water 表示,Chaterm 被定位为具有 「20 年经验的运维专家」,这正是 Chaterm 最擅长的。在实际工作中,不少用户仅仅是描述一下大致的问题现象,Chaterm 就能够以用户意料不到的方式解决一些疑难的集群问题。
大数据架构师 Chris,使用 Chaterm 快速发现 Hadoop 集群中某台节点的故障根因
AI 的普及正在创造出传统运维工具无法管理的复杂性,而这些问题的解决也要依靠新一代 AI 的力量,近日,Chaterm 产品负责人 Water 向 《巴伦中文网》 分享了目前运维工作的新痛点以及 Chaterm 带来的解决方案和实践反馈。
- 抛开 「锤子和钉子」 的工具化思维,直接解决真实问题
AI 发展带来的基础设施规模持续增长,LLM 的训练和推理都带来了对海量 GPU 集群、高性能网络和存储的爆发式需求。这不仅是服务器数量的增长,更是基础设施异构性复杂度的成倍增加。对于运维工程师来说,现在不仅要管 CPU,更要管 GPU、NPU,以及 CUDA 和各种训练推理平台,RMDA 网络更是将监控和排障的粒度降低到了毫秒级,这些 「新物种」 的监控、调度和故障定位,其难度和传统在线服务不可同日而语。
实际运维工作中,在微服务和 K8s 体系下,一个请求可能横跨几十个服务。故障不再是一个点,而是一个面甚至一个体。运维人员在排查故障时,必须在网络、存储、应用、权限、中间件等多个领域之间反复跳跃,这使得根因分析和故障定位的难度也越来越高。Water 表示,由于人类的排查思路是线性的,而 AI Agent 则可以多维度并行分析,在数秒内即完成人类运维人员需要数小时才能实现的关联分析,这对于缩短 MTTR(平均故障解决时间) 是革命性的。
Chaterm 在云原生 CNCF LandScape 中的定位是 Automation & Configuration tools
对于 B 端客户来说,Chaterm 则在成本优化方面具有明显的价值,即降本。Water 举例称,狭义的 Agent 想要解决根因定位的问题,首先面临的挑战就是如何落地,现代企业的数字化水平往往已经比较高,而 Agent 想要能工作,首先要解决的就是如何跟现有的系统进行对接和落地,toB 端的交付成本甚至会远远超出 Agent 开发的成本,所以目前这个阶段,能够为用户提供一个开箱即用,马上就能产生效果的产品就显得尤为重要。
Chaterm 的目标就是成为管理这些复杂 AI 基础设施的智能层,作为 Chaterm 开发方,合合信息本身就具备丰富的 toB 业务积累,这些对于业务实践的理解让 Chaterm 在开发时能够抛开 「锤子和钉子」 的工具化思维,而是直接面向客户的具体问题,去解决如何利用现有工具解决 「画框上墙」 的真实需求。Water 表示,客户反馈显示,Chaterm 无论是在降低故障的 MTTR,还是优化效率降低成本,以及提升业务安全性上都有一些比较好的落地案例,其中有一些案例完全是用户自己的创新性用法,解决了一些疑难问题。
网络博主 「AI 范儿」 表示,使用 Chaterm 仅需几句提示词就可以高效查杀黑客攻击
Chaterm 已经开源,来进一步提升覆盖问题的丰富度和技术更新的敏感度,目前,Github star 数量已经超过 1.8K,Fork 达到 160+,代码提交次数达超 2700 次。
- 深度融合亚马逊云科技,持续积累 Chaterm 竞争势能
Chaterm 能够准确定位用户痛点、并且高效匹配和迭代功能,除了合合信息本身对运维市场的深度积累之外,也同亚马逊云科技在资源和技术上的赋能密不可分,某种程度上 Chaterm 是在亚马逊云科技的生态上成长起来的应用,亚马逊云科技上的大量企业也成为了 Chaterm 在发展过程中重要的客户群体,尤其是 Chaterm 瞄准的云原生领域,大量的 K8S、微服务和复杂应用都构建在亚马逊云科技之上。
Water 表示,在产品开发过程中,合合信息和亚马逊云科技在分工上天然具有默契的互补性,合合信息主要负责产品设计和代码开发相关的工作,亚马逊云科技则通过 Bedrock,提供稳定的 AI Model 底座,同时亚马逊云科技也会负责大量比如 LLM judge and evaluation,Prompt Routing and Prompt caching guidence 等相关的工作。
合合信息还是 Amazon Advanced 级合作伙伴,亚马逊云科技提供了许多支持来加速产品研发和迭代,这些支持主要包括:
(1) 优先技术接入,当亚马逊云科技推出一项新的服务时,合合信息有机会在它正式 General Availability 之前就进入 Private Beta 或 Preview 阶段,这意味着 Chaterm 可以 「抢先一步」 学会操控这些新服务。当其他产品还在研究新服务的文档时,Chaterm 已经可以帮用户在新服务上执行任务了。
(2) 更深度的技术支持。Advanced 级别合作伙伴让 Chaterm 可以拥有专属的 Partner SA(解决方案架构师) 和技术支持通道。可以直接与亚马逊云科技的内部服务团队对话,这种 「Pro-to-Pro」 的沟通,让 Chaterm 在攻克技术难题时,能节省数周甚至数月的时间,加速迭代速度。
(3) 技术之外,亚马逊云科技还为 Chaterm 提供了强大的 GTM(Go-To-Market) 支持,包括亚马逊云科技 Marketplace 上架、联合营销活动、技术研讨会等,帮助 Chaterm 能更快地触达和服务于亚马逊云科技庞大的客户群。
Chaterm 使用亚马逊云科技的 EKS,KMS,Bedrock 等托管服务构建安全可靠的 AI 服务端
OpenAI 将 AGI 划分为五级模型,分别是 Chatbots(聊天机器人)→Reasoners(逻辑推理者)→Agents(解决方案输出者)→Innovators(创新者)→Organizers(组织者),如果套用这个分类的话认为,Water 认为目前 AGI 正处于 2.5 的阶段,并且 AGI 的发展就像自动驾驶一样,要在 2.5 待很久。
Water 表示,AI 未来的发展会超越人们的想象,Chaterm 的目标更多会聚焦在当下,把 Agent 做好,为下一个阶段的发展积蓄能量。Chaterm 的侧重点也非常明确,主要包括云与基础设施、云原生 K8S、FINOPS 成本优化、安全合规等等。可以把 Chaterm 理解为一个技能树系统,正围绕运维领域最高频、最痛的场景,不断地 「点亮」 新的技能点,使它在专业领域的理解力远超通用 Chatbot。
对于百花齐放的 AI 应用来说,运维之所以是一个值得关注的方向,除了 AI 快速发展带来的新挑战和较高技术密集度之外,运维对于经验的要求也很高,Chaterm 的一个重要护城河也在于将长期的处于孤岛状态下的非标知识沉淀成了可复用的实践能力,通过 MCP 和 RAG,学习和检索运维专家的排错 SOP、最佳实践、祖传脚本,这相当于把 20 年专家的经验赋能给了团队里的每一个人,实现整个团队能力的跃升。
AI 强大的学习能力,让 AI Agent 在标准化知识之外,能够更加迅速地掌握更多基于实践的非标化经验,这对于处理更加复杂、庞大、多变的物理世界需求具有更大的实操意义,Water 表示,Chaterm 要去客户所在的、问题最集中的地方,Chaterm 已经开发出了一些安全控制和管理的插件,以及企业知识库等,这些能力后续可能会以 Enterprise 版本的方式推出。(作者|车铭德,编辑|胡珈萌)
更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's 巴伦中文网官方网站














