从赋能到重塑，AI Agent 构建企业智能新引擎

AI 大厂，正在互相设防

2026 年 7 月 2 日

旧船已漏，新陆未现 — 一个普通人在 AI 时代的观察与思考

2026 年 7 月 2 日

本文摘自《云栖战略参考》，这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来，与思考同样问题的「数智先行者」共同探讨、碰撞，希望这些内容能让你有所启发。

当前，2025 年进入尾声，AI Agent（智能体）的热度依然不减。

据 Gartner 预测，AI Agent 领域预计将在 2024- 2030 年间迎来显著增长，市场规模将从 51 亿美元攀升至 471 亿美元。

AI Agent 的走红，不仅是源于技术层面的成熟，还因为它给了产业一个新的想象空间：大模型不仅能回答问题，还能调用工具、执行任务，拥有更长的记忆，与其他智能体协作，甚至还能预知风险。这不仅是从「会说」迈向「会做」，而是真正进入物理世界，成为我们工作和生活中的一部分。

在云栖大会上，阿里巴巴集团 CEO 吴泳铭认为：「未来几乎所有与计算世界打交道的软件可能都是由大模型产生的 AI Agent。」

今年以来，越来越多企业的智能化业务正从「调用模型」迈向「构建可执行任务的 AI Agent」。甲子光年智库在《2025 AI Agent 行业价值及应用分析》报告指出，AI Agent 已经分化出「前端交互的大脑顾问」「专家级的数字员工」「贴心反馈的灵感伙伴」和「让想象力落地的创造者」四种核心角色，它们在不同场景中各司其职，共同构成了企业智能化的新图景。

企业不仅需要智能化工具，更需要一整套企业智能化升级的基础设施。前两年是围绕大模型，而现在是围绕 AI Agent。

想要深入到这场技术变革中，就必须直面一些问题再：什么是 AI Agent？AI Agent 是否走进了真实业务中？AI Agent 落地要跨越哪些鸿沟，又应面向哪些场景？如何为企业应用 AI Agent 提供支持？

这届云栖大会给出了一些答案。

为什么 AI Agent 会成为「业务主角」?

新兴技术的出现，总会伴随着术语洪流和流派之争，带来认知摩擦。

到底什么是 AI Agent ?

其实，我们可以把 AI Agent 理解为一个以大语言模型为核心的、将具体目标转化为具体行动的系统，这个系统具有如下特征：

规划力：能够理解自然语言和复杂任务，将用户请求解析为多个任务，给智能体制定行动规划；
记忆力：拥有长期记忆和短期记忆，能够实时记录已经采取的行动，并通过完善过去的行动和错误来不断改进；
使用工具的能力：具备调用 API、插件和使用专家模型的能力，能够自主决策、自主执行任务，并且能够接收执行结果，并向用户提供汇总结果；
行动力：能够响应大模型的指令、做出行动；并且大模型具备并行调用多个子模型的能力，多个子模型之间也可以互相调用。

Agent 理解自然语言、规划复杂任务的特征已经在诸多企业中落地。

例如，好未来将 AI Agent 定位为教学流程的「大脑」，构建了一个数据驱动的教学闭环。在这个闭环中，AI Agent 首先收集和分析学生完成作业后产生的大量学情数据。随后，它进行双向赋能：一方面，将分析结果反馈给教师，辅助其进行更具针对性的教学设计；另一方面，直接向学生推荐个性化的学习任务，实现精准辅导。

尤为值得一提的是其「AI 试卷分析」功能。它不仅仅是判断对错，而是通过分析学生的错误选项，来推断其背后可能陷入的「思维陷阱」或「知识误区」，这已经高度模拟了资深教师的诊断式教学思维。通过将「备课」、「学情分析」等复杂任务拆解成上百个细分的 Agent，好未来展示了如何通过精细的任务规划，让 AI Agent 真正融入教学的每一个环节。

同时，由于 Agent 的运行方式通常是「通过工程代码，循环执行同一个 LLM 节点，但每一次执行时，提示词都多出上一轮的结果」，因此强大的记忆能力也是 AI Agent 不可或缺的特征。

在儿童教育企业叫叫的实践中，其推出的「AI 学伴」智能体，就生动展示了记忆能力如何与规划、行动能力深度耦合，成为孩子学习轨迹的智能伙伴。

叫叫 CTO 彭首長在云栖大会上介绍，其 Agent 具备了短期和长期记忆能力，并驱动 Agent 的决策与行动。他举了一个例子：当一个孩子前一天因为感冒请假，传统的系统第二天可能会机械地提醒「该学习了」，这显得非常冰冷。而具备记忆能力的 Agent 则会规划出完全不同的行动——它会首先主动发起关怀：「宝宝感冒怎么样了，是不是好一点呢？」再基于与用户的对话，进一步决策后续的学习提醒应当在何时进行推送。

更进一步，这种「记忆 - 规划 - 行动」的闭环体现在整个学习流程中。叫叫的「AI 学伴」会在孩子完成当天的学习后，主动发起一个视频通话，回顾学习过程中的亮点和遇到的问题，并进行交流。彭首長分享道：「30% 的用户会跟它聊满 6 分钟，这也是我们现阶段设置的通话时长上限。」这种长时间的深度对话之所以能够持续，正是因为 Agent 的每一次互动都基于对孩子过去行为的记忆和理解，并为此规划出最合适的交流策略，真正做到了「比闺蜜更了解你」。

过去，AI 更多被视为工具，但现在，AI Agent 已经在一些场景应用中进入业务决策的核心层，成为驱动业务流程再造的引擎。它不再被动地响应指令，而是主动地进行感知、理解、规划并作出决策，实现了从「被动响应」到「主动决策」的升级。

这种自主决策、规划和执行任务的能力已经体现在工业领域。

中石油兰州石化榆林化工有限公司在乙烷制乙烯生产智能化转型过程中，就基于中控技术的时间序列大模型 TPT 2 打造了能主动识别异常、智能评估风险并自主决策执行的智能体。TPT2 已经具备「感知-识别-决策- 执行」的全链路闭环能力。它不再局限于单一装置或单一场景，而是可以在更复杂的工业环境中发挥作用。目前，AI Agent 不仅保障了生产安全，还让单炉乙烯收率提升 0.373%，这意味着单炉每年新增净效益 315.5 万元，每年整体效益提升超过 1500 万元。

在工业之外，零售也是 Agent 自主决策与执行的重要场景。以生鲜电商领域的头部玩家叮咚买菜为例，他们面临着一个经典难题：如何在减少损耗和避免缺货之间找到平衡？这不是简单的算法优化问题，而是要熟悉经营策略，需要 AI Agent 具备真正的自主规划能力。

为此，叮咚买菜构建了一个完整的闭环管理体系——从实时监控指标，到缺货和损耗的精确归因，再到人机协同的策略调优。

面对从农场到餐桌的超长链路，叮咚买菜首先构建了全链路数字化体系，为 AI Agent 的应用打下坚实基础。在此之上，AI Agent 最初的应用聚焦于供应链的极致效率——通过「供需协同」的 AI Agent 架构，自动化处理从供应商管理、销量预测、库存优化到即时履约的全流程。

在库存管理上，叮咚买菜的 AI Agent 构建了一套「监控 - 归因 - 策略调优 - 仿真」的闭环自优化体系，完美体现了「Planning Skills（任务规划）」的特征。它能够根据实时数据动态调整策略。比如，当系统预测某个前置仓的某种蔬菜可能出现缺货时，它会自主规划一系列行动：首先评估将库存从 100 调整到 150 的风险收益比，预测缺货率可能从 15% 降到 3%，但损耗风险会相应增加；然后通过仿真系统（Sandbox）验证策略效果；最后将优化建议推送给相关人员决策，真正做到在损耗与缺货之间找到了最佳平衡点。

最后，得益于 MoE 架构和专家模型的快速进步，Agent 之间互相协作和调用外部工具的能力也得到加强。

微医基于阿里云通义千问等 SOTA 大模型作为其临床医疗大模型底座，通过结合海量高质量医学知识和高质量数据集，并使用深度训练微调、强化学习等技术手段打造了行业领先的临床医疗大模型。这为智能体提供了强大的医疗领域自然语言理解和生成能力，使其能够与医生和患者进行流畅的交互。

在医疗健康场景中，微医构建了「4+1」AI 智能体体系：四个专业智能体（AI 医生、AI 药师、AI 健管、AI 智控）和一个用户专属智能体（面向 C 端用户的 AI 健康管家）。这些智能体之间形成了一个高效的协作网络，各司其职又紧密配合，实现了医疗服务的全流程智能化闭环。

同时，微医整合了通义千问等通用大模型作为其临床医疗大模型的底座。这为智能体提供了强大的自然语言理解和生成能力，使其能够与医生和患者进行流畅的交互。

为了确保决策的专业性和准确性，微医通过 RAG（检索增强生成）技术，深度融合了过去平台积累的高质量数据，高效整合国内顶尖科研及医疗机构能力。当 AI Agent 需要做出临床决策时，它会首先从这些海量的、经过脱敏处理的真实诊疗数据中检索最相关的信息，再结合大模型的能力生成精准的回答和建议。

这些实践表明，这样的 AI Agent 已经不再是大模型的功能延伸，而是能够自主决策、深度协同、价值重构的「业务主角」。

从理想到现实需要跨越四条鸿沟

然而，尽管有一部分 AI Agent 已经成为了企业运营中的「业务主角」，但是从总体上来说，企业在规模化落地 AI Agent 时仍然面临着技术选型、场景融合、安全合规与商业回报衡量等多重挑战。

首先，在技术方面，有企业就表示，当前的 AI Agent 技术在处理单一文本任务时已表现出色，但一旦涉及复杂的行业场景，技术瓶颈便显现出来。

比如，工业质检 AI Agent 需要融合视觉（识别产品瑕疵）、听觉（检测设备异响）等多模态能力，并深度理解特定产线的工艺知识图谱。如何让 AI Agent 的大脑（大语言模型）与它的「眼睛」、「耳朵」（多模态感知能力）高效协同，并将海量的、非结构化的行业 Know-How 内化为可执行的知识，是当前的一大技术难题。

一旦解决了这一难题，企业级 AI Agent 就会带来跃升。

例如，中控技术已累计为流程工业提供了 10 万套控制系统，累计产生的数据量约为 100EB，是大语言模型训练数据的一万倍以上。同时，中控技术建立了强大的工业数据解读能力，能够深度挖掘场景，更好地用人工智能技术为流程工业提供技术、产品和服务。

其次，在场景方面，大型企业和中小企业在落地 AI Agent 时存在差异。大型企业有充足的资源进行深度定制开发，但广大中小企业的需求呈现出高度「碎片化」和「个性化」的特点。

比如，一家小型电商的客服 AI Agent 需求与一家本地维修店的派单 AI Agent 需求截然不同，其业务逻辑、数据接口、工作流程千差万别。传统的标准化 SaaS 模式难以满足这种多样性，而完全定制的成本又令中小企业望而却步。如何在标准化带来的规模效应与个性化满足的业务契合度之间找到平衡，提供既能快速部署又能灵活适配的 AI Agent 解决方案，是阻碍其在中小企业中普及的关键矛盾。

以金融行业为例，尽管 AI Agent 在智能客服和智能投顾等场景中已实现成熟应用，但在文案和代码内容生成、智能文档处理等业务场景中的应用仍然很有限，那些来自各行各业、各个公司的贷款合同、上市招股书等，更得让法务团队通宵逐字核对。

此外，在金融、医疗等受到严格监管的行业，数据隐私与合规是不可逾越的红线。如何确保 AI Agent 在高效决策的同时，保障数据安全、实现决策过程的透明可追溯，是落地过程中必须解决的合规性难题。

如何确保 AI Agent 在高效决策的同时，保障数据安全、实现决策过程的透明可追溯，是落地过程中必须解决的合规性难题。

国泰产险首席技术官朱建平特别强调了金融行业的挑战：「在金融领域，一旦全流程自动化出错，就意味着大批量的资金打错。」为此，他们不得不投入大量精力构建风控体系，确保 AI 的每一个决策都可追溯、可审计。

为了让 Agent 更加安全、有效地运行，微医率先提出了「AI 健共体」的概念，以人工智能总医院为核心，连接区域内二、三级医院，与基层医疗机构形成了责任共同体、管理共同体、服务共同体和利益共同体。在 AI 健共体建设运营过程中，微医通过本地化数据存储及大模型部署、加快实施和构建安全可信空间等方式保障业务流程中的数据安全。

最后，商业回报仍是热议话题：企业决策者最关心 ROI，但 AI Agent 的价值往往难以直接量化。例如：在制造业，部署 AI 驱动的产线需大量前期投入，周期长、见效慢，短期难见回报。

因此，如何建立科学可信的评估体系，向决策层清晰展现 AI Agent 的长期战略价值，而非仅限于成本节约，成为项目推进的关键难题。

西门子正直面这一挑战。西门子工厂自动化战略产品管理部总监 Nicholas Hansen 在云栖大会上强调，制造业迈向自适应与自主化的根本驱动力，始终是「在生产过程中实现盈利」。他指出，AI Agent 不能停留于技术概念，必须转化为客户可感知的商业成果。

为此，西门子将 AI 应用与核心生产指标直接挂钩。Nicholas 分享多个案例：通过 AI 实现闭环控制，某产线效率从 89% 起步持续提升，带来「数千甚至数万美元」额外收益；在高良品率的压铸场景中，AI 整合全参数优化控制，进一步提升质量稳定性与成品率。目前，西门子已在超 100 个项目中验证该模式，成功关键在于绑定产量、良品率、损耗等直接影响财务的硬指标。

然而，「四条鸿沟」——技术、场景、合规与商业回报——仍横亘在多数企业面前。仅靠「调用模型」的浅层应用，已无法系统性解决智能化转型的深层问题。

当企业不再满足于将 AI 视为一个「聪明的聊天框」时，一场从「调用模型」到「构建 Agent」的根本性范式转变，便成为了跨越鸿沟的必然选择。

从调用模型到构建 Agent：始于小场景，深入业务流

面对前述的四条鸿沟，企业发现简单的模型调用已无法提供系统性答案。真正的破局之道，在于一场深刻的范式转移：从「调用模型」迈向「构建可执行任务的 AI Agent」阶段。

这个从「调用」到「构建」的转变，本质上是从使用一个「超级能力接口」升级为打造一个「自主数字员工」，其工程复杂度和系统性要求呈指数级增长。

在这个过程中，企业构建 Agent 不能唯「大模型」论。而是应该带着行业理解，在具体的场景中寻找答案。

阿里云按照产品力、生产力、创新力、劳动力给 AI Agent 的落地场景划分了四个象限。

在云栖大会上，阿里云智能集团公共云事业部解决方案架构部副总经理娄恒表示，企业应该优先选择那些有着新业务模式的（如新药、新材料研发）、简化重复性工作的（如客服、质检、危险工作）、提升客户体验的（如 AI 硬件、智能眼镜等）、提升企业生产经营效率（如知识管理、办公协作）的场景优先落地 AI Agent。

除了四象限，阿里云还提出了 AI Agent 落地场景选择的「三维价值矩阵」。

首先，在业务价值维度上，应遵循「三多原则」——用人多、用时多、省钱多。以客服工单生成为例，引入 AI Agent 能够自动完成工单的填写与生成，显著提升客服人员的工作效率。类似的价值已在研发、营销、风控等多个关键业务环节得到验证，AI Agent 正逐步成为企业智能化转型的核心驱动力。

中国工商银行总行金融科技部副总经理金海旻在云栖大会上透露，工商银行打造了「工银智涌」大模型技术体系，并利用大模型在 20 多个业务领域、400 多个场景实现端到端赋能，打造了上千个专业领域的智能体，累计调用量达 15 亿次，日均消耗 80 亿 token。

其次，在技术难度维度上，要选择适合大模型擅长的工作范围。娄恒强调，大模型的优势在于高泛化性场景，「一个仪表厂要读表，原来一个表要做一个模型训练，当表盘设计变了或引入新规格时，要重新训练。但大模型很好地解决了泛化性，1 个表和 100 个表都是一样的读法。」娄恒说。同时，对于低时延要求的场景，仍应保留小模型或规则引擎。

以西门子为例，Xcelerator 工易魔方智能机器人携手通义大模型，可以高效完成 AI 对话，实现智能机器人控制，节约现场不同场景机器人程序调试时间，大幅节约了工厂运营成本并提高稳定性。

第三，在数据可得维度上，要优先选择有丰富数据支撑的场景。「模型在 ICPC 信息学竞赛 12 道题都能答满，IMO 能够拿金牌，但企业内部场景往往做得不那么理想。这是因为外部有大量公开数据做强化训练，而企业内部的术语、黑话、业务逻辑，模型并不了解。」娄恒说。因此，选择既有公开数据又有高质量内部知识库的场景，更容易成功。

例如，微医的「AI 健共体」之所以能实现精准决策，除了行业领先的 AI 能力、丰富的医疗服务场景以及高效整合的科研、医疗机构能力，十多年来积累的高质量脱敏临床真实诊疗数据发挥了重要作用；同样，工商银行的成功也离不开其海量的金融业务数据。这些高质量的私域数据，构成了企业 AI Agent 最坚实的护城河。

从简单调用 API 到在特定化场景中精细化构建 AI Agent，这一转变也意味着企业面临的挑战已从「算法问题」转变为「系统工程问题」。过去，企业或许只需关注如何选择最好的模型、写出最好的提示词；而现在，企业必须思考如何设计一个集成了记忆、规划、工具调用、安全风控和可观测性的复杂系统。

企业需要先「修路」，再「跑车」

面对构建复杂 Agent 系统的工程挑战，答案是明确的：企业需要先「修路」，再「跑车」——即先构建规范化、标准化的 AI 基础设施，再让 AI Agent 安全、高效地在业务流程中运行。

除了前文提到的「四象限」和「三维价值矩阵」的方法论。阿里云还提供了一套完整的 AI Agent 构建、部署和运行解决方案。该解决方案以「一套模型服务、两种开发范式、七大企业级能力」为骨架，一次性交付从模型到 AI Agent 应用的完整技术栈。

一套模型服务，指的是通义千问大模型；两种开发范式，指的是阿里云百炼平台提供的从低代码到高代码的全链路开发工具；平台还集成七大企业级能力——多模态处理、工具连接、智能记忆、安全沙箱、链路可观测、资源调度与计费结算，实现 AI Agent 从开发到商业化的全链路闭环。（更多详细内容请见本刊文章《迈向 ASI，阿里云以全栈 AI 服务能力开拓智能新版图》）

在云栖大会现场，娄恒特别提醒：「大模型不是万能的，它一定有自己的能力边界。」因此，阿里云提出了「大小模型混编」的工程化解决方案——Top 80% 高频场景用小模型或规则引擎（毫秒级、零幻觉），长尾 20% 泛化场景用大模型覆盖，再用规则兜底校验。「不用推倒重来，把原来收不进的业务单收进来，ROI 最高。」

这种工程化思路的转变，要求企业必须从一开始就规划好 AI 的整体架构。由此，阿里云提出了「AI Landing Zone」的概念——从账号、安全、数据工程、部署、集成等方面一次规划、分步实施，避免「100 个场景 30 套技术栈」的混乱局面。

在选定了场景、明确了模型、构建方法后，确定要做什么种类的 Agent 也很重要。因此，阿里云也提出了企业构建 AI Agent 的六大确定性方向：一是生态集成：通过 MCP、A2A 等协议，实现 AI Agent 之间的互联互通；二是知识检索与分析：构建企业专属的知识图谱和检索能力；三是深度研究：像 Deep Research 那样进行多步骤、深层次的信息挖掘；四是代码生成：自动化开发流程，提升研发效率；五是语音交互：让 AI Agent 更自然地融入日常工作；六是图像多模态：处理视觉信息，扩展应用场景。

除了解决方案本身，规模化落地 AI Agent，离不开开放生态。阿里云 MCP 市场已汇聚众多 AI 服务商，博查搜索 CTO 翁柔莹表示，其 AI 能力在 MCP 转化率达 70%-80%，服务超 2.5 万家企业、10 万个 AI Agent，持续推动 AI 能力的共享与进化。

未来已来。AI Agent 不只是一个转瞬即逝的技术趋势，而是决定未来十年企业竞争力的核心战略变量。对于所有企业而言，拥抱「Agent-First」时代的路径已经无比清晰——始于价值场景、精于业务融合、成于生态共创。（本文原创首发于甲子光年，作者丨王艺，编辑丨王博）

本文摘自《云栖战略参考》总第 20 期

扫码查看最新杂志

↓↓