(本文作者为 ITValue,钛媒体经授权发布)

本文摘自 《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“ 数智先行者” 共同探讨、碰撞,希望这些内容能让你有所启发。
文/阿里云研究院
站在 2026 年的节点回望,2025 年无疑是人工智能发展史上的关键转折之年,在算力狂欢和参数规模的军备竞赛之后,人工智能技术开始全面扎根,经历了一场从单点突破向系统重构的深刻质变。
这一年,多模态技术走向成熟,超长上下文成为标配,智能体 (Agent) 开始尝试解决复杂的现实任务。但与此同时,效率瓶颈、路径分歧、成本压力与场景落地等深层次挑战也接踵而至。面对这些挑战,单纯依赖模型参数的堆叠已面临边际效益递减。我们清晰地看到,破解难题的钥匙,在于“ 系统工程”—— 即从底层基础设施到上层应用范式的全链路协同创新。不仅要追求更聪明的模型,更要构建更高效的算力、更严谨的逻辑、更安全的防线以及更自主的执行力。
正是在这种系统工程思维的指引下,阿里云对 AI 技术栈进行了全方位的重构与升级。在模型架构的底层革新、基础设施与训推体系的工业化升级、内生安全与指令遵循的可信构建、多模态感官的全面打通,以及智能体自主认知的范式跃迁等五大维度取得了系统性突破。本文将深度复盘这些关键技术进展,勾勒中国科技企业如何以系统工程思维,推动 AI 从技术验证迈向规模化产业应用的深水区。
架构重塑:打破认知的物理瓶颈
模型架构是 AI 的大脑结构,它定义了信息处理的效率上限。随着大模型进入长序列、多任务并行的深水区,传统架构在处理海量信息时面临着计算复杂度呈平方级增长、有效信息被淹没等本质难题。阿里云在 2025 年的一系列架构创新,旨在从根源上释放模型的认知潜力。
告别“ 注意力沉没”,重构信息筛选逻辑
注意力机制是 Transformer 的核心,但在处理长序列时,传统模型普遍存在“ 注意力沉没” 现象—— 即模型倾向于过度关注序列开头的几个词,导致后续关键信息被忽略。这不仅浪费了宝贵的算力,更限制了模型对长文档的理解深度。
阿里云在 NeurIPS 2025 发表的研究中提出了门控注意力机制。它如同给模型的“ 眼睛” 装上了一个智能且动态的“ 瞳孔”,能在计算注意力时实时过滤噪声。数据显示,该机制将平均每层对初始 Token 的无效关注比例从 46.7% 压缩至 4.8%。这不仅大幅提升了计算的有效性,更让模型在长文档分析、代码库级编程等场景下的性能提升超过 27%。
与此同时,为了解决超长序列带来的计算负担,阿里云在 Qwen3-Next 等模型中引入了线性注意力机制。通过数学分解将计算复杂度从二次方降低到线性,使得模型在处理数万乃至数十万 Token 时,内存占用和时延显著下降,使处理整本书级别的长文本变得既快又省。
释放 MoE 的专精潜力
混合专家模型 (MoE) 是提升模型容量的关键路径,但如何让成百上千个专家高效分工一直是行业难题。传统的负载平衡策略往往为了追求计算均匀,导致专家泛而不精。
阿里云创新性地提出了全局批次负载平衡策略。不再苛求每一个微小批次的数据都平均分配,而是着眼于全局数据的均衡。这种策略赋予了路由器更大的自由度,使得模型内部自发涌现出了清晰的专业化分工。结果显示,这种内生性的专业化,让模型在同等规模下获得了显著更强的知识深度与任务处理能力。
工业化闭环:基础设施、后训练与推理服务的协同进阶
如果说架构是设计图,那么基础设施、后训练与推理服务则构成了 AI 的流水线。只有这三个环节实现工业化级别的协同,AI 才能打破“ 高成本、低效率” 的诅咒,真正实现普惠。
基础设施:从盲测到精益制造与极致调度
在大模型研发与服务的全生命周期中,基础设施的效率直接决定了创新的成本。
在研发侧,试错成本是最大的拦路虎。阿里云研发的 SimAI 高精度训练模拟器,通过无缝接入主流框架,能以 98.1% 的对齐度在单机环境下模拟分布式训练的真实负载。这意味着,在动用昂贵的 GPU 集群前,架构师就能精准预测性能瓶颈,将硬件选型从经验驱动升级为数据驱动。而 DataMan 数据管理器,则实现了从数据源头到训练终点的智能化治理,仅用 60% 的高质量筛选数据即可达到全量训练效果。
在服务侧,资源调度的颗粒度决定了成本的下限。阿里云推出的 Aegaeon 多模型服务系统,是一次对云上资源利用率的极致挖掘。传统系统按请求调度,容易阻塞;Aegaeon 则实现了“Token 粒度” 的自动扩缩容,允许 GPU 在生成一个 Token 的微小间隙即刻切换服务对象。结合高效的组件复用与内存管理,该系统将 GPU 资源池的利用率从不足 34% 提升至 48%,在内部部署中显著减少了 GPU 需求,使得同时部署千百个模型成为经济可行的现实。
后训练:赋予模型逻辑与理性
预训练让模型获得了知识,但后训练才是决定其逻辑严密性的关键。阿里云在 2025 年推动了一场从结果导向到过程监督的范式革命。
针对复杂数学与逻辑任务,阿里云引入了过程级价值评估 (PRM)。不同于只看最终答案,该机制能对推理链条的每一步进行审核。在 Qwen 数学模型的训练中,这种技术使其能精准定位微小的逻辑偏差,从而在极具挑战的 AIME 2024 大赛中成功解出 21 道难题,证明了 AI 从依靠概率猜测进化为具备严密推导能力的“ 理科生”。此外,针对 MoE 模型在强化学习中易发散的难题,GSPO(组序列策略优化) 与 CHORD 动态协同机制提供了理论完备的解决方案。这些创新平衡了模仿专家与自我探索的关系,确保模型在不断进化的同时,不会遗忘已有的知识,实现了工业级可靠性的能力跃迁。
推理服务:测试时扩展与智能压缩技术的跃升
在模型落地环节,除了成本,性能与准确率的平衡同样关键。阿里云通过一系列算法创新,不仅让模型跑得快,更让模型在推理阶段能多想一步。
针对高精度需求,阿里云引入了测试时扩展 (Test-Time Scaling) 技术。这就好比让考生在考试时多花时间检查。而通过自截断 N 选优 (ST-BoN) 算法,模型在生成早期就能通过内部状态预判路径优劣,快速锁定最优解并截断其他路径。这种“ 早预判、早放弃” 的策略,在相同计算成本下可将准确率提升 3-4 个百分点,且无需依赖额外的奖励模型。此外,TeaCache 技术通过缓存视频生成中的冗余计算,实现了 4.41 倍的提速;而 AsymKV 非对称量化技术,则精准区分 Key 与 Value 的敏感度,大幅降低了长文本推理的显存占用。这些技术组合拳,构建了一个高性能、低成本的推理服务体系。
可信基石:内生安全与指令遵循的深度对齐
随着 AI 深入金融、医疗等关键领域,安全与听话变得比聪明更重要。阿里云不再满足于外挂式的过滤,而是深入模型机理,构建内生的免疫系统与精准的执行能力。
内生安全:解密“ 安全注意力头” 与神经元级调控
安全不能是黑盒。阿里云研究团队在深入探究模型内部机理时发现,模型中存在特定的“ 安全注意力头 (Safety Attention Heads)”。这些特殊的结构单元就像电路中的保险丝,在处理潜在风险内容时起着决定性的阻断作用。实验数据表明,仅移除模型中极小比例的关键安全头,就会导致模型的防御成功率大幅下降。基于这一发现,阿里云实现了神经元级的安全调控。在应用层,Qwen3Guard 安全护栏系统引入了创新的三分类机制 (安全、不安全、有争议),打破了非黑即白的僵化审核,让业务方能根据场景灵活定义边界。同时,STAIR 框架赋予了模型三思而后行的内省能力,在回复高危问题前先进行思维链推理,分析用户意图与合规边界,显著提升了面对隐晦攻击时的防御力。
指令遵循:自我博弈下的极致执行
为了让模型更精准地执行复杂指令,阿里云推出了 AutoIF 自我博弈机制。针对代码生成与复杂任务规划中“ 静态数据不足以覆盖动态错误” 的痛点,该机制引入了由模型主导的“ 生成-执行-验证” 闭环。模型化身出题人与判卷人,通过生成代码并执行单元测试获取反馈,在没有人工标注的情况下自主进化。这种机制让 Qwen 模型在代码生成与复杂任务规划上的表现大幅提升。针对“ 写一首诗,不包含字母 E,且每行字数相同” 这类包含多重限制的苛刻指令,IOPO(输入-输出联合偏好优化) 技术将优化的视野扩展到了输入-输出的联合空间。它迫使模型细致研读输入中的每一个约束条件,解决了长指令中的遗忘与顾此失彼问题。而 SymDPO 则通过符号化演示,解决了多模态少样本学习中的逻辑断层,让模型真正看懂演示中的规律。
全感融合:多模态理解与生成的双向奔赴
2025 年,AI 正在打通感知的任督二脉。阿里云在多模态领域的突破,不仅在于让 AI 看得见、听得清,更在于赋予其专业级的创造力,实现了从感知世界到创造世界的完整闭环。
理解:全双工交互与长时程细粒度感知
在交互体验上,Qwen3-Omni 模型搭载了“Thinker-Talker” 架构,通过 MoE 分工确保理解深度,并利用 Talker 模块实现了毫秒级的实时语音交互。这种全双工能力让 AI 能像人类一样插话、打断、共情,彻底改变了人机对话的节奏。
在深度感知上,针对多图推理和小时级长视频分析的痛点,mPLUG-Owl3 引入了 Hyper Attention(超注意力) 模块。它在模型内部增加“ 图文交叉注意力”,与文字注意力并行工作,既不占用文字上下文空间,又能精准匹配问题需要的图像信息。这使得模型能轻松看懂 2 小时的电影,并精准回答关于细节的提问。而 LLMDet 则打破了目标检测的类别限制,利用大模型能力实现了对开放世界物体的精准识别,为具身智能提供了敏锐的眼睛。
生成:生产力工具的范式升级
生成不仅仅是娱乐,更是生产力。Wan 视频大模型的升级发布,是视频生成工业化的里程碑。它创新性地采用了“4×8×8 倍时空压缩” 技术,统一了文生视频、图生视频与视频编辑任务,且 1.3B 轻量版让消费级显卡也能进行专业创作。针对视频中角色互动的难题,MIMO 空间解耦技术将视频解构为角色、场景、遮挡物等独立层进行编码,终于解决了角色动作僵硬、互动失真的顽疾。在图像与 3D 领域,Qwen-Image 攻克了中文复杂排版 (如竖排、双语混排) 的难题,ACE++框架则实现了基于自然语言的全能修图。AniGS 与 HybridGS 技术的出现,让从单张照片生成可实时驱动的 3D 数字人、从充满动态干扰的视频中重建纯净 3D 场景成为现实。这些技术正在将内容产业从手工作坊推向智能制造,大幅降低了元宇宙与数字孪生的构建门槛。
自主进化:RAG 与智能体的认知跃迁
如果说前述技术是 AI 的器官,那么 RAG(检索增强生成) 与智能体 (Agent) 则是其手脚。2025 年,AI 正在从被动问答走向主动探索,展现出更强的自主规划与社会适应力。
RAG:主动探索、逻辑内化与零成本训练
传统的搜索智能体训练依赖昂贵的商业 API。阿里云提出的 ZeroSearch 打破了这一僵局,构建了一个虚拟检索环境,让模型通过自我博弈学会如何搜索、搜什么,将 Search Agent 的训练成本降低了数个数量级。
不仅如此,阿里云还致力于解决模型懂知识但不会用的问题。KG-SFT(知识图谱微调) 技术将外部知识的严谨结构内化为模型的思维直觉,显著增强了模型在处理复杂知识时的逻辑操纵能力。同时,StructRAG 与 AirRAG 赋予了模型在推理过程中动态重组信息结构、
利用蒙特卡洛树搜索 (MCTS) 进行战略规划的能力,让 AI 在面对海量碎片信息时不再迷失,而是能进行“ 三思而后行” 的深度决策。
智能体:从工具到具备社会属性的数字劳动力
为了解决长周期调研任务,WebResearcher 提出了一种迭代式研究范式。它将深度调研重构为马尔可夫决策过程,让 Agent 能像人类研究员一样,周期性整理中间报告,清理冗余上下文。这种机制赋予了 Agent 理论上无边界的信息吞吐能力,能连续进行数十轮深度搜索,产出逻辑连贯的万字深度研报。
在移动端,Mobile-Agent-v3 引入了“ 反思者 (Reflector)” 模块,实时监控屏幕状态,具备了操作失败后的自我纠错能力。更有前瞻性的是 GenSim 社会模拟平台,它通过标准化的“ 档案-记忆-行动” 架构,支持十万级智能体并发运行。我们在平台上成功复现了信息茧房、群体情绪传播等社会现象。这不仅证明了智能体群体的演化规律,更为政策推演、舆情分析及社会治理提供了一个可控、可复现的数字平行世界。

结语
2025 年,是 AI 技术去伪存真、深蹲起跳的一年。回顾过去这一年的技术演进,我们看到的不仅是单点算法的突破,更是一幅波澜壮阔的系统工程画卷。从底层的注意力机制到上层的社会模拟,从极致的推理优化到内生的安全机理,阿里云正在用全栈技术的系统性整合,回答一个终极命题:如何将简单、经济、可靠的智能能力,真正赋予千行百业。
这其中,开源与普惠始终是贯穿其中的主线。截至目前,千问 (Qwen) 系列大模型全球累计下载量已突破 10 亿次,衍生模型数量超过 20 万个。这组庞大的数字背后,是一个由全球开发者共同参与、蓬勃生长的创新生态。这证明了真正伟大的技术突破,不仅闪耀于论文,更生长于开放创新、共塑产业升级的广阔实践之中。
本文核心观点与技术细节均提炼自最新发布的 《阿里云年度 AI 技术进展》 报告 (点击获取)。
本文摘自 《云栖战略参考》 总第 21 期
扫码查看最新杂志
↓↓

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App
















