热钱追逐，具身智能要先过异构计算这一关丨 ToB 产业观察

美国 AI 崛起，先便宜了亚洲？

2026 年 6 月 22 日

54 起 AI 失控事件背后：Agent 是超级员工，还是企业里的「危险盲盒」？

2026 年 6 月 22 日

从人形机器人的灵活操控到工业机械臂的精准作业，从服务机器人的场景适配到边缘设备的算力升级，无不预示着“ 物理 AI” 时代的加速到来。

2026 年开年以来，具身智能领域的市场热度与资本活跃度持续攀升，投融资事件密集落地，同时春晚舞台上多家头部具身智能领域公司的产品集中亮相，更让这一赛道从产业端走向大众视野，直观展现了这一年技术发展的快速发展。

当前，具身智能正从概念热潮向产业攻坚过渡，边端侧计算设备则作为其落地的核心载体，迎来架构迭代与性能突破的关键期。与单纯的虚拟 AI 不同，具身智能要求实体设备具备“ 感知-理解-决策-执行-反馈” 的完整闭环，能够通过执行器改变物理世界并形成动态调整，这一特性决定了其对算力、实时性、可靠性的多元需求，也推动着边端侧计算从“ 通用化” 向“ 异构化”“ 定制化” 转型。

从概念到落地，具身智能产业进入新周期

当生成式 AI 的热度逐渐沉淀，具身智能凭借“ 连接虚拟与物理世界” 的独特价值，成为 AI 产业下一阶段的核心增长点。据国务院发展研究中心‌ 预测，中国具身智能 2030 年达 4000 亿元人民币，2035 年突破万亿元。与此同时，中国信通院‌《具身智能发展报告（2025 年）》中，首次将具身智能纳入国家未来产业重点，2025 年全球市场规模 195.25 亿元人民币。

但热闹的市场背后，是产业落地的诸多现实瓶颈。英特尔研究院副总裁、英特尔中国研究院院长宋继强明确指出：“ 当前具身智能的发展，正处于‘ 提升能力上限’ 与‘ 保障能力下限’ 的双重攻坚期。大家都在展示机器人的智能能力，但很少有人关注它表现不佳时该怎么办—— 这正是产业化必须跨越的鸿沟”。

当前具身智能的产业现状呈现“ 热度高、落地难、痛点集中” 的特点，而异构计算作为破解痛点的核心思路，逐渐成为行业共识。

具身智能的核心是将智能能力与实体设备结合，让设备能够感知外界、理解环境、做出决策，并通过执行器改变物理世界，最终形成“ 决策-执行-反馈” 的闭环。在宋继强看来，如果只是播放视频、发送语音，这些不算具身智能，“ 具身智能的核心必须能对物理世界产生实际影响。” 宋继强强调。

这一定义清晰划分了具身智能与传统 AI 的边界：传统 AI 多局限于虚拟场景的信息处理，而具身智能则强调“ 物理交互” 与“ 闭环能力”。例如，一辆能将人从 A 点运到 B 点的自动驾驶汽车、一台能完成物流分拣的移动机器人、一架能实现物资运送的无人机，都属于具身智能的范畴；而单纯的语音助手、图像识别系统，则不属于这一领域。

近年来，随着多模态大模型、视觉-语言-动作模型（VLA）、世界模型等技术的突破，具身智能的产业热度持续攀升。根据 Gartner 2024 年发布的《新兴技术成熟度曲线》报告，‌ 生成式 AI 已越过“ 期望膨胀期” 顶峰‌，而‌ 自主 AI 系统‌（Autonomous AI）作为其延伸方向，正推动人形机器人、具身智能体等进入该阶段的中后期。

热钱之下

2026 年开年以来，具身智能领域的市场热度与资本活跃度持续攀升，投融资事件密集落地，同时今年春晚舞台上宇树科技、松延动力、魔法原子、银河通用等多家头部具身智能领域公司的产品集中亮相，更让这一赛道从产业端走向大众视野，直观展现了技术落地的阶段性成果。

从投融资动态来看，2026 年以来具身智能领域融资热度持续升温，资本布局呈现“ 大额融资集中、头部企业凸显、多资本类型参与” 的特点。

2 月 24 日，具身智能头部企业千寻智能宣布连续完成两轮近 20 亿元融资，创下 2026 年以来该领域融资新高，投资方涵盖云锋基金、混沌投资等一线机构，TCL 创投等产业资本，以及重庆、杭州等地国有资本，老股东也持续加码，本轮融资后其估值突破百亿元，将重点投入具身基础模型与真实数据体系建设。在此之前，月 23 日，全球机器人基础模型龙头企业智平方完成 B 轮超 10 亿元融资，估值超百亿，投资方包括百度、中国中车等多方力量，近一年内该企业已累计完成 12 轮融资，成为全球融资节奏最快的具身智能企业。

此外，2 月 11 日星海图完成近 10 亿元 B 轮融资，2 月 10 日商汤科技旗下大晓机器人完成天使轮融资，据不完全统计，2026 年 1 月份全球具身智能及人形机器人领域融资事件超 20 起，披露融资总额超 160 亿元，同时埃斯顿、宇树科技、乐聚机器人等企业正筹备 IPO，计划 2026 年冲刺资本市场，资本的持续注入为产业技术攻坚提供了有力支撑。

尽管产业热度高涨，但当前具身智能的落地仍面临诸多痛点，其中准确性、可靠性、数据孤岛三大问题最为突出，成为制约其从“ 演示” 走向“ 实用” 的关键瓶颈。

首先是准确性不足的问题，这也是当前 VLA 模型的核心短板。VLA 作为具身智能的核心技术之一，能够实现“ 视觉输入-语言理解-动作输出” 的端到端映射，但目前其性能仍有较大提升空间。对此，宋继强表示，当前主流 VLA 模型的任务准确率仅为 60%-70%，离工业级可用的 99% 以上准确率还差几十个点。而且它的泛化能力很差，视觉场景发生轻微变化—— 比如物体颜色、形状、相对位置的改变，如果没有在训练数据集中出现过，就很难外推到位。

其次是可靠性与安全性的双重挑战。具身智能设备多在与人、工业环境交互的场景中运行，其可靠性与安全性直接关系到人员安全与生产效率。宋继强告诉笔者，具身智能的可靠性，至少体现在三个层级：第一，规划决策是否可信赖；第二，动作执行是否可信赖；第三，系统出错时整体是否仍可靠，“ 当前很多具身智能设备，在这三个层级都存在短板。” 宋继强指出。

具体来看，在规划决策层，基于神经网络的大模型、VLA 模型存在“ 黑盒问题” 与“ 幻觉问题”，难以保证决策的可解释性与准确性。例如，机器人可能会因为模型幻觉，将“ 拿起杯子” 的指令误解为“ 打碎杯子”；在动作执行层，当前很多机器人的运动控制精度不足，难以完成高精度作业—— 比如让机器人往左走 15cm，实际可能偏差 3-5cm；在系统容错层，大部分具身智能设备缺乏完善的安全机制，一旦出现硬件故障或软件错误，就可能陷入瘫痪，甚至引发安全事故。

此外，具身智能的安全性还面临“ 传统信息安全+AI 安全+物理安全” 的三重威胁。宋继强解释道，“ 以前的智能设备，只需要关注传统的信息安全问题；但具身智能设备引入了 AI 模型，就需要应对针对 AI 的攻击—— 比如模型投毒、对抗样本攻击；同时，它与人、环境交互，还存在物理安全问题，比如机器人操作失误伤人、设备故障导致生产中断等。更关键的是，安全都是额外成本，如何在安全级别与成本之间找到平衡，也是行业需要解决的问题。”

第三是数据孤岛与数据短缺问题。具身智能的发展高度依赖数据——VLA 模型、世界模型的训练，都需要大量的场景数据、动作数据、交互数据，但当前行业面临着“ 数据采集难、数据不标准、数据孤岛严重” 的困境。对此，宋继强表示，数据是当前具身智能发展的首要问题，尤其是对 VLA+世界模型这条路径而言，“VLA 与环境、动作场景、机器人本体都密切相关，需要专门的数据支撑训练，但现在的数据采集面临很多难题。” 宋继强补充道。

具体来看，数据采集的难点主要体现在四个方面：

一是数据定义不统一，比如 VLA 训练需要视觉数据、语言数据，有的厂商还会加入触觉数据，但行业内尚未明确“ 什么样的数据是完整的”；
二是精度与频率缺乏标准，不同厂商对动作精度、控制频率的要求不同，导致采集的数据难以复用；
三是机器人本体不统一，人形、轮臂式、机器狗等不同形态的机器人，其动作数据差异巨大，难以形成统一的数据集；
四是视角差异，VLA 模型高度依赖视觉数据，摄像头装在机器人头部、胳膊上，采集到的视角不同，数据的可用性也不同。

异构计算如何解题？

面对准确性、可靠性、数据短缺等多重痛点，行业逐渐形成一个核心共识：异构计算是具身智能落地的核心基石。对此，宋继强强调：“ 具身智能一定落在物理实体之上，这个实体包含感知、理解与决策、推动执行、反馈观察的完整闭环，不同环节对计算能力的要求不同—— 有的需要高通量算力，有的需要低时延响应，有的需要高精度浮点运算，很难用同一种硬件解决所有问题，底层必然需要异构计算。”

所谓异构计算，就是将不同架构的计算单元（CPU、GPU、NPU、AI ASIC、神经形态加速器等）结合起来，根据不同任务的需求，分配相应的计算资源，实现“ 算力适配任务” 的最优效果。与传统的同构计算相比，异构计算具有能效比高、实时性强、灵活性好等优势，能够完美匹配具身智能多环节、多需求的算力要求。

从具身智能的任务链路来看，不同环节对算力的需求差异显著，这也决定了异构计算的必要性。针对此，宋继强提出了“ 系统 2-系统 1-系统 0” 的三层决策链路，并详细阐述了各层的算力需求：

系统 2 是“ 慢系统”，主要负责场景理解与任务规划，与语言逻辑抽象层相关，输出语义层级更高、准确度更高的结果，比如 VLM 模型（视觉语言模型）就属于这一层。这一层需要处理高通量的视觉输入与语言输入，对算力的吞吐量要求较高，GPU 是最适合的计算单元—— 例如英特尔酷睿 Ultra 处理器中的 GPU，能够高效处理多模态数据，支撑大模型的推理与训练。

系统 1 是“ 动作专家”（Action Expert），主要负责将系统 2 的规划任务，映射到具身设备的执行器（关节电机、轮子等），生成控制指令，输出频率约为 200Hz。这一层对实时性、低功耗的要求较高，同时需要支持矩阵向量运算，NPU（神经网络处理单元）是最优选择。宋继强透露：“ 英特尔酷睿 Ultra 处理器内置的 NPU，能够实现 11TOPS@~2W 的能效比，在 PTL 平台上更是能达到 50 TOPS，完全能够满足系统 1 的算力需求。”

系统 0 是传统的 MPC 控制器（模型预测控制），主要负责将系统 1 的控制指令，提升到更高的频率（超过 1000Hz），实现动作的平滑、精准执行，解决动作顿挫的问题。这一层对实时性与浮点计算精度的要求极高，CPU 是核心计算单元—— 英特尔酷睿 Ultra 的 CPU，能够实现 10us 以内的实时响应，满足高精度运动控制的需求。

“ 在具身智能的任务链路中，CPU、GPU、NPU 各司其职、协同工作，才能实现最优的性能与能效比。” 宋继强表示，“ 比如‘ 拿起笔，把它插进笔帽里’ 这个简单的任务，系统 2 的 VLM 模型理解指令（GPU 支撑），系统 1 的 Action Expert 生成动作轨迹（NPU 支撑），系统 0 的 MPC 控制器将动作频率提升到 1000Hz（CPU 支撑），三者协同，才能完成精准、平滑的操作。”

除了任务链路的适配，异构计算还能解决具身智能的可靠性与可扩展性问题。智能体的构建的是通过编排器自动完成的，而不是预先编程，这就需要编排器能够调用不同的智能体功能，而异构框架能够提供灵活的资源调度能力，支撑多智能体系统的运行。同时，异构计算能够隔离不同的计算任务，比如将实时性要求高的运动控制任务，与实时性要求低的 AI 推理任务隔离开来，避免相互干扰，提升系统的可靠性。

从概念热潮到产业攻坚，从技术验证到小规模落地，具身智能的发展，正迎来前所未有的机遇与挑战。边端侧计算设备的异构集成、工业级升级与边端云协同，为具身智能的落地提供了坚实的算力支撑；异构计算的普及、AI 模型的优化与软件生态的完善，为具身智能的技术突破提供了核心动力；而场景驱动、生态协同、标准统一，则为具身智能的规模普及指明了清晰的路径。（文｜Leo 张 ToB 杂谈，作者｜张申宇，编辑丨盖虹达）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App