
从人形机器人的灵活操控到工业机械臂的精准作业,从服务机器人的场景适配到边缘设备的算力升级,无不预示着“ 物理 AI” 时代的加速到来。
2026 年开年以来,具身智能领域的市场热度与资本活跃度持续攀升,投融资事件密集落地,同时春晚舞台上多家头部具身智能领域公司的产品集中亮相,更让这一赛道从产业端走向大众视野,直观展现了这一年技术发展的快速发展。
当前,具身智能正从概念热潮向产业攻坚过渡,边端侧计算设备则作为其落地的核心载体,迎来架构迭代与性能突破的关键期。与单纯的虚拟 AI 不同,具身智能要求实体设备具备“ 感知-理解-决策-执行-反馈” 的完整闭环,能够通过执行器改变物理世界并形成动态调整,这一特性决定了其对算力、实时性、可靠性的多元需求,也推动着边端侧计算从“ 通用化” 向“ 异构化”“ 定制化” 转型。
从概念到落地,具身智能产业进入新周期
当生成式 AI 的热度逐渐沉淀,具身智能凭借“ 连接虚拟与物理世界” 的独特价值,成为 AI 产业下一阶段的核心增长点。据国务院发展研究中心 预测,中国具身智能 2030 年达 4000 亿元人民币,2035 年突破万亿元。与此同时,中国信通院《具身智能发展报告 (2025 年)》 中,首次将具身智能纳入国家未来产业重点,2025 年全球市场规模 195.25 亿元人民币。
但热闹的市场背后,是产业落地的诸多现实瓶颈。英特尔研究院副总裁、英特尔中国研究院院长宋继强明确指出:“ 当前具身智能的发展,正处于‘ 提升能力上限’ 与‘ 保障能力下限’ 的双重攻坚期。大家都在展示机器人的智能能力,但很少有人关注它表现不佳时该怎么办—— 这正是产业化必须跨越的鸿沟”。
当前具身智能的产业现状呈现“ 热度高、落地难、痛点集中” 的特点,而异构计算作为破解痛点的核心思路,逐渐成为行业共识。
具身智能的核心是将智能能力与实体设备结合,让设备能够感知外界、理解环境、做出决策,并通过执行器改变物理世界,最终形成“ 决策-执行-反馈” 的闭环。在宋继强看来,如果只是播放视频、发送语音,这些不算具身智能,“ 具身智能的核心必须能对物理世界产生实际影响。” 宋继强强调。
这一定义清晰划分了具身智能与传统 AI 的边界:传统 AI 多局限于虚拟场景的信息处理,而具身智能则强调“ 物理交互” 与“ 闭环能力”。例如,一辆能将人从 A 点运到 B 点的自动驾驶汽车、一台能完成物流分拣的移动机器人、一架能实现物资运送的无人机,都属于具身智能的范畴;而单纯的语音助手、图像识别系统,则不属于这一领域。
近年来,随着多模态大模型、视觉-语言-动作模型 (VLA)、世界模型等技术的突破,具身智能的产业热度持续攀升。根据 Gartner 2024 年发布的 《新兴技术成熟度曲线》 报告, 生成式 AI 已越过“ 期望膨胀期” 顶峰,而 自主 AI 系统(Autonomous AI) 作为其延伸方向,正推动人形机器人、具身智能体等进入该阶段的中后期。
热钱之下
2026 年开年以来,具身智能领域的市场热度与资本活跃度持续攀升,投融资事件密集落地,同时今年春晚舞台上宇树科技、松延动力、魔法原子、银河通用等多家头部具身智能领域公司的产品集中亮相,更让这一赛道从产业端走向大众视野,直观展现了技术落地的阶段性成果。
从投融资动态来看,2026 年以来具身智能领域融资热度持续升温,资本布局呈现“ 大额融资集中、头部企业凸显、多资本类型参与” 的特点。
2 月 24 日,具身智能头部企业千寻智能宣布连续完成两轮近 20 亿元融资,创下 2026 年以来该领域融资新高,投资方涵盖云锋基金、混沌投资等一线机构,TCL 创投等产业资本,以及重庆、杭州等地国有资本,老股东也持续加码,本轮融资后其估值突破百亿元,将重点投入具身基础模型与真实数据体系建设。在此之前,月 23 日,全球机器人基础模型龙头企业智平方完成 B 轮超 10 亿元融资,估值超百亿,投资方包括百度、中国中车等多方力量,近一年内该企业已累计完成 12 轮融资,成为全球融资节奏最快的具身智能企业。
此外,2 月 11 日星海图完成近 10 亿元 B 轮融资,2 月 10 日商汤科技旗下大晓机器人完成天使轮融资,据不完全统计,2026 年 1 月份全球具身智能及人形机器人领域融资事件超 20 起,披露融资总额超 160 亿元,同时埃斯顿、宇树科技、乐聚机器人等企业正筹备 IPO,计划 2026 年冲刺资本市场,资本的持续注入为产业技术攻坚提供了有力支撑。
尽管产业热度高涨,但当前具身智能的落地仍面临诸多痛点,其中准确性、可靠性、数据孤岛三大问题最为突出,成为制约其从“ 演示” 走向“ 实用” 的关键瓶颈。
首先是准确性不足的问题,这也是当前 VLA 模型的核心短板。VLA 作为具身智能的核心技术之一,能够实现“ 视觉输入-语言理解-动作输出” 的端到端映射,但目前其性能仍有较大提升空间。对此,宋继强表示,当前主流 VLA 模型的任务准确率仅为 60%-70%,离工业级可用的 99% 以上准确率还差几十个点。而且它的泛化能力很差,视觉场景发生轻微变化—— 比如物体颜色、形状、相对位置的改变,如果没有在训练数据集中出现过,就很难外推到位。
其次是可靠性与安全性的双重挑战。具身智能设备多在与人、工业环境交互的场景中运行,其可靠性与安全性直接关系到人员安全与生产效率。宋继强告诉笔者,具身智能的可靠性,至少体现在三个层级:第一,规划决策是否可信赖;第二,动作执行是否可信赖;第三,系统出错时整体是否仍可靠,“ 当前很多具身智能设备,在这三个层级都存在短板。” 宋继强指出。
具体来看,在规划决策层,基于神经网络的大模型、VLA 模型存在“ 黑盒问题” 与“ 幻觉问题”,难以保证决策的可解释性与准确性。例如,机器人可能会因为模型幻觉,将“ 拿起杯子” 的指令误解为“ 打碎杯子”;在动作执行层,当前很多机器人的运动控制精度不足,难以完成高精度作业—— 比如让机器人往左走 15cm,实际可能偏差 3-5cm;在系统容错层,大部分具身智能设备缺乏完善的安全机制,一旦出现硬件故障或软件错误,就可能陷入瘫痪,甚至引发安全事故。
此外,具身智能的安全性还面临“ 传统信息安全+AI 安全+物理安全” 的三重威胁。宋继强解释道,“ 以前的智能设备,只需要关注传统的信息安全问题;但具身智能设备引入了 AI 模型,就需要应对针对 AI 的攻击—— 比如模型投毒、对抗样本攻击;同时,它与人、环境交互,还存在物理安全问题,比如机器人操作失误伤人、设备故障导致生产中断等。更关键的是,安全都是额外成本,如何在安全级别与成本之间找到平衡,也是行业需要解决的问题。”

第三是数据孤岛与数据短缺问题。具身智能的发展高度依赖数据——VLA 模型、世界模型的训练,都需要大量的场景数据、动作数据、交互数据,但当前行业面临着“ 数据采集难、数据不标准、数据孤岛严重” 的困境。对此,宋继强表示,数据是当前具身智能发展的首要问题,尤其是对 VLA+世界模型这条路径而言,“VLA 与环境、动作场景、机器人本体都密切相关,需要专门的数据支撑训练,但现在的数据采集面临很多难题。” 宋继强补充道。
具体来看,数据采集的难点主要体现在四个方面:
- 一是数据定义不统一,比如 VLA 训练需要视觉数据、语言数据,有的厂商还会加入触觉数据,但行业内尚未明确“ 什么样的数据是完整的”;
- 二是精度与频率缺乏标准,不同厂商对动作精度、控制频率的要求不同,导致采集的数据难以复用;
- 三是机器人本体不统一,人形、轮臂式、机器狗等不同形态的机器人,其动作数据差异巨大,难以形成统一的数据集;
- 四是视角差异,VLA 模型高度依赖视觉数据,摄像头装在机器人头部、胳膊上,采集到的视角不同,数据的可用性也不同。
异构计算如何解题?
面对准确性、可靠性、数据短缺等多重痛点,行业逐渐形成一个核心共识:异构计算是具身智能落地的核心基石。对此,宋继强强调:“ 具身智能一定落在物理实体之上,这个实体包含感知、理解与决策、推动执行、反馈观察的完整闭环,不同环节对计算能力的要求不同—— 有的需要高通量算力,有的需要低时延响应,有的需要高精度浮点运算,很难用同一种硬件解决所有问题,底层必然需要异构计算。”
所谓异构计算,就是将不同架构的计算单元 (CPU、GPU、NPU、AI ASIC、神经形态加速器等) 结合起来,根据不同任务的需求,分配相应的计算资源,实现“ 算力适配任务” 的最优效果。与传统的同构计算相比,异构计算具有能效比高、实时性强、灵活性好等优势,能够完美匹配具身智能多环节、多需求的算力要求。
从具身智能的任务链路来看,不同环节对算力的需求差异显著,这也决定了异构计算的必要性。针对此,宋继强提出了“ 系统 2-系统 1-系统 0” 的三层决策链路,并详细阐述了各层的算力需求:
系统 2 是“ 慢系统”,主要负责场景理解与任务规划,与语言逻辑抽象层相关,输出语义层级更高、准确度更高的结果,比如 VLM 模型 (视觉语言模型) 就属于这一层。这一层需要处理高通量的视觉输入与语言输入,对算力的吞吐量要求较高,GPU 是最适合的计算单元—— 例如英特尔酷睿 Ultra 处理器中的 GPU,能够高效处理多模态数据,支撑大模型的推理与训练。
系统 1 是“ 动作专家”(Action Expert),主要负责将系统 2 的规划任务,映射到具身设备的执行器 (关节电机、轮子等),生成控制指令,输出频率约为 200Hz。这一层对实时性、低功耗的要求较高,同时需要支持矩阵向量运算,NPU(神经网络处理单元) 是最优选择。宋继强透露:“ 英特尔酷睿 Ultra 处理器内置的 NPU,能够实现 11TOPS@~2W 的能效比,在 PTL 平台上更是能达到 50 TOPS,完全能够满足系统 1 的算力需求。”
系统 0 是传统的 MPC 控制器 (模型预测控制),主要负责将系统 1 的控制指令,提升到更高的频率 (超过 1000Hz),实现动作的平滑、精准执行,解决动作顿挫的问题。这一层对实时性与浮点计算精度的要求极高,CPU 是核心计算单元—— 英特尔酷睿 Ultra 的 CPU,能够实现 10us 以内的实时响应,满足高精度运动控制的需求。
“ 在具身智能的任务链路中,CPU、GPU、NPU 各司其职、协同工作,才能实现最优的性能与能效比。” 宋继强表示,“ 比如‘ 拿起笔,把它插进笔帽里’ 这个简单的任务,系统 2 的 VLM 模型理解指令 (GPU 支撑),系统 1 的 Action Expert 生成动作轨迹 (NPU 支撑),系统 0 的 MPC 控制器将动作频率提升到 1000Hz(CPU 支撑),三者协同,才能完成精准、平滑的操作。”
除了任务链路的适配,异构计算还能解决具身智能的可靠性与可扩展性问题。智能体的构建的是通过编排器自动完成的,而不是预先编程,这就需要编排器能够调用不同的智能体功能,而异构框架能够提供灵活的资源调度能力,支撑多智能体系统的运行。同时,异构计算能够隔离不同的计算任务,比如将实时性要求高的运动控制任务,与实时性要求低的 AI 推理任务隔离开来,避免相互干扰,提升系统的可靠性。
从概念热潮到产业攻坚,从技术验证到小规模落地,具身智能的发展,正迎来前所未有的机遇与挑战。边端侧计算设备的异构集成、工业级升级与边端云协同,为具身智能的落地提供了坚实的算力支撑;异构计算的普及、AI 模型的优化与软件生态的完善,为具身智能的技术突破提供了核心动力;而场景驱动、生态协同、标准统一,则为具身智能的规模普及指明了清晰的路径。(文|Leo 张 ToB 杂谈,作者|张申宇,编辑丨盖虹达)
更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App















