物理 AI 进场以后，谁来定义「干得对」？

（本文作者为舒泽品牌手记，钛媒体经授权发布）

最赚钱的酒店「床垫一哥」，为何失控？

2026 年 6 月 11 日

2026 年中评论：这届年轻人，如何将「怕死」变成一种消费主义？

2026 年 6 月 11 日

文 | 舒泽品牌手记

机器人把箱子送到工位，后台日志显示任务完成。

箱子偏了一个手掌的位置。工人转身，多伸了一次手，把它挪到顺手的地方。后面那道工序，多等了十几秒。

这十几秒不会出现在产品后台里，班组长的日报大概率也不会单独记这次调整。等客户抱怨节拍被打断、供应商坚持任务已经完成时，双方说的都是真的—— 因为从来没人坐下来定义过，这一单算不算“ 干对了”。

物理 AI 进了现场以后，“ 会不会做” 很快会让位给另一个问题：做成什么样才算交付。这套标准能不能写进合同里的验收条款，决定了一个试点最后变成长期项目，还是变成下一页融资 PPT。

79% 在试，4% 跑通了

Capgemini 研究院 2026 年 4 月发布的报告调查了 16 个国家的 1678 位企业高管：79% 的组织已经在接触 physical AI，27% 在部署或扩展方案，4% 表示已经规模化运行。从 79% 到 4% 之间那段陡坡，就是这篇文章想讨论的东西。

图 1　物理 AI 的采用漏斗。数据来源：Capgemini Research Institute，2026 年 4 月

把锅甩给基础设施已经越来越难了。英伟达把 Cosmos 世界模型、Isaac 仿真框架和 GR00T 模型串成一条完整路径，训练在变快，仿真在变便宜，机器人进场的门槛一年比一年低。门槛降下来之后，客户的问题反而更尖锐：进来可以，做到什么程度算数？

不到 1% 的损伤，3500 万英镑的账单

数字世界里的 AI 出错，按一下重新生成就行。物理世界会记账，而且记得很细。

2021 年 7 月 16 日，Ocado 位于英国 Erith 的自动化仓库起火，起因是三个机器人在网格系统上相撞。火势控制得算快，受损面积不到整个网格的 1%。但 Ocado 后来披露，这场火让它损失了约 30 万个订单、约 3500 万英镑营收，另有约 1000 万英镑的直接损失没有保险覆盖。这还是 Ocado 三年里的第三起仓库火灾——2019 年，Andover 那座仓库整个烧掉了。

1% 的损伤面积，对上 3500 万英镑的账单。这个比例关系，值得每个正在谈物理 AI 项目的人抄在本子上。

火灾毕竟是极端事件，日常的代价藏在概率里。2024 年，论文《Demonstrating Mobile Manipulation in the Wild》研究了一台在真实杂货店里工作的移动操作机器人，研究者做过一个推算：单步动作可靠性 99%，每分钟执行 10 个动作，一小时连续任务的整体可靠性会掉到 0.2%。这个数字是推出来的，没人真去跑满一小时测过，但它点中了连续性的残酷—— 单步看起来再稳，串成一小时的真实任务，每个瑕疵都在做乘法。

图 2　单步 99% 可靠性串成一小时连续任务后的衰减。推算依据：Demonstrating Mobile Manipulation in the Wild，2024

论文还记下了一个实验室里感受不到的细节：真实门店里，机器人卡住、撞到货架、意外停下，都得有人走过去处理，没法像实验环境那样按个键重置。一次人工介入花不了几分钟，乘上一整天的运营，就是一个新开的人力成本科目。

Amazon 的 Vulcan 把这件事摆上了台面。官方介绍写得很克制：它能处理履约中心里约 75% 的物品类型，剩下的，交给人类同事接手。比起那些剪辑过的演示视频，这句话更接近采购合同的语言。采购方真正想知道的就是边界：你能做哪一段，做不了时怎么停，谁接手，接手的这一单怎么计。

效率只有人工的 20%

Figure 02 在 BMW 斯巴达堡工厂跑了 1250 多个小时，装载 9 万多个钣金件，参与了 3 万多辆 X3 的生产。比这些数字更有信息量的，是 Figure 披露的考核方式：周期时间、放置成功率、人工干预次数。翻译成车间的语言就是节拍、精度、干预—— 三个词里没有一个跟“ 智能” 沾边。

后来 Figure 03 发布，Figure 02 从 BMW 返回总部。它进过现场、跑过班次、留下了数据，但公开资料里找不到它离一份长期采购合同还差几步。差在成本？维修体系？还是 BMW 压根没打算把这类任务写成可复用的验收条款？外人无从判断。一个跑了 1250 个小时的项目，最关键的信息照样可以一句不披露。

国内这边，《人民日报》2025 年的报道留下了一组更直白的数字。2024 年 7 月，优必选 Walker S Lite 进入吉利极氪 5G 智慧工厂，连续实训 21 天，任务是搬运物料。它动作慢，还得扫描料箱托盘上的二维码辅助定位，作业效率只有人工的 20%。三个月后迭代的 Walker S1 把搬运速度提升了约 25%，优必选随后陆续拿到了车厂超过 500 台的意向订单。

行业给这个阶段起的名字值得玩味：实训。车间里管实习生才叫实训。从实习生到正式工，中间隔着一张考核表—— 效率到人工的多少算合格，放偏几毫米算失败，一天人工接管几次以内可以接受。我的判断是：如果这张考核表继续缺位，这 500 台意向订单里的大多数走不到复购。意向订单买的是一个观察窗口，复购买的才是生产能力，两者之间隔着的，恰恰是那套还没人写出来的验收口径。

供应商说“ 测试顺利”，客户在数另一组数

公开材料通常把“ 完成动作” 拍得很清楚：抓起了什么，走到哪里，放进哪个位置。往后的信息就稀薄了—— 连续跑了多久，哪几次需要人接手，异常怎么记录，客户最后按什么标准签收。

未必是供应商刻意藏着。仓库、工厂、医院、养老院里，“ 干得对” 的含义各不相同，很多场景本来就没形成稳定口径；而那些已经在项目里磨出来的误差范围、接管阈值、SLA 条款，又往往属于商业机密。于是行业呈现出一种错位：台前一直在演示动作，真正稀缺的运行记录和验收语言，都锁在抽屉里。

采购会议上，这种错位会变得很具体。供应商汇报测试顺利：跑了一天，没撞人，没停机，没抓错料。客户低头翻的是另一组记录：人接手过几次，异常有没有留日志，同类问题下次怎么办，责任归设备、算法、集成商，还是现场条件。这串问题指向同一个担忧：这套系统出了问题以后，能不能追溯，能不能修正，修完之后还能不能再次通过验收。

工业自动化行业用 OEE、MTBF、MTTR、节拍时间、良率这套不性感的指标，筛了几十年设备。机器人想进产线，最终也要被装进同一套账里。对位置精度要求高的工位，零件放偏一点，机器还在运行，这一单已经废了。这笔账算不清，机器人就还停留在演示阶段。

磨出来的规则，比模型难抄

一家物理 AI 公司真把某类任务跑通，留给客户现场的除了机器人本体，还有几条双方默认的规则：放偏多少算失败，慢几秒会拖累节拍，什么异常必须停下来交给人，停机后多久要恢复，出了问题先调哪段记录。

换供应商，这些规则全得重验一遍。MassRobotics 的 AMR 互操作标准处理了更基础的一层—— 不同厂商的移动机器人怎么共享位置、速度和健康状态，在同一片厂区里互不添乱—— 任务验收那一层，它够不着。某个工位上的失败定义、接管阈值、责任划分，只能在具体项目里一轮一轮磨。磨得越细，换掉这家供应商的成本就越高；只会做 Demo 的公司，以后很可能要按别人磨出来的口径去竞标。

这条逻辑也解释了试点的选址规律。最缺人的小厂反而做不了第一批客户：它的产线经不起试错，停一次线的损失就可能吃掉全部预算。大制造企业的真正优势是场景多、容错深，机器人这个月没跑稳，换条线接着调。同样道理，工厂、仓库、封闭园区会排在医院和养老院前面。工厂里的失败有地方记账，节拍、返工、停机、接管，每一项都能折成钱；送药机器人导航到护士站，系统显示“ 已到达”，可药有没有被正确接收，延误十分钟算谁的，病人家属中途把机器人拦下了该怎么办——“ 到达” 两个字，一项都回答不了。这类场景连“ 失败” 的定义都还没着落。

写到这里得承认两处我没想透的地方。一是验收口径要靠一轮轮试错磨出来，可试错的成本该谁出？供应商垫，等于用亏损换一套行业标准，换来的标准还可能被对手免费沿用；客户掏，等于替别人家的产品交学费。Figure 和 BMW、优必选和极氪是怎么分这笔账的，双方都没披露过。二是我把验收口径写成了规模化的关键卡点，但 4% 这个数字背后，机器人单价对人工成本的回收期算不过来、可靠性本身没到、产能爬不上去，每一个都可能是更大的拦路石—— 验收口径或许只是其中被低估的那一个，未必是最致命的那一个。这两点我都没有确定的答案，行业里似乎也还没有。

很多物理 AI 项目卡住的位置，就在试点和长期预算之间。订单要拆开看：有的买的是测试窗口，有的买的是示范效应，有的买的是战略合作里的一个座位。等到客户愿意基于同一套验收口径复购、扩场景，把人工接管和停机责任写进正式合同，这一步才算跨过去。

回到开头那个箱子。机器人下一次把它放偏一掌的时候，有的现场会像今天一样，由工人顺手挪正，十几秒的延误谁也不提；有的现场会翻出一份文件，上面写着偏差超过多少毫米记一次失败、当月失败超过几次重新议价。第二种现场，今天还很少。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App