(本文作者为 舒泽品牌手记,钛媒体经授权发布)
文 | 舒泽品牌手记
机器人把箱子送到工位,后台日志显示任务完成。
箱子偏了一个手掌的位置。工人转身,多伸了一次手,把它挪到顺手的地方。后面那道工序,多等了十几秒。
这十几秒不会出现在产品后台里,班组长的日报大概率也不会单独记这次调整。等客户抱怨节拍被打断、供应商坚持任务已经完成时,双方说的都是真的—— 因为从来没人坐下来定义过,这一单算不算“ 干对了”。
物理 AI 进了现场以后,“ 会不会做” 很快会让位给另一个问题:做成什么样才算交付。这套标准能不能写进合同里的验收条款,决定了一个试点最后变成长期项目,还是变成下一页融资 PPT。
79% 在试,4% 跑通了
Capgemini 研究院 2026 年 4 月发布的报告调查了 16 个国家的 1678 位企业高管:79% 的组织已经在接触 physical AI,27% 在部署或扩展方案,4% 表示已经规模化运行。从 79% 到 4% 之间那段陡坡,就是这篇文章想讨论的东西。

图 1 物理 AI 的采用漏斗。数据来源:Capgemini Research Institute,2026 年 4 月
把锅甩给基础设施已经越来越难了。英伟达把 Cosmos 世界模型、Isaac 仿真框架和 GR00T 模型串成一条完整路径,训练在变快,仿真在变便宜,机器人进场的门槛一年比一年低。门槛降下来之后,客户的问题反而更尖锐:进来可以,做到什么程度算数?
不到 1% 的损伤,3500 万英镑的账单
数字世界里的 AI 出错,按一下重新生成就行。物理世界会记账,而且记得很细。
2021 年 7 月 16 日,Ocado 位于英国 Erith 的自动化仓库起火,起因是三个机器人在网格系统上相撞。火势控制得算快,受损面积不到整个网格的 1%。但 Ocado 后来披露,这场火让它损失了约 30 万个订单、约 3500 万英镑营收,另有约 1000 万英镑的直接损失没有保险覆盖。这还是 Ocado 三年里的第三起仓库火灾——2019 年,Andover 那座仓库整个烧掉了。
1% 的损伤面积,对上 3500 万英镑的账单。这个比例关系,值得每个正在谈物理 AI 项目的人抄在本子上。
火灾毕竟是极端事件,日常的代价藏在概率里。2024 年,论文 《Demonstrating Mobile Manipulation in the Wild》 研究了一台在真实杂货店里工作的移动操作机器人,研究者做过一个推算:单步动作可靠性 99%,每分钟执行 10 个动作,一小时连续任务的整体可靠性会掉到 0.2%。这个数字是推出来的,没人真去跑满一小时测过,但它点中了连续性的残酷—— 单步看起来再稳,串成一小时的真实任务,每个瑕疵都在做乘法。


图 2 单步 99% 可靠性串成一小时连续任务后的衰减。推算依据:Demonstrating Mobile Manipulation in the Wild,2024
论文还记下了一个实验室里感受不到的细节:真实门店里,机器人卡住、撞到货架、意外停下,都得有人走过去处理,没法像实验环境那样按个键重置。一次人工介入花不了几分钟,乘上一整天的运营,就是一个新开的人力成本科目。
Amazon 的 Vulcan 把这件事摆上了台面。官方介绍写得很克制:它能处理履约中心里约 75% 的物品类型,剩下的,交给人类同事接手。比起那些剪辑过的演示视频,这句话更接近采购合同的语言。采购方真正想知道的就是边界:你能做哪一段,做不了时怎么停,谁接手,接手的这一单怎么计。
效率只有人工的 20%
Figure 02 在 BMW 斯巴达堡工厂跑了 1250 多个小时,装载 9 万多个钣金件,参与了 3 万多辆 X3 的生产。比这些数字更有信息量的,是 Figure 披露的考核方式:周期时间、放置成功率、人工干预次数。翻译成车间的语言就是节拍、精度、干预—— 三个词里没有一个跟“ 智能” 沾边。
后来 Figure 03 发布,Figure 02 从 BMW 返回总部。它进过现场、跑过班次、留下了数据,但公开资料里找不到它离一份长期采购合同还差几步。差在成本?维修体系?还是 BMW 压根没打算把这类任务写成可复用的验收条款?外人无从判断。一个跑了 1250 个小时的项目,最关键的信息照样可以一句不披露。
国内这边,《人民日报》2025 年的报道留下了一组更直白的数字。2024 年 7 月,优必选 Walker S Lite 进入吉利极氪 5G 智慧工厂,连续实训 21 天,任务是搬运物料。它动作慢,还得扫描料箱托盘上的二维码辅助定位,作业效率只有人工的 20%。三个月后迭代的 Walker S1 把搬运速度提升了约 25%,优必选随后陆续拿到了车厂超过 500 台的意向订单。
行业给这个阶段起的名字值得玩味:实训。车间里管实习生才叫实训。从实习生到正式工,中间隔着一张考核表—— 效率到人工的多少算合格,放偏几毫米算失败,一天人工接管几次以内可以接受。我的判断是:如果这张考核表继续缺位,这 500 台意向订单里的大多数走不到复购。意向订单买的是一个观察窗口,复购买的才是生产能力,两者之间隔着的,恰恰是那套还没人写出来的验收口径。
供应商说“ 测试顺利”,客户在数另一组数
公开材料通常把“ 完成动作” 拍得很清楚:抓起了什么,走到哪里,放进哪个位置。往后的信息就稀薄了—— 连续跑了多久,哪几次需要人接手,异常怎么记录,客户最后按什么标准签收。
未必是供应商刻意藏着。仓库、工厂、医院、养老院里,“ 干得对” 的含义各不相同,很多场景本来就没形成稳定口径;而那些已经在项目里磨出来的误差范围、接管阈值、SLA 条款,又往往属于商业机密。于是行业呈现出一种错位:台前一直在演示动作,真正稀缺的运行记录和验收语言,都锁在抽屉里。
采购会议上,这种错位会变得很具体。供应商汇报测试顺利:跑了一天,没撞人,没停机,没抓错料。客户低头翻的是另一组记录:人接手过几次,异常有没有留日志,同类问题下次怎么办,责任归设备、算法、集成商,还是现场条件。这串问题指向同一个担忧:这套系统出了问题以后,能不能追溯,能不能修正,修完之后还能不能再次通过验收。
工业自动化行业用 OEE、MTBF、MTTR、节拍时间、良率这套不性感的指标,筛了几十年设备。机器人想进产线,最终也要被装进同一套账里。对位置精度要求高的工位,零件放偏一点,机器还在运行,这一单已经废了。这笔账算不清,机器人就还停留在演示阶段。
磨出来的规则,比模型难抄
一家物理 AI 公司真把某类任务跑通,留给客户现场的除了机器人本体,还有几条双方默认的规则:放偏多少算失败,慢几秒会拖累节拍,什么异常必须停下来交给人,停机后多久要恢复,出了问题先调哪段记录。
换供应商,这些规则全得重验一遍。MassRobotics 的 AMR 互操作标准处理了更基础的一层—— 不同厂商的移动机器人怎么共享位置、速度和健康状态,在同一片厂区里互不添乱—— 任务验收那一层,它够不着。某个工位上的失败定义、接管阈值、责任划分,只能在具体项目里一轮一轮磨。磨得越细,换掉这家供应商的成本就越高;只会做 Demo 的公司,以后很可能要按别人磨出来的口径去竞标。
这条逻辑也解释了试点的选址规律。最缺人的小厂反而做不了第一批客户:它的产线经不起试错,停一次线的损失就可能吃掉全部预算。大制造企业的真正优势是场景多、容错深,机器人这个月没跑稳,换条线接着调。同样道理,工厂、仓库、封闭园区会排在医院和养老院前面。工厂里的失败有地方记账,节拍、返工、停机、接管,每一项都能折成钱;送药机器人导航到护士站,系统显示“ 已到达”,可药有没有被正确接收,延误十分钟算谁的,病人家属中途把机器人拦下了该怎么办——“ 到达” 两个字,一项都回答不了。这类场景连“ 失败” 的定义都还没着落。
写到这里得承认两处我没想透的地方。一是验收口径要靠一轮轮试错磨出来,可试错的成本该谁出?供应商垫,等于用亏损换一套行业标准,换来的标准还可能被对手免费沿用;客户掏,等于替别人家的产品交学费。Figure 和 BMW、优必选和极氪是怎么分这笔账的,双方都没披露过。二是我把验收口径写成了规模化的关键卡点,但 4% 这个数字背后,机器人单价对人工成本的回收期算不过来、可靠性本身没到、产能爬不上去,每一个都可能是更大的拦路石—— 验收口径或许只是其中被低估的那一个,未必是最致命的那一个。这两点我都没有确定的答案,行业里似乎也还没有。
很多物理 AI 项目卡住的位置,就在试点和长期预算之间。订单要拆开看:有的买的是测试窗口,有的买的是示范效应,有的买的是战略合作里的一个座位。等到客户愿意基于同一套验收口径复购、扩场景,把人工接管和停机责任写进正式合同,这一步才算跨过去。
回到开头那个箱子。机器人下一次把它放偏一掌的时候,有的现场会像今天一样,由工人顺手挪正,十几秒的延误谁也不提;有的现场会翻出一份文件,上面写着偏差超过多少毫米记一次失败、当月失败超过几次重新议价。第二种现场,今天还很少。
更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App















