文 | X 研究媛
大模型港股 「双子星」 智谱和 MiniMax 熠熠生辉,股价暴涨,阶跃似乎也按耐不住了。彭博社爆料阶跃即将登陆港股。
仅仅一个月前,阶跃星辰才官宣完成 B+轮超 50 亿的融资,超过智谱和 MiniMax 的上市募资金额。外面的通稿说,这 50 亿人民币押注的,是大模型落地的第一大 「端口」,车;50 亿对价的是基础大模型商业潜力,未来的想象力变现,比如机器人。
与资本押注阶跃 AI+车、AI+终端的预期不同,智谱和 MiniMax 最近夸张的市值攀升,背后逻辑可能是这两家国产大模型在 vibe coding、在基模上站在了技术全球第一梯队,它们拿出了超出预期的产品硬通货。大模型时代,技术实力直接等同于商业潜力,有强悍技术就有品牌影响力、口碑、用户。
智谱和 MiniMax 之后,阶跃登陆港股会讲一个什么故事?出任阶跃董事长的清华姚班 AI 天才印奇,在 AI 1.0 深度学习 CV 和 NLP 时代郁郁不得志,2.0 大模型时代直接 「满配」——左手阶跃右手千里,引入荣耀前 CEO 赵明完成 「AI+车」 商业闭环。
当阶跃和千里深度绑定,直奔 「特斯拉+xAI」 模式,顶尖大模型赋能的智驾,巨量的车端数据,有切换玩法清空积累重置系统的威力。
阶跃融 50 亿后再登陆港股,未来冲击的可能是八杆子打不着的 「蔚理小小」,它们花大力气自建的智驾和基模,可能还不如第三方,它们努力的价值正被稀释,成本风险却在一步步积累。
先抛一个暴论:大模型时代,智驾可能会 「去车企化」

图片来源于 《张小珺商业访谈录》
大模型吞噬一切,绝不是狼来了的吆喝。当更高维的技术下放的时候,车、机器人、智驾,都会变得 「面目全非」,核心技术研发的优先级会重排次序,行业会洗牌,甚至会消亡。
智驾技术近年发展轨迹有一条非常清晰的主线:感知、规划、控制层都在快速大模型化,不同传感器数据类型,原来前置的 CV 算法 trick 都被纳入统一的端到端神经网络。深度学习开始主导 3D 重建和运动预测,Transformer 架构、强化学习方法、扩散模型、乃至世界模型仿真成为进步的核心驱动力。
蔚理小小心里其实非常清楚,三电系统、激光雷达、算力芯片已经收敛成基本透明的标准件,竞争的标尺逐渐让渡于天量的车端驾驶数据如何快速学习和泛化,梯度流动、下降、模型整体的参数收敛,才是重中之重。
「我们人类为什么有很强的适应性,是因为我们人类的基础智能非常高。智驾系统,它本质上全链路的模型比例越高,通用智能越强,它未来的适配性就越好。」
「含模量是智驾的第一性原理。」
走马上任阶跃董事长的印奇在 2026CES 的这句话,让我印象尤其深。
这句话我的延伸理解是:智驾不是智驾,机器人不是机器人,车不是车,手机也不是手机,它都是万千变化的 「躯体」,离不开 「宗」——智能,是当下站在舞台中心的大模型。
车企研发智驾大模型,是从肌肉到大脑的演化,是从下到上。大模型切入智驾和座舱,是大脑某些能力的场景收敛,从上到下。从下到上,和从上到下,过程阻力是不一样的。
资本的视角,从终局看,智驾系统将不是单纯车企可以玩转的。蔚小理等车企的 「全栈自研」 可能正在成为一种高昂的、不可持续的 「战术勤奋」,大模型原生企业将接管智驾的终局。
长期以来,汽车行业对自动驾驶的理解:认为驾驶是一项特定任务。在这个逻辑下,只要给机器足够多的感知数据 (视觉、雷达)、足够精细的高精地图、足够复杂的控制逻辑,就能解决驾驶问题。
然而,2026 年的共识是:智驾系统不是机器视觉的延伸,而是通用智能 (AGI) 在物理世界的一次具身投射。 驾驶不仅是路况识别,它是对物理规律的理解、对人类博弈心理的捕捉,以及对万物常识的调取。这种 「全脑参与」 的智能,决定了只有顶尖的基础大模型 (Foundation Model) 才能收敛出顶尖的智驾系统。而这正是自研车企很难跨越的鸿沟。
智驾从 「模块化编程」 到 「端到端大模型」,这种范式转移不仅仅是代码量的增加,而是底座的某种彻底重构。车企正面临从 「制造逻辑」 向 「计算逻辑」 转型,这个过程注定非常艰难。李想谈 「理想」 要转型 AI 公司,目标国内大模型 Top3,背后是有巨大的危机意识。
只学开车,可能永远不会开车
驾驶中包含了大量的 「非驾驶知识」。人类在驾驶时,并非只在观察车道线和障碍物。
它有物理常识的推演。比如当你看到路边有一个滚动的皮球,你的大脑会瞬间跳过 「检测到圆形物体」 的步骤,直接给出 「后方可能有小孩冲出」 的预测。这种推理依赖于对社会学、人类行为学和物理惯性的深刻理解。
更有语义理解的博弈。在狭窄小巷遇到对向来车,司机之间的眼神交流、微小的车头挪动、甚至对对方车型 (如对方是急救车还是私家车) 的认知,决定了博弈的胜负。
当车企智驾系统过拟合 (Overfitting),它们在海量的驾驶数据中寻找相关性,而非因果律。这种基于模式识别的 「小聪明」,在面对极长尾的 Edge Cases(边缘场景) 时会瞬间崩塌。
智驾系统泛化到极端场景,而且不仅仅是在最后一刻做出反应,而是具有 「前瞻性的安全性」(proactively safe)。特斯拉 AI 和自动驾驶负责人 Ashok 在 Tesla ICCV 2025 Foundational Model for FSD 展示了一个让人印象极其深刻的例子。
这是一个自动驾驶系统在高速公路上运行的演示。
「我们前面的车失控了,撞上了护栏,自动驾驶系统安全地靠边停车了。但真正有意思的是,如果你再看一遍视频,在刹车的那个点暂停。如果你注意到这辆车,它正在失控打转,即将撞上护栏,然后会反弹回我们的车道。这需要极高的智能才能预判到。」

图片来源于公开演讲
「这不是一个 「一阶碰撞」(first order collision)。在这一帧,特斯拉就已经判断出这辆车有问题了,并开始刹车。它没有等到那辆车撞上护栏反弹回来,或者速度发生变化时才反应。这是一个它需要建模的 「二阶效应」(second order effect)。」

图片来源于公开演讲
「它本可以把这误判为那辆车在变道,但它没有。它请求了大约 4 米每平方秒的刹车加速度,这不是一个轻微的刹车。这只有在你拥有海量数据、覆盖了所有这些极端案例的情况下才可能做到。这就是你如何通过一个拥有海量数据的端到端系统,来同时提供安全且平稳的驾乘体验。因为一个不够智能的系统会等到方向改变或坏事实际发生后才行动,而 (特斯拉的 FSD) 远在此之前就已经 (预判) 了。」
FSD 可以识别随机路人的手势,招手停车,挥手通行。FSDV14 版本一段自动停车、用户取餐、刷卡、车辆等待用户拿到信用卡、适时启动更是引发了恐怖谷效应,「它似乎成精了」。
FSD 已经聪明地不像一个智驾系统,因为特斯拉可能已经先人一步明白,智能上不完备的领域模型其实有根本局限。
智能涌现需要冗余,AI Infra 是隐形的护城河
智驾大模型 vs. 大模型智驾,这里存在一个深刻的悖论:服务于智驾的大模型 (Domain-Specific): 它被训练去识别红绿灯、预测轨迹。它的知识边界被限制在路面上,它是一个 「优秀的司机」,但它没有 「灵魂」(缺乏常识背景)。
顶尖的基础大模型: 它理解牛顿力学、理解法律道德、理解人类的情绪变化。当它被灌输驾驶数据后,它对路况的理解是更高维、更完备的。从系统完备性角度看,System 1 与 System 2 的融合,全脑参与的驾驶逻辑,才能导向真正的自动驾驶。
《思考:快与慢》 作者丹尼尔·卡尼曼将人类思维分为:
- System 1: 直觉、本能、快速反应 (对应现在的端到端感知规控)。
- System 2: 逻辑、推理、慢速规划 (对应智驾系统在复杂路口和情境的思考)。
事实上,人类开车是全脑参与。当你看到前方有积水,System 2 会根据天气、气温推测是否结冰,从而指令 System 1 降低车速。
车企的自研模型目前大多停留在 System 1 的加强版。由于缺乏基础大模型的支撑,它们没有真正的 System 2。它们能做出 「动作」,但不懂 「为什么要这么做」。只有原生大模型企业,通过大规模文本与视频的预训练,才具备了生成 System 2 逻辑链的能力。
自研车企目前的尴尬在于:为了过测试,模型被训练得极其擅长处理特定的路口、特定的光照。这就是所谓的 「过拟合」。
而一个顶尖的大模型,它在训练中见识过量子力学、读过世界历史,它掌握的是世界的通用方程。驾驶对它而言,只是这套方程的一个特例。这种 「降维打击」 带来的鲁棒性,是任何通过路测数据堆砌出来的系统都无法企及的。
智驾性能的上限,取决于其背后通用智能的深度。一个缺乏 System 2(慢思考、逻辑推理) 能力的智驾系统,几乎无法实现 L4/L5 级的可靠性。
人类学习开车只需要 20 小时,是因为人类带上了此前 20 年积累的全部人生常识和物理直觉。如果一个智驾模型只学过开车,那它永远也学不会真正的开车。
根据 Scaling Law(规模法则),模型的智能水平与计算量、参数量正相关。车企往往认为,只要我有几千张 H100,就能跑通智驾模型。但这里忽略了一个事实:为了在 「驾驶」 这一特定任务上获得 1% 的安全性提升,可能需要在 「非驾驶」 的通用知识上投入 90% 的算力。
原生 AI 企业 (如 OpenAI, Google, 或顶尖第三方) 的万卡、十万卡集群,训练的是能够理解万物的通用底座。在这个底座上通过 Alignment(对齐) 和 Distillation(蒸馏) 出来的智驾能力,具有天然的逻辑自洽性。
车企擅长制造硬件,但不擅长管理 「算力流」。计算效率上, 原生 AI 企业对算子加速、分布式并行架构 (TP/PP/DP) 的理解是芯片级的。数据质量极其关键,智驾数据中有 99% 是无效的平庸数据,如何从海量视频中提取具备 「认知价值」 的样本,需要一套极其复杂的自动标注与合成数据系统。
更进一步,端到端的神经网络训练完成,还需要在一个虚拟的物理仿真和测试的世界模型中充分测试,实现有效的评估,评估的准确性难度很高但异常关键,它对模型的进化必不可少。
数据收集、仿真测试,这一整套系统的复杂度,甚至超过了智驾系统本身。
蔚小理目前的毛利空间,根本无法长期支撑每年数十亿甚至上百亿美金的 AGI 级投入。而投入到基座模型训练竞赛,强行偏离主业,效果大概率还不如第三方。从这个角度来讲,车企如果不转向第三方 (具备基础大模型能力的企业),其自研系统将迅速沦为 「技术负债」。
还有 AI Infra 也是很难越过的门槛。独立基模迭代,「千卡」 是门票,「万卡」 是竞赛,维持一个万卡 GB200 集群的电费、冷却及运维成本,足以吞噬一家中等车企全年的研发预算。而且车企的算力多为 「采购囤积」,缺乏对算力底座的深度优化。
蔚小理未来可能意识到:自研大模型不是在造发动机,而是在尝试独立发明一种全新的 「机器智能」。 面对万卡集群、AI Infra 的极限门槛和通用智能的降维打击,拥抱原生 AI 企业的第三方智驾底座,只有华山一条路。
汽车史上,并非每个车企都必须自研喷油系统或变速箱电控。当智驾大模型门槛越来越高,车企应该努力的方向:具身智能的场景定义、品牌情感链接以及整车工程的极致实现。
后话
智驾系统的终局,不是谁的车跑得公里数多,而是谁背后的基础智能更深厚。资本选择印奇去掌舵阶跃星辰,给了 50 亿,把千里智驾和基础大模型整合,可能就是基于这一种判断。
其实未来焦虑的可能不止车企。
大模型时代玩法真的变了。用户只会为更好的大模型更先进的技术付费,而不是被迫 follow 某种精心设计的商业模式、屈从于产品惯性。如今商业模式创新可能远远不及技术创新,那一套等着别人试错然后复制,再用泼天流量浇灌的 「后发制人」,屡试不爽的套路可能面临失效。
Scaling Law 强调数据、模型 (参数) 规模、计算算力。算力卡有钱就行,可以量大管饱,但有钱并不能买来第一梯队的模型。谁有更好的基模,谁有更多的高质量数据,谁才能在大模型时代上牌桌。
未来更多行业的入场券可能会变成基模和数据飞轮,并且越早入局越好。















