在大模型这件事上，雷军居然给马斯克打样了

Momenta 上市不为钱

2026 年 6 月 20 日

燃油车，彻底没活路了？

2026 年 6 月 20 日

文 | 字母 AI

在小米正式发布了 MiMo-V2-Pro 大模型以后，第一个出现在我脑子里的人不是雷军，而是马斯克。

因为他的 xAI 现在实在太尴尬了。2023 年成立，融资超过 500 亿美元，联创团队更是涵盖了 OpenAI、Deep Mind、微软以及谷歌大脑。

最新的 Grok 4.20 Beta，还搞了个四 agent 并行的多智能体架构，通过 Grok、Harper、Benjamin、Lucas 这四个 agent 内部辩论，提高输出答案。

结果呢？Grok 4.20 Beta 在 Artificial Analysis Intelligence Index 上只拿了 48 分，反观雷军这边，小米的 MiMo-V2-Pro 则拿到了 49 分。

小米大模型 Core 团队第一次发布模型是在 2025 年 4 月 30 日，初代 MiMo，参数量只有 7B，属于是「玩具级」。

不过 MiMo 在数学推理和代码生成上打赢了 OpenAI o1-mini，算是小米在 AI 赛道上的第一声响。

随后，小米用一个匿名代号「Hunter Alpha」悄悄上线 OpenRouter，一周之内调用量自然增长到日榜第一、总量破 1T tokens，全球开发者在不知道品牌的情况下用脚投票，然后小米公众号深夜发微信说「对，这是小米做的。」

论大模型，马斯克确实该拜雷军为师。

01 MiMo-V2-Pro 凭什么站上牌桌

在业务上，雷军比马斯克还晚启动了一年。

2023 年 4 月雷军推动成立小米 AI 实验室大模型团队，栾剑担任首任负责人。只不过这个 AI 跟我们现在说的大语言模型、agent，并非一回事。

直到 2024 年底、2025 年初，小米才成立了通用基础大模型相关的 Core 团队。

这个团队同样也是雷军亲自主导、亲自推动，并且对大模型业务投入不设上限。

如果只看架构层面，MiMo-V2-Pro 并没有什么让人眼前一亮的东西。1T 参数、42B 激活参数、100 万 token 上下文，这些放在今天都不稀奇。

MiMo-V2-Pro 采用的 MoE（混合专家）、混合注意力机制、MTP（多 token 预测），这些也都是大模型领域的通用技术方案，DeepSeek 在用，谷歌也在用。

真正让这个模型区别于同行的，是后训练阶段的三项技术。

第一项是 MOPD，全称 Multi-Teacher On-Policy Distillation，多教师在线策略蒸馏。这是小米在 MiMo-V2-Flash 技术报告中首次提出的后训练范式。

要理解 MOPD 的价值，得先理解它要解决的问题。

大模型后训练有一个通病，俗名叫「跷跷板效应」。就是说你把数学能力练强了，代码能力就退化；你把 agent 能力拉上来，通用对话又变差。

这不是说某个团队的技术不够，这是整个产业都在面临的问题。

目前大家比较认可的对应方法有两种，第一种是训练多个领域专家模型，然后通过参数合并把它们糅在一起。不过这种方法的效果不是很理想。

另一种是让专家模型生成大量离线数据，再让学生模型去学，但这种方式存在严重的「分布偏移」问题。可是学生只学会了教师的答题方式，模型根本没有建立自己的思考方式，一旦遇到教师没覆盖的场景就会失灵。

MOPD 的做法分三个阶段。第一阶段是通用 SFT，用高质量指令数据做基础微调，激活模型的指令跟随能力，这一步没什么特别的。

第二阶段是分别训练多个领域专家教师，比如说代码 agent 教师、搜索 agent 教师、数学推理教师、安全对齐教师，每个教师在自己的领域做到极致，不用管其他领域。

第三阶段是关键创新，让学生模型自己生成回答，然后同时接受多个教师的 token 级实时监督。学生从自身分布采样，接收自领域教师的 KL 散度奖励和可验证的结果奖励这两类信号，前者告诉模型「这个字应该怎么写」，后者告诉模型「最终答案对不对」。

小米公布的数据显示，经过 MOPD 训练的学生模型在 AIME 2025 数学竞赛上达到 94.1 分，不仅保住了最强数学教师的水平，在部分项目上甚至超越了教师本身。

第二项是真实环境的 agentic RL 训练。

尽管说现在大模型都会强调自己的 agent 能力如何如何，但是绝大多数模型在强化学习过程中，都是非 agent 相关的。

模型看一道题，输出一个答案，对完答案给个奖励，整个过程是单轮的、封闭的。

现实世界的任务可不是这样运作的。一个真正的 agent 需要读代码、改 bug、跑测试、看报错、再改、再跑，这是一个包含了多种情况的完整过程。

小米为此构建了一套覆盖四大类场景、总计超过 12 万个真实交互环境的 agent 训练体系。

代码 agent 的训练数据从真实 GitHub Issues 中提取，模型需要在 agent 循环中读文件、改代码、跑命令、看测试结果，奖励来自可验证的单元测试。

终端 agent 从 Stack Overflow 和 Stack Exchange 中筛选需要高级技术专长的问题，转化为带有完整 Docker 环境和测试用例的计算任务。

网页开发 agent 用 Playwright 执行生成代码并录制视频，再用多模态视觉判别器评估质量——用视频而非静态截图来评估，因为视频能捕捉交互动画和响应式布局等动态特性。

通用 agent 覆盖搜索和函数调用两个方向。

其结果就是，在多样化 agent 环境中增加强化学习计算量，收益会泛化到数学推理、通用推理等其他任务。也就是说，agent 训练培养的不是某个特定技能，而是一种通用的问题解决能力。

别的大模型是在教室里做卷子，MiMo-V2-Pro 是直接被扔进许多个真实工作场景里实习，做错了有真实的测试结果告诉你哪里错了。

实习锻炼出来的模型，比做卷子练出来的，更懂得如何处理问题。

第三项是 ARL-Tangram，这是小米与北京大学计算机学院联合研发的 Agent RL 训练基础设施系统，也是罗福莉作为通讯作者所参与的研究。

MOPD 和 Agentic RL 解决的是「怎么训练」的问题，ARL-Tangram 解决的是「用什么训练」的问题。

agent 需要频繁调用外部资源，代码执行需要 CPU，奖励模型需要 GPU，网页搜索需要 API 配额。传统的 RL 框架，它的做法是静态资源预留，给每条训练轨迹分配一套固定资源，从头占到尾。

这就导致说即便没有任务，这条通道也被占用，别人想走也走不了。

ARL-Tangram 的实测数据显示，在 AI 编程任务中，外部资源平均只有 47% 的时间在被使用，剩下 53% 完全闲置。

在 MOPD 训练场景中更夸张，12 个教师模型各自占着一组 GPU 提供奖励服务，但这些 GPU 的平均流式多处理器活跃率不到 3%，相当于 97% 的算力在空转。

ARL-Tangram 继承了小米性价比之王的基因，它的核心思路就是细化资源管理，让每一份算力都跑得更有价值。

每次外部调用被视为一个原子动作，动作结束后资源立即释放，供其他轨迹使用。

实测效果：动作完成时间提升最高 4.3 倍，RL 训练步骤时间加速最高 1.5 倍，外部资源消耗降低 71.2%。

同样的硬件投入，能支撑多得多的训练量。

雷军在 V2-Pro 发布当天的微博里写了一句话：「我们在 AI 领域上相对比较低调，实际进展可能比大家看到的要快很多。」

确实，小米在 AI 上的进展，远远超过了我的认知。

02 MiMo-V2-Pro 对小米意味着什么

MiMo-V2-Pro 出现之前，小米在软件和 AI 领域的技术存在感很低。

提到智能驾驶，人们想到的是特斯拉、华为、小鹏；提到大模型，是字节、阿里、腾讯。小米的标签始终是「硬件性价比之王」，雷军的手机、IoT 设备、汽车，都是硬件叙事。

诚然，这个标签帮小米卖出了很多产品，但也把它牢牢钉在了「组装厂」的认知框架里。

雷军自己也清楚这一点。

2023 年年度演讲上，他提出了一个新公式：「（软件×硬件）^AI」，宣布小米未来五年研发投入超过 1000 亿元，重点攻坚芯片、AI 和操作系统。

这个公式当时听起来以为雷军是说着玩玩的，结果人家这回来真的。

MiMo-V2-Pro 的诞生，第一次让小米在纯技术维度上获得了一个全球级的排名。

Artificial Analysis Intelligence Index 全球前十，中国第二。

事实上，我觉得只要能在全球大模型排行榜上占有一席之地，都相当于在资本市场、人才招募、合作谈判中都多了一张手牌。

至少当雷军说「小米是一家 AI 公司」的时候，能拿出这样一个成果来支撑观点。

但排名只是表面。更值得关注的是 MiMo-V2-Pro 与小米其他业务线之间的潜在协同。

小米汽车的智能驾驶团队在 2026 年 3 月刚刚完成组织架构调整，将「感知」和「规控」两个部门合并为「端到端算法与功能部」，全面转向端到端大模型技术路线，目标年内实现端到端智驾交付。

与此同时，小米早在 2025 年 11 月就发布了 MiMo-Embodied，同步覆盖具身智能和自动驾驶的核心任务——环境感知、状态预测、驾驶规划。

所以 MiMo-V2-Pro 的这些成绩，说白了那都是给小米汽车打的广告。

MiMo-V2-Pro 本身作为 1T 参数的云端模型，显然无法直接部署到车端，没有哪块车载芯片跑得动这个体量。

但小米的布局逻辑是「云-边-端」协同：云端用 V2-Pro 级别的大模型做训练、仿真和复杂决策，端侧用压缩后的轻量模型做实时推理。

MiMo-V2-Pro 的价值不在于直接上车，而在于作为「教师模型」，通过前面提到的 MOPD，将 V2-Pro 的能力蒸馏到端侧小模型中。

马斯克这边，情况就微妙多了。

Grok 在 2025 年底的一次 Holiday Update 正式住进了特斯拉的车机里，然而它却只能设导航目、聊聊天，相当于是一个语音助手，它跟 FSD 之间只有导航链路的浅层联动。

与此同时，特斯拉本身车内控制座舱的 AI，是来自于特斯拉自己的，跟 xAI 关系不大。

2026 年 3 月，马斯克宣布了一个叫「Digital Optimus」的联合项目，说是要让 Grok 充当「高层推理大脑」。

他用了卡尼曼的双系统理论来类比，Grok 是慢思考的 System 2，特斯拉 AI 是快反应的 System 1，也就是实时感知和动作执行。

然而仅凭马斯克的想法，我认为它们之间的协同远没有小米「云端大模型蒸馏到车端小模型」这条路径来得清晰。

03 我给 MiMo-V2-Pro 挑刺

本文并不是小米的软文，我只是一个 AI 产业的观察者，所以我在这部分准备给小米挑挑刺，以示公正。

先看 Benchmark。

MiMo-V2-Pro 公布的 SWE-bench Verified 得分为 78.0%，接近 Claude 4.6 Sonnet 的 79.6%，这是一份关于 AI 编程的测试集，MiMo-V2-Pro 的数字也确实好看。

但这里有一个行业内已经公开的秘密，SWE-bench Verified 这个测试集本身已经不再可靠。

OpenAI 的 Frontier Evals 团队在 2026 年 2 月 23 日明确表示，SWE-bench Verified「实际上已经饱和且高度被污染」，并且建议行业转向更难的 SWE-bench Pro。

OpenAI 的研究人员发现，包括 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Flash Preview 在内的多个前沿模型，仅凭 SWE-bench Verified 的 Task ID 就能复述出原始的 gold patch，这就相当于你考试的时候，不用看题目，只看题目的编号就能给出答案。

这意味着测试题目很可能已经进入了训练数据。在这样一个被污染的测试集上拿高分，说服力大打折扣。