杨植麟离「追光的月亮」还有多少个 Token？

人类首个万亿富豪诞生：SpaceX 的 2 万亿，到底值不值？

2026 年 6 月 14 日

史上最大 IPO 正式开盘，一文看懂 SpaceX 的业务底牌

2026 年 6 月 13 日

文 | 影子备忘录

在社交平台上，这场对垒被冠以各种戏剧化的标题——「最强开源双雄的正面较量」、「DeepSeek 与 Kimi 的听牌时刻」、「AI 赛道的冰与火之歌」……人们热衷于用一切的二元对立来概括这一切，仿佛只有用一种极致化的叙事，才能匹配这场注定被写进中国 AI 编年史的竞争。

但在这些喧嚣的表面之下，一个更值得追问的问题浮现出来：当 DeepSeek 用 15 个月的沉默换来 V4 的炸场，坐在对面的杨植麟，真的有闲情逸致享受这场竞争吗？

如果说 DeepSeek 的焦虑是「选择焦虑」——是选择继续保持沉默还是复出融资、是选择闭源深耕还是拥抱生态——那么月之暗面杨植麟的焦虑，更像是一种包围圈的缩窄：一种被技术、商业、资本三股力量同时锁定，进退维谷的「生存焦虑」。

而这种焦虑的表达，不仅仅是个人层面的不安，更是一家初创公司在一个万亿美金级别的赛道中，面临「既要又要」的战略困境时的真实写照。

这不是一篇唱衰 Kimi 的文章。恰恰相反，或许正是因为 Kimi 站得足够高、承担得足够重，杨植麟的焦虑才具有普遍意义——它折射出的是所有中国独立大模型初创公司的集体困境。

两个创始人，两种「天花板」

要理解杨植麟的焦虑，不能只盯着月之暗面一家公司看，必须将它放在与 DeepSeek 的比较框架中。这两家公司不仅是技术上的竞合对象，更在叙事层面形成了奇妙的镜像关系。

2023 年初，当投资人讨论「谁是中国最有技术理想的人」时，杨植麟的名字占据了一半的回答。这位清华计算机系本科生、卡内基梅隆大学语言技术研究所年级第一的毕业生，以第一作者或共同第一作者身份参与提出的 Transformer-XL 和 XLNet，至今仍是预训练模型发展史上绕不开的名字。

2026 年 3 月，杨植麟站在英伟达 GTC 大会的主舞台上，与 OpenAI、DeepMind 的负责人并列而坐。他是台上唯一独立大模型创业公司的代表，其余均为科技巨头旗下的项目负责人。这张照片传回国内时，月之暗面的估值刚在三个月内翻了两番，成为十角兽企业。

杨植麟 GTC 大会上发言

这是杨植麟的光环，但光环的另一面是「天花板」。

DeepSeek 的创始人梁文锋则走上了一条截然不同的路径。2025 年 1 月，DeepSeek R1 的发布被华尔街称为 AI 界的「斯普特尼克时刻」——英伟达市值单日蒸发近 6000 亿美元，硅谷工程师彻夜研读技术报告。

但随后，进入漫长的 15 个月静默，DeepSeek 几乎从主流视野中消失。直到 2026 年 4 月 24 日，V4 预览版上线，用 1.6 万亿参数、百万上下文和低至每百万 token 输出 0.28 美元的价格，重塑了整个开源模型的竞争格局。

梁文锋用 15 个月的闭关，换来了一个更强大的技术叙事。他在极少数公开场合说过一句话：「我们不做用来讲故事的产品，我们做技术本身。」

而杨植麟呢？他身上正在形成一种很典型的创业者光环，但正是这层光环，让他承受了一种独特的压力。这种压力不是被忽视的焦虑，而是被过度期待却又无法完全兑现的焦虑。

互相借鉴的竞合美学

技术层面，月之暗面和 DeepSeek 可能是全球大模型领域最有趣的一对竞合关系。

2026 年 4 月的这一周，两家公司上演了一场近乎完美的「隔空握手」。周一，Kimi 发布 K2.6；周五，DeepSeek V4 上线。但在这套表面竞争之下，隐藏着一个更本质的事实：这两家公司在以共享开源成果的方式，共同定义着国产大模型的技术边界。

Kimi 在 2025 年 7 月推出的 K2 模型，在底层架构上首次大规模验证了二阶优化器 Muon，同时采用了 DeepSeek 首创的 MLA（多头潜在注意力）机制。到了 2026 年 4 月，DeepSeek V4 在架构上也跟进采用 Muon 优化器，取代了过去已经使用了十年的 Adam 优化器。有评论形象地概括了这一现象：「你用我的架构，我用你的优化器」。

这种相互借鉴绝非偶然。开源正是中国 AI 公司加速追赶全球领先者的关键杠杆。中国目前唯二总参数超过万亿、已权重公开的模型，正是 DeepSeek 和 Kimi。

但它们的技术侧重点形成了差异化的分工。

DeepSeek V4 的核心突破在于百万上下文的成本重构。它采用全新的混合注意力机制，结合 Token 维度压缩和 DSA 稀疏注意力（DeepSeek Sparse Attention），将单 token 推理计算量压缩到 V3.2 的 27%，KV Cache 降至 10%。

这不仅仅是技术指标的提升，更是将百万上下文从技术演示变成「所有官方服务标配」的基础设施。与此同时，V4 在 Agent 能力上做了专项优化，还自建了名为 DSec 的沙箱平台，单集群可并发管理数十万个沙箱实例，用以支撑 Agent 强化学习训练和测评。

Kimi K2.6 的方向则更偏向长程编码和 Agent 集群。它在 Kimi Code Bench 内部评测中得分 68.2，相较 K2.5 的 57.4 提升约 20%，最高可支持 300 个子 Agent 并行完成 4000 个协作步骤。K2.6 可持续自主运行长达五天，在单次运行中即可独立完成从文档到网页、PPT 及表格的多产物端到端交付。

这两种技术路线，宛如在给一栋大厦同时灌注地基和砌砖——DeepSeek 想的是如何把地基建得更宽更稳（百万上下文的普惠化），Kimi 想的是如何让房子盖得更高更智能（多 Agent 协同的根本性进化）。各有所长，但也都各有极限。

值得留意的是，这种技术上的两条腿走路，恰恰构成了国产大模型最宝贵的资产配置。

烧钱买量还是技术造血？

如果说技术上的相互借鉴为双方建立了某种「英雄惜英雄」的默契，那么商业化的比拼则撕开了这一切浪漫幻想。

Kimi 是独立大模型公司中明星产品光环最亮的，但这本身也是它最大的包袱。根据业内人士透露的信息，月之暗面手握的资金、人才在国内属于第一梯队，但核心产品只有 Kimi 助手，这导致其收入来源极其有限，免费用户占绝大多数，付费订阅转化率低，API 调用量远不如专注于 B 端的公司。

2025 年，月之暗面做出了一项重大的战略调整——退出了烧钱买量的军备竞赛，投流费用从前一年的 7 亿元骤降至不足 10 万元，转而聚焦基座模型迭代与 Agent 产品开发，在半年内发布了 K2、K2 Thinking、K2.5 三大版本。这种「壮士断腕」式的转向，本质上是对商业化困境的直接回应。当用户增长无法转化为收入，唯有通过技术造血证明自己的真实价值。

但「技术造血」不是一日之功。杨植麟在 2025 年 11 月的内部信中坦言，Kimi 海外 API 收入增长了 4 倍，海内外付费用户月环比增速超过 170%——但即便如此，从估值来看，月之暗面仍面临巨大的尴尬：一旦投资人觉得它无法快速变成收入机器，二级市场能否买单就变成了巨大的未知数。

更棘手的是，大模型公司在 C 端面临巨头的降维打击。有业内人士透露，月之暗面卷入了与大厂的竞争中，结果是在国内没有打过字节跳动旗下的豆包，同时又错过了海外市场开拓时间点。

海外相对还是充分竞争的市场，不止 GPT 和 Gemini。如果有大量全球客户愿意为国产大模型买单，仍存在巨大市场机会，但目前有效出海的领域集中 AI 视频领域，而月之暗面在这一赛道上并无突出优势。

DeepSeek 虽然理论上也面临类似的问题，但它的处境截然不同。梁文锋过去对外部资金持克制立场，甚至被视作刻意远离资本市场的行为艺术。但这种被动的「稀缺性」反而为其赢得了议价权。

有消息称，DeepSeek 正寻求融资，目标估值已从最初的至少 100 亿美元上调至超 200 亿美元，超过了月暗的 180 亿美元估值。

估值的天平正在悄然摇摆——2023 年杨植麟被视为「最值得投的人」，不到三年，资本方的注意力优先序已经出现了显著移动。

国际博弈中的镜像

把目光放得更远一些，DeepSeek 和 Kimi 的一切故事，都嵌套在一个更大的坐标系中——中美 AI 竞争和中国开源与闭源的生态博弈。

2026 年 4 月，斯坦福大学 HAI 发布的《AI 指数报告 2026》，几乎在每一篇中文媒体的总结中都突出了一组数字：中国顶尖模型与美国顶尖模型的 Elo 评分差距仅为 2.7%。这意味着中美 AI 模型性能差距已经几乎消失，中国的大模型已经在多个维度追平美国的最强产品。

而在中美追平的过程中，DeepSeek 和 Kimi 都扮演了关键角色。全球市值最高的英伟达公司在展示下一代芯片性能时，选用的模型正是来自 DeepSeek 和 Kimi。以 Kimi K2.5 为代表的开源模型，已成为全球芯片厂商测试硬件性能的「基准标尺」——新芯片发布后，需要通过 Kimi 等模型评测性能提升幅度。

更进一步看，DeepSeek 还有一个关于「生态自主」的故事。DeepSeek V4 打破了过往长期依赖英伟达芯片的格局，全面选用华为最新昇腾系列芯片作为核心算力底座。对此，英伟达 CEO 黄仁勋曾在采访中直言，DeepSeek 基于华为平台开发的新模型「对美国来说将是一个糟糕的结果」。

由此，中国 AI 产业正在形成两条相互交织的主线：一条是 Kimi 的「技术出海路径」——通过开源模型影响全球研究社区；另一条是 DeepSeek 的「算力自主路径」——推动芯片替代和国产算力生态成熟。两者殊途同归，但背后的驱动力各不相同。

创始人话语体系

在创始人的宏观叙事上，杨植麟和梁文锋的风格形成了有趣的对照。

杨植麟在 2026 年密集发声，几乎每一次都能成为行业焦点。

在英伟达 GTC 大会上，他系统披露了 Kimi 的技术路线图，用三个关键词概括其 Scalin 策略：Token 效率、长上下文、Agent 集群。他强调，要推动大模型智能上限的持续突破，必须对优化器、注意力机制及残差连接等底层基石进行重构。

在中关村论坛上，他则押注了「开源」和「AI 自主研究」两个更宏观的命题。他提出开源模型正成为全球 AI 产业的新「标准」，并给出了极具争议的判断——「最终如果模型能力达到同等水平，开源会是绝对的胜利者」。他还将 AI 研发划分成三个阶段：2023—2024 年的天然数据与人工标注阶段，2025 年的人工精选可验证任务阶段，以及 2026 年起的 AI 主导研究阶段。

在 2025 年底全员信中还明确了 2026 年的目标：在产品和商业化上聚焦 Agent，不以绝对用户数量为唯一目标，持续追求智能上限，创造更大的生产力价值，营收规模实现数量级增长。

梁文锋的公开表达则稀缺得多。但每一次出口，都掷地有声。

在去年底关于中美 AI 差距的追问中，他曾这样坦言：「表面上中国 AI 与美国比可能仅有一两年的技术代差，但真实的差距是原创和模仿之差，如果这个差距不改变，我国永远只能是追逐者，不能做颠覆者……」而在另一次关于 AI 记忆的讨论中，他提出上下文学习与记忆变得可靠的时刻，或许是 2026 年核心主题。

这背后的差异也恰恰揭示出：梁文锋可以选择以「消失」的方式换取更深度的零到一创新，而杨植麟作为一家独立创业公司的掌舵者，其每一个战略转向、每一次公开发声，都成为资本市场消化的信号。

为什么杨植麟不得不焦虑

「焦虑」不仅是形而上的问题。在实打实的资本战场，杨植麟的处境正变得越发微妙。

从数据看，月之暗面的融资轨迹足够惊艳——从 2023 年 6 月天使轮的 3 亿美元估值，到 2026 年初的 43 亿美元（C 轮），再到 2 月的 100 亿美元，三个月内又进一步攀升至 3 月后的 180 亿美元。涨幅惊人，估值已逼近 200 亿美元级别。

但硬币的另一面是，一级市场的高估值传递到二级市场时的接受度存在巨大不确定性。有业内人士表示，去年底的月暗内部弥漫焦虑情绪——面对智谱和 MiniMax 接连在港股上市，部门员工难免士气低落，很多人觉得大模型的窗口期很短，上市机会稍纵即逝。

杨植麟在 2025 年底还曾在内部展现出不急于上市的坦然，但仅过去了三个月，市场风向就迎来 180 度转弯——月之暗面紧接着被爆出「考虑赴港 IPO」的传闻。

转变得如此之快，答案几乎只有一种可能性：资本不给足够长的时间「等一等」了。

更关键的是，上市不是简单的「变现退出」，它意味着更多约束、更多财报追问、每一季度都要向股东交代业绩。而 Kimi 目前的变现模式仍处于艰难的爬坡阶段。从收入结构看，月之暗面 C 端年收入预计约 2 亿，API 收入虽有增长但在高 180 亿美元估值面前显得杯水车薪。即便 K2.5 在发布不到 20 天内创造了比过去一整年还多的收入，也仍然不足以将其带上健康的盈利路径。

如果把月之暗面比成一家正在修建一座摩天大楼的公司——地基在大肆宣传中被看成最坚固的，但实际上楼内极缺租赁客户。上市就是向投资市场开放样板间，可在大堂里只有零星的参观者，没有真正愿意长期付款的「租客」。届时，资本市场的耐心能维持多久？

尽管两家公司各走各路，但从投资者的视角看，DeepSeek 的估值叙事形态已经对月之暗面形成制约。虽然月之暗面在某些场景被看作中国最具技术竞争力的独立模型厂商，资本却开始寻找参照系——DeepSeek R1 的引爆效应让人看到了另一个逻辑：完美闭环（爆款模型→全球影响力→生态吸引力→融资回归）是可以由一家相对低调的公司完成的。

有消息称，DeepSeek 目前正以月之暗面的部分估值作为参照基准，但估值目标已调至超 200 亿美元，超过了月暗的 180 亿。这本身就说明了一个现象：资本市场愿意给 De epSeek 出更高的溢价，或许是因为后者更接近「零到一颠覆者」的叙事。

2026 年的中国大模型市场，不再是一个由 Kimi 独占话语权的时代。某种意义上，DeepSeek 已经成为月之暗面在融资和估值叙事上的天然精神对手——尽管两家公司的商业模式和战略方向不尽相同。

而一场无声的「估值地震」不会因为基本面上双方各有所长就能被消除。当 Kimi 准备 IPO、DeepSeek 也在筹划融资时，这场座次的排序更有可能被公开讨论。如果说杨植麟有什么焦虑是无法回避的，那便是在这场赛跑中，失去了「独一无二」的标签后该如何确立自己的不可替代的价值锚点。

结语

尽管用了如此长的篇幅去剖析杨植麟的焦虑——DeepSeek 的 V4 追赶、商业化变现的压力、上市窗口的逼迫——但在文章的最后，必须坚定不移地表明一种态度：竞争从来不是坏事。恰恰相反，在当前的国际 AI 博弈格局下，中国最需要的就是 DeepSeek 与 Kimi 的持续「互相追赶」。

回顾过去几年，从 Kimi 从长文本开局，到最近两年齐头奔向底层架构创新，二者今天已经让中国的开源模型走到了世界前列。根据 OpenRouter 2025 年的调研数据，全球约有三分之一 AI 模型的使用量来自中国，OpenRouter 的数据表明，仅仅两年前这个份额还是不可想象的，而 DeepSeek 在这一份额中处于领先位置。

中国的大模型产业正在经历一个前所未有的「多极格局」。有的公司选择闭源深耕，有的选择开源协作；有的主攻 C 端超级应用，有的着眼于 B 端工具开发；有的自研 Agent 框架开发出集群智能，有的把记忆、上下文作为未来三年核心主战场。

有专家曾言：未来五年开源模型占比可能达到 80%，闭源模型约 20% 左右——中国在开源模型方面全球领先。更有行业报告指出，中国独立大模型厂商凭借决策灵活性，有望与互联网大厂呈现分层竞合、互补共生的格局，大厂以算力、数据、生态主导通用基座与 C 端场景，独立厂商则聚焦于垂直技术突破和开源创新。

现在，DeepSeek 与 Kimi 的代表性已经超越了国内范畴——英伟达用它们测试下一代芯片，全球 OpenClaw 社区投票将 Kimi K2.5 设置为其官方主力模型，顶级闭源产品也在性能评测中被两家奋起直追。但是，未来的关键在于：仅靠两家公司跑在中国 AI 浪潮的最前排依然不够。想让国产大模型持续性地缩小和国际顶尖模型的距离，需要更多优秀的模型生产者涌现，让基座模型的性能变得更加多元。

从更广阔的视角看，中美两国顶尖模型在 Elo 评分上只差 2.7%。如此微小的差距意味着，任何一家中国模型公司率先抵达下一座性能高地的机会窗口是敞开的。中国大模型的历史，实际上是在竞争性多元化催生下才逐步写得精彩——百模大战不是贬义词，而是产业趋于成熟的信使。

从这个意义上说，杨植麟的焦虑或许是月之暗面未来走向更成熟的必经一步。但它不该成为公众唱衰 Kimi 的理由。相反，我们应该向这两位创始人不谋私利、一心向前冲的技术精神致敬——梁文锋如是，杨植麟亦如是。

2026 年 4 月已经走到尾声。从硅谷 GTC 大会回到中关村论坛的杨植麟，或许已经无暇顾及外界关于「究竟 DeepSeek 和 Kimi 谁更强」的无休无止的口水战。

因为他很清楚，最终决定哪一株小草率先迎来阳光的，不是狂风暴雨的到来与否，而是根扎得有多深、根扎得有多广。

在这场国产大模型的暗夜并肩赛跑之中，杨植麟带出了一条从学术精英到企业领军人物的实战磨砺路径。有资可融、有人可用、有产品可迭代、有 Agent 可畅享的未来图景——Kimi 离它如今并不遥远。而从「暗月」走到「追光的月亮」，或许只需要在多走一段布满焦虑与质疑的暗黑隧道之后的第一步。

隧道尽头的光亮，来自 DeepSeek 们，来自 Kimi 们，也来自更多本土大模型的后发后来者们。