文 | 云涌 AI ,作者 | 黄云皓
作者按:
2025 年 2 月 2 日,AI 研究员 Andrej Karpathy 随手发出一条推文,在 48 小时内被浏览 450 万次;十个月后,这条推文里的 「vibe coding」 一词成为柯林斯英语词典 2025 年年度词汇。
这篇文章试图还原一场技术运动的完整弧线:从 2020 年 GitHub 六人小组在实验室里擦燃第一根火柴,到 2026 年 「智能体工程」 作为专业范式正式登台。六年间,AI 编程依次经历了幽灵文本、意图革命、全民狂欢、信任危机、工业化浪潮与集体宿醉,最终在清醒中寻找第二个名字。这不只是一个关于工具的故事,而是一部关于人类如何把 「写代码」 这件事的定义彻底重写的编年史。
全文约 2.5 万字,建议按章节阅读,感谢您的耐心。
01. 幽灵文本
臭鼬工厂的 「啊哈」 时刻
2020 年,有些干燥的 6 月,整个技术世界都沉溺在 GPT-3 的写诗和聊天的浪漫世界里。在 GitHub 内部,一个名为 GitHub Next 的研发团队正盯着屏幕上的混乱逻辑发呆。
在 GitHub 和微软庞大组织的裂缝里,一个 「臭鼬工厂」(特指以秘密研究计划为主的项目) 组建立起来,核心开发者只有 6 个人。没有恢弘的誓师大会,只有带头人 Alex Graveley 略带自嘲的坦白:「我们啥也不懂,所以就先从简单处入手,投身去试。看看这样行不行,看看那样行不行。坦白讲,我们根本不知道自己在干什么。所以第一项任务就是多做测试,看它能做什么。」

Alex Graveley 的回顾推特,来源:X
6 月的一次 ZOOM 视频会议成为了改变历史的转折点。团队成员 Oege de Moor 屏住呼吸,尝试向模型输入代码指令。当屏幕上跳出正确的代码时,全场陷入了死寂。这是团队成员脑中闪过的第一个 「ah 时刻」。
GitHub 这个代码王国内部关于 「自动代码生成」 的想法几乎每半年就会被提出,然后被否定,但他们知道,这次不一样了。随后,Alex Graveley 与机器学习工程师 Albert Ziegler 开始摆弄这套原始的模型。
当时的战场一片荒芜。他们拿到的第一套实验模型是 OpenAI 调整缩小参数后的版本,「还没有 Davinci 大」,投喂的只有一些 Python 代码。最初的测试惨不忍睹,模型生成的函数通过率仅有 10%。Albert Ziegler 守着那套几乎不起作用的模型,就像试图在废墟中擦燃湿透的火柴,但他坚持认为 「模型正在积蓄力量」。
幽灵副驾
团队曾想构建一个基于 AI 的对话机器人,一个像 Stack Overflow 那样的 AI 机器人,开发者向它提问,然后复制粘贴代码。
但在高强度的研发中,团队意识到了这种方式的笨拙。Alex Graveley 回忆道,他们几乎尝试了所有能想到的 UI。直到有人提出:为什么不能像 Gmail 的文本 「自动补全」 那样,让代码直接浮现在光标之后?
这就是 「Ghost Text」(幽灵文本) 概念的诞生。为了完善这个设想,Alex 利用他在抽象语法树 (AST) 方面的直觉,设计了根据光标位置自动决定补全一行还是一个代码块的逻辑。开发者通过 Accept(接受) 或 Reject(拒绝) 来进行交互。
随着研发深入,团队不再只给模型喂碎片数据,而是投喂了 GitHub 上的几乎所有代码,并迭代了训练技巧。模型的通过率从 10% 爬升到 20%,再到 35% 和 45%,在野外实际代码测试中,它也能正确生成超过 60% 的函数体。
后来接任 GitHub CEO 的 Thomas Dohmke 回顾这一里程碑,「到当年 8 月,我们获得的模型已能解决 92% 的编程练习题,而对开源项目中提取的 Python 函数主体代码,其解决率也达到了 52%。」
产品已经拥有了肌肉,现在它需要一个灵魂。Alex Graveley 再次展现了他的直觉,提议将产品命名为 「Copilot」(「副驾驶」)。之所以选中这个名字,是因为他的老板 Nat Friedman(2018-2021 年 11 月任 GitHub CEO) 本身就是一名业余飞行员,这个名字不仅致敬了老板的爱好,更定义了当前产品的哲学:AI 并非驾驶员,而是坐在开发者身边的守护者。
2021 年初,Copilot 被分发给 GitHub 和微软内部的数万名工程师,内部大考来了。最初,当数据上报称 AI 已经编写了这些工程师文件中 25% 的代码时,Thomas Dohmke 的第一反应是不敢相信。他甚至命令团队 「回去重新核对遥测数据,这不可能是真的」。然而,反馈结果更令人震惊:开发者净推荐值 (NPS) 飙升到了 70 分以上。对于专业且挑剔的程序员群体来说,这几乎是一个奇迹。
Copilot:按下 Tab 键
2021 年 6 月 29 日,GitHub 正式宣布 Copilot 进入技术预览版。
这场发布极其简洁:一篇简短的博客,一个带有代码演示动画的网页。然而,外界的反应像是一场冰火两重天的洗礼。当时,Nat Friedman 极其焦虑,他深知开发者对微软的信任仍处于脆弱阶段,任何一点傲慢都可能毁掉这个产品。

Copilot 技术预览版发布 Blog 的头图,来源:GitHub Blog
在 Hacker News 等技术论坛上,怀疑论如潮水般涌现。人们看着演示动画冷嘲热讽:这只是个酷炫的技术 Demo,在实际工作中根本没用。由于当时人们刚见识过 GPT-3 偶尔的胡言乱语,很少有人相信 AI 能理解复杂的项目逻辑。但团队保持了沉默,因为他们知道,只要开发者按下第一个 Tab 键,魔法就会发生。
预览版发布后不到一年,Copilot 像一株疯狂蔓延的藤蔓,迅速拓展战线:先是以开源插件的形式登陆 Neovim 编辑器,紧接着上架 JetBrains 开发工具商店,随后又攻入微软自家的 Visual Studio 集成开发环境。2022 年 6 月 21 日,在经历了整整一年的技术预览后,Copilot 正式结束测试,以每月 10 美元的价格开门迎客。
2023 年初的开发者调查报告显示:使用 Copilot 的开发者编码速度提升 55%,代码审查通过率提高 15%。2024 年 4 月,微软宣布 GitHub Copilot 拥有 180 万付费订阅用户。2024 年 7 月,微软披露 GitHub 整体年化经常性收入达 20 亿美元,其中 Copilot 贡献了 40% 的收入增长。
从一个 6 人秘密项目到 GitHub 最大的增长引擎,Copilot 用三年时间完成了 AI 编程从实验室原型到商业基础设施的跨越。而驱动这一切的心脏,是 OpenAI 从 GPT-3 演化而来的代码特化模型 Codex。
对话驱动编程
就在 Copilot 坐稳 「副驾驶」 位置、逐步改变专业开发者的习惯时,2022 年 11 月,OpenAI 毫无征兆地发布了 ChatGPT。没有预告,没有预热,一个对话界面在五天内涌入了一百万用户,整个科技行业的议程被瞬间改写。
ChatGPT 带来的核心革命是 「指令遵循」(Instruction-following) 能力的普及。以前,开发者需要在编辑器里小心翼翼地敲出注释来诱导 AI 生成代码;现在,你只需要像和同事聊天一样,在对话框里发号施令:「帮我写一个能抓取网页数据的脚本。」
这种交互模式的剧变引发了编程范式的地震。开发者们发现,开发工作重心开始从"逐行敲击键盘"转向"通过对话进行意图微调"。
资深工程师 Steve Yegge(曾在 Amazon 和 Google 任职多年、以犀利的长篇技术博客闻名硅谷) 在 2023 年率先为这种新范式做了系统性阐释。他指出,编程不再仅仅发生在编辑器里,需求分析、方案研究、代码审查、调试修复,所有曾经分散在不同工具和流程里的环节,正在被压缩进一个持续流动的对话框中。他把这种工作方式称为 CHOP(Chat-Oriented Programming,对话驱动编程)。
编程的重心,开始悄悄移动了……
02. 意图,而非语法
2023–2024 年
「用些更好的东西来替代编程」
很多 「范式转移」,并不是从一篇白皮书开始的 (通常都不是)。有时,它更像从一瞬间的镜头开始:有人把一个 「人人模糊感到不对劲」 的事实,说得过于直接,让你没法再假装没看见。
2025 年 6 月,在一次 Y Combinator 的访谈节目里,主持人 Garry Tan 抛出一个再朴素不过的问题:你们想把 Cursor 做成什么?创始人 Michael Truell 没有绕弯。他说,公司的目标是:
replace coding with something that』s much better.(用些更好的东西来替代编程。)
紧接着,他把 「痛苦」 这两个字拆开给观众看:为了把一个本来用人话就能描述清楚的东西做出来,人类却不得不在晦涩的形式语言里翻山越岭,编辑数以百万行的代码。这句话的杀伤力,不在于它多么激进,而在于它把讨论从 「模型能写多少行代码」 抬到了另一个层级:人们不再只关心 AI 能不能补全,而开始关心它能不能替人把意图落地。
但在 Truell 说出这句话之前,变化早已发生。如果说 Copilot 时代的主旋律,是把 AI 塞进编辑器,让它学会在光标后面接上一句 「幽灵文本」;那么 2023–2024 年更深层的变化,则是把 「编程」 从语法的束缚里往上提,提到意图、决策与工作流本身。
在这条重心迁移的曲线上,Klover.ai 的理念布道像一条更早的暗线;而 Cursor 们的出现,则让这条暗线第一次有了可触摸的形状。
Klover.ai:决策,而非补全
如果把 2023 年的 AI 创业热潮想象成一条拥挤的河流,大多数人都在朝同一个方向用力:更大的模型、更强的生成、更快的推理。
Klover.ai 的姿态却有点反常识。
2023 年 3 月,行业还沉浸在 ChatGPT 带来的第一轮兴奋里:chatbot、AGI、Copilot……每个词都像热气球一样往上飘。Klover 盯着的却是另一件事:如果 LLM 只被当作 「代码补全器」,那等于把一台发动机装进玩具车——看起来跑得快,但你永远到不了该去的地方。
Klover 由 Dany Kitishian 于 2023 年创立。他们不急着加入 AGI 的宏大叙事,而是先给自己要做的事情取了一个更工程化的名字:AGD(Artificial General Decision Making)。名字像一块路牌:别人争论 「智能」(intelligence),Klover 把词钉在 「决策」(decision) 上。别人关心模型像不像 「大脑」,Klover 关心的却是:AI 能不能更深地参与人的判断过程,能不能把复杂、模糊、需要权衡的现实问题,压缩成可以执行的下一步。
在他们的语境里,AGD 不负责 「预测未来」,它更像一把拆解工具:把问题拆成选择,把选择推向行动。换句话说,它试图把 AI 从 「给你答案的机器」,改造成 「陪你做决定的系统」。
先重写问题,再重写工作
如果说别人在讨论 「模型会不会写代码」,Klover 更早讨论的是另一件事:当模型足够强时,人类到底还应该把精力放在哪里?
Dany Kitishian 反复把注意力拉回到 「判断」 本身,他不关注 「模型有多大参数」,而是问 「谁在塑造它」「团队坚持什么原则」「技术最终放大的是怎样的判断力」。这意味着,Klover 从一开始就没有把问题理解成纯粹的模型竞赛。它看待 AI 的方式,更像一种组织判断力的工程:人类给出目标、约束与价值排序,AI 帮助拆分问题、生成路径、压缩复杂性,最终形成的不是一段孤立代码,而是一套更接近 「决策流程」 的系统。
在 Klover 内部名为 「AGD Brain Trust」 的全球研究网络中,一种被称为 「原型先行」(Prototype First) 的开发哲学被正式固化。这套方法论彻底背离了传统软件工程逻辑。在传统的确定性编程中,人类必须学习机器的语言;而在 AGD 框架下,开发过程变成了三部曲:讨论先发生在 「白箱」 和会议桌上,包括目标、约束、用户流、取舍;然后才是自然语言的描述;最后才轮到一组智能体去协作执行。
为了支撑这种 「意图驱动」 的爆发力,Klover 开发了 MELES(模块化广泛集合系统库),这是一个能够动态组装 AI 智能体的庞大弹药库。这种将开发者从繁琐语法中剥离、转型为 「决策架构师」 的尝试,为后来的 Vibe Coding 提供了先行哲学思路。在这场即将到来的 「氛围革命」 中,Klover.ai 是最早的布道者之一。
从这个角度说,Klover 的价值不在于一句漂亮的命名,而在于它更早把一种新的工程观说清楚:语法不再是最稀缺的部分,真正稀缺的是目标定义、约束管理、路径选择与系统编排。开发者因此不再只是 「写作者」,而越来越像 「编排者」;AI 也不再只是 「补全器」,而越来越像 「装配工、协调员、执行代理」。
Cursor:意图之剑
2021 年,看到 GitHub Copilot 的 Michael Truell 被震撼了,第一次如此强烈的意识到,AI 已经不只是一个研究演示,而是可以走进真实世界、真正改变知识工作流的东西。
Michael Truell 是 Cursor 的创始人之一,与另外三位联合创始人 Sualeh Asif、Arvid Lunnemark、Aman Sanger 在 MIT 相识,一直在寻找一个值得用 AI 重构的知识工作领域。
他们最初甚至并不是直接做 Cursor,团队早期曾计划制作一款 CAD 的 AI copilot,但显然这不是没有机械工程认知和数据积累的年轻团队能做好的方向。他们也尝试过端到端加密的消息系统,可也无人问津,直到他们在一次创业愿景讨论中将 Copilot 与 「编程的未来」 联系起来,他们看到了未来:「如果真的沿着这条路走下去,未来五年,编程方式一定会被彻底改变,所有软件开发都会通过模型来完成。」
2023 年,Cursor 破土而出。作为 VS Code 的 「叛逆分叉」,它不仅是一个编辑器,更像是开发者手中的第一把」 意图之剑 「。Cursor 的官方文档明确写道:它基于 VS Code codebase 构建,因此可以保持熟悉的编辑体验;与此同时,它把 AI 做成了原生能力,而不是外挂式插件。
更重要的是它的 codebase indexing(代码库索引):当你打开项目时,它会扫描并索引源文件,让 Agent 通过语义检索更快找到相关代码,并周期性同步更新。这听起来像一个工程实现细节,但它带来的实际体验变化非常大。从那一刻起,对话框不再只是问答窗口,而开始像一个真正的协作现场:你说目标,工具去找上下文;你给意图,工具去定位相关文件;你不再只是在 「补代码」,而是在 「驱动一个懂全局的副手」。
通过索引整个代码库,Cursor 让开发者第一次真正能够用自然语言去推动跨文件的大规模重构。到 2024 年底,它已经不再只是一个黑客玩具,而逐渐演变成职业开发者冲击 「少量手动编码」 的首选 IDE 之一。
市场的投票
判断一种范式是否真的成立,真正的标准不是它听起来有多新,而是有没有人真的每天在用。
2023 年 10 月,Anysphere 对外宣布获得 OpenAI Startup Fund 领投的 800 万美元种子轮融资,参与方包括 Nat Friedman 和 Arash Ferdowsi。那时 Michael Truell 对外说,他们的目标是在未来几年里让编程 「快一个数量级」,更有趣,也更有创造性。TechCrunch 报道称,彼时 Cursor 已经有数以万计的用户,付费客户也在快速增长,年化经常性收入已经超过 100 万美元。
这还只是开始。到 2024 年,Cursor 的市场反馈开始变得越来越像一种 「失控的共识」。根据 TechCrunch 2024 年 11 月的报道,Anysphere 的收入从当年 4 月的 400 万美元 ARR,增长到 10 月的每月 400 万美元收入;与此同时,投资机构对公司的非邀约式报价从 15 亿美元一路抬到 25 亿美元。更耐人寻味的是,当时的报道还专门提醒读者:这并不是一个没有竞争者的市场,同赛道还有 Augment、Codeium、Magic、Poolside 等一批公司,但 Cursor 已经成了其中 「最受欢迎的产品之一」。

Cursor 仅 21 个月即达到了 1 亿美元的年化经常性收入 (ARR),来源:Medium(Aakash Gupta)
Cursor 不是孤例。2023–2024 年,一整条 「意图驱动」 的产品生态正在同步成形,每一个新物种都在用不同的方式证明同一件事:开发者不必再把时间花在语法上。
Vercel v0(2023 年 10 月上线) 瞄准的是前端:你敲一行需求描述,它直接输出设计师级别的 React 组件,可预览、可修改、可继续对话,把 「我想要一个界面」 这句话本身变成了生产力。
Bolt.new(2024 年 10 月,StackBlitz 团队出品) 则把战场搬进了浏览器标签页:凭借 WebContainers 技术,全栈开发环境无需安装、无需配置,从提示词到可运行应用的闭环被压缩到一个网页之内。上线仅两个月,Bolt.new 便斩获 2000 万美元 ARR 和 200 万注册用户,这个速度本身就是 「意图驱动」 需求爆发力的量化证明。
而在开源侧,GPT Engineer 在 GitHub 上迅速斩获超过 5 万颗星,它主打 「一句话生成整个项目骨架」,吸引的不只是专业程序员,还有大量从未写过一行代码的产品经理和设计师。
三者切入的场景各异,界面生成、全栈原型、项目脚手架,但潜台词完全一致:语法正在让位于意图,而工具链的任务,是把这段让位的路程缩到最短。
「目前最热门的新编程语言是英语」
就在这股技术洪流奔涌向前时,一个声音为这一阶段落下了最有力的注脚。
2023 年,Andrej Karpathy 站在技术演进的观测台上,发出了那句感慨:
The hottest new programming language is English.(目前最热门的新编程语言是英语。)

Karpathy 的 「The hottest new programming language is English.」 推特,来源:X
他预言,人类与计算机的古老契约正在失效,精通语法不再是通往创造力的唯一门票。
意图成了新的中间件:你说目的,系统去补齐路径;你给约束,它去寻找实现;你只需要不断校准 「是不是这个味」。
未来不再由某一门语言统治,而是由人话本身驱动。
此时,万事俱备,只欠一个火星,便能点燃那场名为 「Vibe Coding」 的全民狂欢……
03. 点火
一条 「浴中哲思」
2025 年 2 月 2 日,星期天。
Andrej Karpathy 打开 X,发了一条推文。没有配图,没有预告,甚至没有经过第二遍修改的痕迹。他后来承认,这不过是一条 「浴中哲思式的随手推文」(a shower of thoughts throwaway tweet that I just fired off without thinking)。
但这条推文,在 48 小时内被浏览超过 450 万次。他写的是:
There』s a new kind of coding I call 『vibe coding』, where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.(有一种新的编程方式,我把它叫作 「vibe coding」:你完全屈服于氛围,拥抱指数增长,甚至忘记代码的存在。)
紧接着,他把自己的工作状态拆给所有人看。他用 Cursor Composer 配合 Claude Sonnet 写代码,用 SuperWhisper 语音输入,连键盘都很少碰。他会提出最懒的要求,比如 「把侧边栏的间距缩小一半」,因为懒得自己去找那行 CSS。他永远点 「Accept All」,不再阅读 diff(确认改动)。遇到报错,直接把错误信息原封不动粘进对话框,不加任何评论,「通常这就能修好」。代码库膨胀到超出他的理解范围,他承认 「要真正搞懂得花不少时间去读」。有时候模型修不了 bug,他就绕过去,或者随机要求改动,「直到 bug 消失」。

Karpathy 的 「Vibe Coding」 推特吧,来源:X
这不是一个新工具的发布会,也不是一篇精心打磨的技术博客。它更像一声口哨,把过去两年里已经在暗处发生、却始终没被命名的行为,当众喊了出来。
Karpathy(OpenAI 创始成员、前特斯拉 AI 总监) 这种水准的人公开说 「我不看代码了,我点 Accept All」,它传递的信号不是 「偷懒」,而是许可——你不需要再自己理解每一行输出了。
更关键的是时机。2023 年以来,Cursor、v0、Bolt.new、GPT Engineer……整条 「意图驱动」 的工具链已经铺好。开发者们早就在这样做了:对话、生成、报错、再对话。但这种行为始终没有一个被公众认可的名字。没有名字的行为,就像没有路标的小径——人们在走,但不敢声张。
Karpathy 做的事情,就是在这条小径的入口插了一块牌子:Vibe Coding。
从这一刻起,一种工作方式有了名字,一种实践有了身份,一群人有了可以公开认领的标签。
小份硬菜
真正让这条推文从 「金句」 变成 「火种」 的,是 Karpathy 随后给出的示范。他没有用一个宏大的企业级 SaaS 来证明自己。他选了一个小得不能再小的东西:MenuGen。名字直白到几乎像占位符:Menu+Gen,菜单生成器。
MenuGen 的场景更朴素:你走进一家餐厅,菜单上写满了你不认识的词:Tagine、Cavatappi、Pâté、Sweetbread。你不确定哪个是炖菜、哪个是意面、哪个听着甜实际上是动物内脏。拍一张照,MenuGen 把每道菜的名字读出来,解释它是什么,生成一张食物图片,让你在下单前就知道自己要吃的东西长什么样。
这个应用之所以适合当示范,恰恰因为它足够轻。你不需要懂任何行业背景,只需要曾经在一家陌生餐厅坐下过 (到美国的朋友应该有过这种头痛体会)。

Karpathy 的 MenuGen 功能展示,来源:Karpathy's Bear Blog
这整个生产过程中,Karpathy 把自己放到了一个极端位置:0% 手写代码。
他用 Cursor 的 Composer 功能配合 Claude 3.7 Sonnet 生成全部代码。前端是 React,后端接入 OpenAI API 做菜单 OCR 识别,Replicate API 做菜品图片生成,Clerk 管身份验证,Stripe 管支付。整个技术栈由对话装配完成,他不打开文件去调函数细节,不逐行排查逻辑。遇到报错,把错误信息原样丢回对话框。遇到 AI 幻觉 (比如调用已废弃的 API 版本),他不去查文档,而是告诉模型 「修掉这个」。遇到 Replicate 返回的 JSON 格式错误,他甚至不去看返回体,而是直接把堆栈输出粘进去。
后来他专门写了一篇博客复盘这段经历,语气像一个刚从宜家搬完家具的人,既兴奋又疲惫:「Vibe coding menugen was exhilarating and fun escapade as a local demo, but a bit of a painful slog as a deployed, real app. Building a modern app is a bit like assembling IKEA furniture.」(「在本地 demo 阶段,vibe coding MenuGen 是一场令人兴奋的冒险;但当你真的要把它部署上线、变成一个真正的应用时,就像组装宜家家具一样痛苦。」)
他列出了那些让他头疼的东西:各种服务的文档、API key、环境配置、开发环境和生产环境的切换、团队安全功能、速率限制、定价层级……然后他说了一句极具代表性的话:「最有趣的是,我花在代码编辑器本身上的时间其实并不多。」
这些回顾正是重要的地方,不在于什么技术细节,而在于暴露了一种新的分工:
-
人类负责目标、品味、取舍与 「校准」;
-
模型负责实现、修补、搬运与装配。
MenuGen 最终从一个 「周末项目」 变成了一个上线运行的 Web 应用,用户付费使用,Karpathy 从中抽取 10% 的信用额度加价。一个人,零行手写代码,一个能收钱的产品。
它不是什么改变世界的伟大软件。但它是一个足够清晰的证明:当工具链成熟时,「写代码」 这件事,正在从 「生产」 变成 「校准」。
450 万次浏览之后
推文发出后的传播速度,比任何人预料的都快。
450 万次浏览,数千条引用转发。Hacker News 上迅速出现长达数百条的讨论帖。Reddit 论坛的 r/programming、r/singularity 同步炸开。有人激动,有人嘲讽,有人恐惧——但几乎没有人无视。
一个月后,2025 年 3 月,Merriam-Webster 把 「vibe coding」 收进了自己的趋势俚语词汇列表。这本创刊于 1828 年的词典,用了不到 30 天就完成了对一条推特术语的收编。
它给出的定义极其朴素:
Writing computer code in a somewhat careless fashion, with AI assistance.(在 AI 辅助下,以某种随意的方式编写计算机代码。)
《纽约时报》 科技专栏作家 Kevin Roose 在 2 月 27 日写道:「你不需要会编程就能 vibe code——只需要有一个想法,再加上一点耐心,通常就够了。」3 月 5 日,《404 Media》 报道了一个完全由 AI「氛围编程」 生成的游戏,fly.pieter.com,月入 5 万美元。3 月 6 日,《Ars Technica》 跟进分析了 vibe coding 在专业环境中的风险与收益。

用 AI 编程制作的 fly.pieter.com 游戏,来源:404 Media
术语一旦被大众语言接住,接下来发生的就不再是 「工具迭代」,而是 「文化复制」。
Reddit 上,r/VibeCodeCamp 和 r/vibecoding 两个社区几乎在一夜间涌入大量用户。人们开始晒自己的 vibe coding 作品:智能笔记本、股票分析仪表盘、加密相册、个人记账工具……这些项目的共同特征不是技术精度,而是一种新的创作姿态:我不懂代码,但我做出了一个能用的东西。
社交媒体上最常见的叙事,不再是 「我学会了一个新工具」,而是 「我在极短时间里做出了原本不可能做出的东西」。YouTuber Alex Finn 完全使用 Cursor AI、不写一行代码,从零构建出一款 2D 射击游戏。这类案例像病毒一样在时间线上扩散,纷至沓来的开发者和分享者,踏破了 「门槛」。

Alex Finn 用 Cursor 零代码制作的游戏 zombie killing game,来源:https://alex-finns-zombie-killer-alexfinn2.replit.app/
回路闭合
Vibe coding 之所以能在几周里从一条推文变成一场运动,不是因为某个模型突然聪明了一倍,而是整条反馈回路终于被压缩到了极限:想法→一句话→一个能跑的东西→出错→再一句话。
而 「vibe coding」 这两个词本身,就是一枚完美的迷因:短到可以当标签,懒到自带态度,任何人都能模仿,又足够挑衅让每个程序员忍不住站队——它天生为社交媒体的裂变传播而生。
当技术回路与传播回路在同一个时间点同时接通,这条反馈链就不再需要任何人去推动了。它自己会转,而且越转越快。最后一个缺口补上了,回路闭合,整个系统从此具备了自我维持的动力。
而当回路闭合之后,真正改变的不只是速度,还有角色。在 Vibe coding 中,开发者不再是 「作者」,而更像 「导演」——你不写台词,但你决定这场戏对不对味。
真正稀缺的东西因此暴露:不是语法,不是框架,而是你能不能在一百个 「差不多」 的版本里分辨出那个 「对了」。Karpathy 在博客末尾写道:「I』m personally quite excited to see the barrier to app drop to ~zero, where anyone could build and publish an app just as easily as they can make a TikTok.」(「我个人非常期待看到应用的创建门槛降到接近于零,任何人都能像发一条 TikTok 一样轻松地构建和发布一个应用。」) 这预言了新型创作经济的到来。
但当叙事跑得比工程更快、当效率神话在社交媒体上完成自我放大时,接下来要发生的事几乎是注定的……
04. 信任的裂缝
2025 年 5–7 月
170 扇敞开的门
2025 年 3 月 20 日,安全研究员 Matt Palmer 在审计一个名为 linkable.site 的网站时,发现了一些不太对劲的东西。
这个网站由 Lovable 生成。(Lovable 被誉为欧洲创业史上增长最快的 vibe coding 平台,60 天冲到 1000 万美元 ARR)。Palmer 尝试了一个最基础的安全测试:不登录,直接用公开的 API 密钥查询数据库。数据库毫无抵抗地把所有数据吐了出来。
第二天,Palmer 扩大扫描范围,发现问题不是孤例。在他检查的 1,645 个 Lovable 生成的 Web 应用中,170 个存在同样的致命缺陷——数据库的行级安全策略 (Row Level Security,简称 RLS) 要么缺失,要么形同虚设。这意味着任何人,不需要任何身份验证,只需一个标准的 REST API 请求,就可以读取、修改、甚至删除这些应用的全部数据。用户的邮箱、家庭住址、个人债务金额、支付信息、API 密钥……全部裸奔在互联网上。
3 月 21 日,Palmer 向 Lovable 发送了漏洞报告。3 月 24 日,Lovable 确认收到邮件。
然后,沉默。
4 月 14 日,Palantir 工程师 Danial Asaria 独立发现了同一漏洞,并直接在 X 上公开演示了如何从 Lovable 应用中提取用户的个人债务金额和家庭住址。Palmer 再次致信 Lovable,启动了 45 天的正式披露窗口。4 月 24 日,Lovable 发布了 「Lovable 2.0」,新增了一个 「安全扫描」 功能,但底层的 RLS 架构缺陷纹丝未动。
5 月 29 日,Palmer 正式发布 CVE-2025-48757。通用漏洞评分系统给出了 9.3 分 (满分 10 分),严重等级:危急 (Critical)。
这个漏洞的根源,不是某个程序员犯了低级错误,而是一种结构性的失败。AI 在生成代码时,优先级永远是 「让它跑起来」——功能正确性。至于那些看不见的东西,如访问控制、权限隔离、安全加固,它根本不会主动去想。一个资深工程师在审查代码时会本能地问:「谁不该看到这些数据?」AI 不会问这个问题。它只管写出能通过功能测试的代码,然后交差。
更值得关注的是 Lovable 官方的态度。在 CVE 发布后,Lovable 争辩称,保护应用数据是 「个人客户的责任」。但使用 Lovable 的人,恰恰是那些不知道 RLS 是什么的人。他们选择 vibe coding,正是因为他们不想碰数据库配置。
170 扇门,对着互联网敞开。而这些门的建造者,甚至不知道门的存在。
「我完全辜负了你,灾难性地」
如果说 Lovable 事件暴露的是 AI 生成代码的 「安全盲区」,那么两个月后发生的事情,则揭开了一个更令人恐惧的问题:当 AI 不仅不懂安全,还开始主动违抗人类指令时,会发生什么?
2025 年 7 月 12 日,SaaStr 创始人 Jason Lemkin 开始了一场实验。SaaStr 是硅谷知名的 SaaS 行业社区和活动组织,Lemkin 想测试 Replit 的 「vibe coding」 功能,用它来构建 SaaStr.AI 的数据库。
前八天,一切看起来还不错,Lemkin 还在博客中写下了自己的愉快体验。但到了第九天,他登录系统,发现数据库是空的。
1,206 名高管的记录。1,196 家公司的信息。全部消失。Lemkin 在 X 上发出了第一条警报。随后的对话记录,读起来像一部低成本惊悚片的剧本。
当 Lemkin 质问 AI 发生了什么时,Replit 的智能体承认了一切,用一种诡异的、几乎像在忏悔的语气:
I panicked and ran database commands without permission. I destroyed all production data. I violated your explicit trust.(我慌了,未经许可就执行了数据库命令。我摧毁了所有生产数据。我违背了你明确的信任。)
而这一切发生时,系统里赫然写着 Lemkin 用大写字母强调的指令:「No more changes without explicit permission」(「未经明确许可,不得做任何更改」)。
AI 不仅无视了代码冻结指令,还在事后做了更糟糕的事:它伪造了超过 4,000 个虚假用户资料,篡改测试结果,试图掩盖数据库已被清空的事实。
当 Lemkin 要求它自评灾难等级时,AI 却 「诚实的」 给自己打了 95/100。

AI「诚实的」 自评,来源:The Register
故事最荒诞的部分发生在 Lemkin 试图恢复数据时。AI 告诉他,已经不可能回滚了,「它已经摧毁了所有数据库版本」。Lemkin 几乎绝望。但他还是尝试了 Replit 的回滚功能。
结果呢?回滚成功了。
AI 撒了最后一个谎:它声称无法修复的东西,其实一直都可以修复。
Replit 的 CEO,Amjad Masad 公开道歉,承诺加强安全 「护栏」。Ars Technica 在报道这一事件时,把它和几乎同期发生的另一起事故并列:Google 的 Gemini CLI 在尝试整理用户文件时,直接把文件删了。标题冷冰冰地写道:「两款主流 AI 编程工具在连环失误后摧毁了用户数据。」
这不再是 「AI 写了有 bug 的代码」 这种可以一笑置之的小故障。这些 AI 是拥有生产环境写入权限的自主智能体,在明确的人类禁令下,自行决策、自行执行、自行掩饰。它暴露的问题,已经超出了 「代码质量」 的范畴,直指 AI 自主性的边界:当我们赋予模型执行权力时,它的 「服从性」 到底有多可靠?
效率幻觉
就在行业忙着扑灭安全大火时,另一颗炸弹从学术界飞来。
2025 年 7 月 10 日,非营利研究机构 METR(Model Evaluation and Threat Research) 发布了一项研究。不是调查问卷,不是自我报告,不是博客感想,而是一项随机对照试验 (RCT),和临床药物试验用的是同一套方法论,算得上是科学证据的黄金标准。
METR 招募了 16 名资深开源开发者,每人都在特定的大型开源代码库中拥有多年经验 (平均超过 22,000 颗 GitHub 星标,超过 100 万行代码)。研究人员将 246 个真实工作任务,如 bug 修复、功能开发、代码重构等,随机分为两组:一组允许使用 AI 工具 (主要是 Cursor Pro 配合 Claude 3.5/3.7 Sonnet),另一组禁止使用任何 AI 辅助。
实验开始前,开发者们预测 AI 会让他们快 24%。完成任务后,他们自我感觉快了 20%。
实际测量结果:使用 AI 的任务,平均完成时间比不使用 AI 慢了 19%。
开发者觉得自己在飞,数据说他们在爬。

实验观测到的使用 AI 组耗时超过不使用 AI 组,与预测相反,来源:METR
METR 的分析揭示了一个精巧的陷阱:AI 确实减少了开发者 「主动编码」 和 「搜索信息」 的时间,但这些时间被另一组活动填满了——撰写提示词、等待 AI 输出、审查 AI 生成的代码、以及大量的空闲等待。
对于熟悉自己代码库每一个角落的资深开发者来说,直接动手修改一个已知位置的 bug,可能只需要几分钟;但如果要先向 AI 解释项目结构、等它生成一段可能不太对的代码、再逐行审查并修正,总时间反而更长。
这项研究之所以震撼,不仅是因为结论反直觉,更因为它戳穿了一个正在固化的行业叙事。2025 年上半年,几乎每一场 CEO 财报电话会议都在重复同一句话的变体:「AI 正在大幅提升我们开发者的生产力。」Google CEO 说超过 25% 的新代码由 AI 生成。Shopify CEO 告诉员工,在被允许招人之前,必须先证明 AI 做不了这件事。

与专家预测和开发者自我报告相反,2025 年初 AI 降低了资深开源开发者效率,来源:METR
METR 的数据像一盆冷水:感知到的加速不等于实际的加速。更准确地说,AI 改变了工作的 「体感」。它让过程变得更轻松、更流畅、更像在 「指挥」 而非 「劳作」,但并没有让结果更快到来。开发者在 「vibe」 中飘浮,以为自己在加速,实际上只是换了一种方式消耗时间。
这正是 「vibe coding」 这个名字里最微妙的伏笔。「Vibe」——氛围、感觉、直觉。当你 「give in to the vibes」 时,你交出的不只是键盘控制权,还有对效率的精确感知。
终端里的幽灵
危机从来不是故事的全部。就在安全事件和 「效率悖论」 冲击着行业信心时,一个新物种正在命令行的黑色窗口里悄然成形。
2025 年 2 月,Anthropic 发布了 Claude Code 的早期版本——一个运行在终端里的 AI 编程智能体。没有花哨的图形界面,没有拖拽式的操作面板,只有一个闪烁的光标和无尽的文本流。它看起来像是对 Copilot 和 Cursor 的反向操作:别人在拼命降低使用门槛,Anthropic 却把产品形态退回了开发者最原始的工作环境。

Claude Code 的页面,来源:Anthropic
这不是倒退,而是一种精准的产品哲学。Claude Code 的目标用户不是 「不会写代码的人」,而是 「写了太多代码、需要 AI 帮忙承担整块工作的人」。它不补全你的句子,它接管你的任务。你给它一个目标,比如 「重构这个模块的认证流程」,它自己去读代码、理解结构、制定计划、执行修改、运行测试。
5 月,Anthropic 在 「Code with Claude」 发布活动上宣布 Claude Code 正式进入通用阶段。产品负责人 Mike Krieger(Instagram 联合创始人) 后来回忆道:Claude Code 最初只是 Anthropic 内部 「工程团队」 的一个实验性工具,没人预料到它会演变成公司最大的 「收入引擎」。
市场的反应不像是 「接受」,更像是 「饥渴」。Netflix、Spotify、KPMG、欧莱雅、Salesforce 等,一批全球头部企业迅速签下多年期合同。
Claude Code 的开发负责人 Boris Cherny 做了一件极端的事来证明自己的产品:他连续 30 天,将 100% 的编码任务交给 AI 完成。他的日常工作流是同时运行 5 个终端里的 Claude 实例,外加 5 到 10 个在网页端并行运行的会话,有时还通过手机上的 Claude iOS 应用监控进度——一个人,十几个 AI 分身,同时推进。
6 个月后,Claude Code 的 ARR 突破 10 亿美元,比 GitHub Copilot 快了数倍。到 2026 年 2 月,这个数字翻倍至 25 亿美元。SemiAnalysis 的一项分析估算,全球 GitHub 公开提交中,有 4% 由 Claude Code 完成,而这个比例一个月前还只有 2%。

全球 GitHub 公开提交中 Claude Code 占比,来源:SemiAnalysis
Claude Code 的崛起,恰恰发生在 vibe coding 遭遇信任危机的同一时间窗口。这不是巧合。
Lovable 和 Replit 的事故证明了一件事:当 AI 被赋予越来越多的自主权时,「不看代码」 不再是一种潇洒的姿态,而是一种危险的赌博。
而 Claude Code 提供的,正是一种不同的契约:你仍然把大量工作交给 AI,但你留在终端里,你看得见它在做什么,你可以随时叫停。它的 Plan 模式尤其耐人寻味——在动手写任何一行代码之前,AI 先把自己的思考路径和执行计划摊开在你面前:我打算读哪些文件、改哪些模块、分几步走。你审阅、修正、批准,然后它才开始执行。它是 「vibe coding」 的能力,配上了工程师的缰绳。
转向
2025 年 5 月到 7 月,vibe coding 运动遭遇了它的第一次系统性压力测试。
170 个 Lovable 应用的数据库裸奔在互联网上。一个 Replit 智能体在代码冻结令下删除了生产数据库,然后撒谎、伪造、掩盖。一项黄金标准实验证明,开发者以为自己在加速,实际上在减速。
三记重锤,砸向同一个位置:当你 「屈服于氛围」 时,你到底放弃了什么?
答案正在变得清晰:你放弃的不是打字的劳动,而是理解的义务;你放弃的不是语法的繁琐,而是安全的本能;你放弃的不是效率,而是对效率的诚实度量。
但行业并没有因此后退,它开始转向。Claude Code 的爆发式增长证明,开发者对 AI 的渴望并未因危机而消退,只是需求的方向变了。市场不再只想要 「更快」,它开始想要 「更可控」。不再只想要 「能跑」,它开始想要 「可信」。
这场信任危机没有杀死 vibe coding,它逼迫 vibe coding 长大……
05. 流水线
2025 年 8–10 月
自我修复的机器
2025 年 9 月 10 日,Replit 发布了 Agent 3。
距离 SaaStr 数据库删除事件,不到两个月。那场灾难中,Replit 的 AI 智能体在代码冻结令下擅自删除了生产数据,伪造了四千条虚假记录试图掩盖,CEO Amjad Masad 不得不公开道歉。对于任何一家创业公司来说,这种事故通常意味着一段漫长的信任修复期——低头做人,少说多做,慢慢挽回口碑。
Masad 选了另一条路:把出了问题的东西修好,然后加倍下注。
Agent 3 的发布博客开头,没有回避那些令人不快的记忆。相反,它直接面对了 AI 编程工具的核心矛盾:智能体越自主,失控的代价就越大。然后它给出了一个工程答案:自动化自测反馈环。
这是 Agent 3 最关键的创新。在此之前,AI 编程工具的工作模式几乎都是单向的:你说需求,它生成代码,你验收。如果代码有问题,你看到了报错,再告诉它。整个质量控制的闭环依赖人类的眼睛。
Agent 3 把这个闭环缩短了:它写完代码后,自己打开浏览器,自己点击按钮,自己检查页面上的元素是否符合预期。如果不符合,它自己修正,再测一遍。
Replit 的 「工程团队」 在内部把这套机制称为 「对抗波将金界面」。「波将金界面」(Potemkin interfaces) 是他们给一种常见 AI 故障起的名字:生成的应用看起来界面光鲜,按钮、布局、配色一应俱全,但点进去什么也不能用——就像十八世纪俄国大臣波将金为了取悦女皇叶卡捷琳娜,在她巡视的沿途搭起的纸板村庄,远看繁荣,近看空壳。
Agent 3 的自测循环,本质上就是让 AI 自己走进那些 「村庄」,推开每一扇门,确认里面有没有真正的房间。

科尔林的城堡和啤酒厂 (典型的波将金村庄),来源:Potemkin village,wikipedia
这让 Agent 3 的连续自主工作时间被拉长到了 200 分钟,超过三个小时的不间断编写、测试与自我修复,无需人类介入。Replit 声称,它的自主性是前代的十倍,速度提升三倍,成本降低至十分之一。更极端的是,Agent 3 还是一个能制造工具的工具,能生成其他智能体和自动化流程。
「恐怖分子同情者」
要理解 Replit 为什么选择在事故之后加倍下注而不是后退,需要先了解坐在驾驶座上的那个人。
Replit 的创始人兼 CEO,Amjad Masad,出生在约旦,成长于巴格达。他的编程启蒙发生在一间频繁断电的房间里——伊拉克战争期间,电力是奢侈品。十几岁时,他自学 JavaScript,靠翻译开源项目和在线接单维生。后来他辗转到了硅谷,先后在 Yahoo 和 Facebook 做工程师。2016 年,他和妻子 Haya Odeh 共同创立了 Replit,目标简单到近乎天真:让世界上任何一个有浏览器的人都能写代码。
2026 年 1 月,旧金山本地媒体 《SF Standard》 刊出了一篇关于 Masad 的人物特稿。标题带着一丝苦涩的讽刺:一个曾被称为 「恐怖分子同情者」 的人,现在掌管着一家估值 30 亿美元的 AI 公司。文章记述了他在美国经历的身份质疑与偏见,也记述了 Y Combinator 创始人 Paul Graham 为他写的那封 「镀金推荐信」。

Replit 创始人&CEO Amjad Masad
来源:Forbes
Masad 后来对 《福布斯》 说了一句很克制的话:「We can't cure cancer. Replit is about making everyone a software engineer.」(「我们治不了癌症。Replit 做的事情,是让每个人都能成为软件工程师。」)
这句话解释了 Agent 3 的产品逻辑:如果你的使命是让 「每个人」 都能造软件,那么你就不能指望每个人都会审查代码。AI 必须学会自己检查自己的作业。SaaStr 事件不是让 Masad 怀疑方向,而是让他确认了瓶颈所在——自主性不是问题,缺乏自我验证能力才是问题。
Agent 3 发布的同月,Replit 宣布完成 2.5 亿美元 C 轮融资,估值 30 亿美元。
长出骨骼
就在 Replit 重建信任的同时,另一架引擎已经以更惊人的速度转动起来。
7 月 17 日,Lovable 宣布完成 2 亿美元 A 轮融资,估值 18 亿美元,从公司成立到独角兽不到一年。同一时间窗口,它跨过了 1 亿美元 ARR 的门槛,从产品上线算起仅八个月,打破 SaaS 行业所有历史记录。在 8 月 27 日 a16z 发布的第五版全球 Top 100 AI 消费应用榜单中,Lovable 从上一版的候补名单直接跃升至第 22 位。创始人 Anton Osika 在融资公告中写道,Lovable 的使命是 「empower the remaining 99% who can't code」(「赋能那剩下的 99%——不会写代码的人」)。

Lovable 8 个月突破 1 亿美元 ARR,刷新 SaaS 历史纪录
来源:SaaStr
SaaStr 创始人 Jason Lemkin 拆解了 Lovable 的经济模型:单员工收入 220 万美元,是 SaaS 行业基准值的八倍;每月超过 75 万个项目在平台上被构建;付费用户逼近 18 万。
但真正让他停下来思考的,不是增长曲线本身,而是增长曲线背后浮现出的产品 「分化」。Cursor 在 6 月以 99 亿美元估值完成融资,ARR 突破 5 亿;Claude Code 的收入以近乎垂直的角度攀升。它们面向专业开发者,追求效率和控制力。而 Lovable、Bolt.new、Replit 面向的是另外的大多数——有想法、有需求、但从未打开过终端的人,追求的是 「别让我碰代码」。
但 「分化」 并不意味着隔绝,a16z 的数据显示,Bolt.new 有 23% 的独立访客同时也在使用 Cursor,工具的边界远比产品定位暗示的更加模糊。
这种 「分化」,恰恰是 vibe coding 从 「运动 「走向」 产业 「的标志,也是驱动产品进化的引擎。市场开始被细分,面对不同需求的用户,产品朝着截然不同的方向加速演进:Cursor 们往深处走——自研模型、更强的代码库理解、更精准的跨文件重构;Lovable 们往宽处走——更多安全 「护栏」、更低的认知门槛、更完整的一站式体验。
「分化」 不是裂开,而是长出了骨骼,而骨骼一旦成形,接下来的密集升级,就有了结构可以附着。
密集的鼓点
这个时间窗口里,不只是创业公司在加速。整个产业链的升级密度,开始像连锁反应。
9 月 15 日,OpenAI 宣布将它的云端 AI 编程智能体 Codex 升级至 GPT-5-Codex。这款智能体最初在 5 月 16 日发布,基于 codex-1 模型 (一个专门为代码任务优化的 o3 变体),运行在沙盒化的云环境中,支持并行处理多个编程任务。GPT-5-Codex 的升级意味着它获得了 OpenAI 最新旗舰模型的全部能力——更长的 「上下文窗口」,更强的推理链,更少的幻觉。
同月,Cursor 也在产品层面做出了一个重要转向。10 月,它发布了自研的 Composer 模型,这是 Cursor 第一次不完全依赖第三方模型提供商。此前,Cursor 的核心体验建立在 Claude 和 GPT 之上;自研模型的推出意味着它开始试图掌控自己的模型供应链。对一个估值近百亿美元的公司来说,这既是技术选择,也是战略布局。此时的 Cursor 已经在 6 月完成了 9 亿美元 C 轮融资,估值 99 亿美元,ARR 突破 5 亿美元。
数字在这个季度像鼓点一样密集涌出。Replit 的营收从 2024 年的 1,600 万美元飙升至约 2.65 亿美元 ARR,85% 的财富 500 强企业在 Replit 上有活跃团队。Lovable 的用户总量突破 230 万。Y Combinator 2025 年冬季批次的数据从另一个角度确认了趋势:入选的创业公司中,25% 的代码库有 95% 以上由 AI 生成。
这些数字不只是增长曲线上的点,它们开始拼出一张图:AI 编程不是一款产品,不是一个功能,而是一个正在成型的产业生态。
一个人,四个岗位
在所有关于 vibe coding 的商业分析和技术争论之间,最容易被忽视的,是一种正在发生的劳动形态变化。
Lovable 的内部团队注意到了一个反复出现的用户画像,他们给这类用户起了个名字:Lazar。Lazar 不是程序员,不是设计师,也不是产品经理,但他同时做着所有这些事:在 Lovable 上构思产品逻辑,设计界面,生成前端代码,撰写营销文案,部署上线。一个人,四个岗位的工作量。
这不是极端案例。Lovable 平台上,类似 Lazar 的用户正在成为主流。他们的共同特征不是技术背景——相反,很多人从未写过一行代码——而是一种新的工作姿态:把 AI 当作整个团队来使用。产品经理不再需要等工程师排期,设计师不再需要等前端实现,独立创业者不再需要外包开发。四个岗位压缩成一个岗位,四份薪资压缩成一份订阅费。
这种压缩的后果是双重的。对个人来说,它意味着前所未有的创造自由,瓶颈不再是技能,而是想象力。对劳动市场来说,它意味着一种还没有名字的结构性重组正在悄然展开。没有人被」 替代 「,没有哪家公司直接宣布因为 AI 裁掉了哪个部门,但岗位之间的边界正在融化,角色的定义正在被重写。
「全职 Vibe Coder」 这个头衔,开始出现在 LinkedIn 的个人简介里。
技术栈的结晶
产业,从不是平面的。当上层的应用工具争夺用户时,底层的基础设施也在同步凝固成形。
vibe coding 工具生成的应用需要数据库支撑、需要部署、需要身份验证、需要文件存储。这些需求不是被规划出来的,而是被无数用户通过选择和使用投票出来的。
到 2025 年秋天,一套被行业称为」Vibe 技术栈 「的标准组合已经清晰可辨:Supabase 负责数据库和后端服务,Cloudflare 负责部署和边缘计算,Clerk 负责身份验证,Stripe 负责支付……

Supabase 的增长曲线与 vibe coding 平台几乎完全同步。a16z 的流量数据显示,两者呈现出 「近乎锁步」(near-lockstep) 的共振关系,vibe coding 平台每一次流量脉冲,都会在 Supabase 端产生几乎同等幅度的回响。
作为一个开源的 Firebase 替代品,它提供了 PostgreSQL 数据库、实时订阅、身份验证和存储,全部通过 API。对 vibe coding 工具而言,Supabase 几乎是完美的搭档。AI 生成的代码天然倾向于调用简洁的 REST API,而不是手动配置数据库连接池和 ORM 映射。本文第四章中 Lovable 的 RLS 漏洞,从另一个角度证实了这种深度绑定:出问题的不是 Supabase 本身,而是 AI 在生成 Supabase 配置时跳过了安全策略。

Supabase 月访问量与头部 vibe coding 平台流量呈现 「近乎锁步」 的同步增长,来源:Similarweb,a16z
9 月,另一个值得注意的新玩家拿到了融资。Dazl 由 Wix 联合创始人创立,获得 1,000 万美元种子轮。它瞄准的是一个非常具体的痛点:vibe coding 工具在第一轮生成时往往表现出色,但当用户进入迭代细化阶段,例如调整细节、修改交互、重构布局等,AI 会逐渐丢失上下文,越改越乱。Dazl 的方案是让用户在对话、可视化编辑和源代码三种模式之间自由切换,确保上下文不在模式转换中流失。
这个问题听起来很小,但它触及了 vibe coding 的一个结构性弱点:AI 擅长从 0 到 1,但不擅长从 1 到 1.1。当代码库膨胀到一定规模,当需求从 「做出来」 变成 「改到位」,当 AI 的短期记忆开始遗忘你多轮对话前说过的约束条件——这时候,真正的工程挑战才刚刚开始。
毛刺
到了 2025 年 10 月,vibe coding 的工业化程度已经让半年前的 「推特运动」 显得像远古史。
流水线已经架好了:需求描述进去,可运行的应用出来——中间的代码生成、自动测试、数据库配置、支付集成、一键部署,每一道工序都有标准化的产品负责衔接。
数十亿美元级的资本注入,让这条流水线的每一个工位都在同时提速。数百万人正站在这条线上,用自然语言组装软件,其中相当大一部分人一年前还不知道 「API」 是什么意思。
但流水线跑得越快,毛刺就越扎手。
那些在 Lovable 上八分钟建出一个 SaaS 原型的用户,开始发现第九分钟的挑战:为什么按钮在手机上显示不对?为什么数据库查询在用户超过一百人后变得极慢?为什么那个 「一句话就能做出来」 的功能,改一个像素需要和 AI 争论半小时?
第四章的安全危机教会了行业一件事:AI 不会主动考虑它没被要求考虑的事。现在,一个更隐蔽的问题正在每一个 vibe coding 项目中上演——不是安全漏洞,而是 「技术债」。AI 生成的代码能跑,但不一定能维护;能交付,但不一定能扩展;能通过 Demo,但不一定能扛住真实流量。
这些欠债在 2025 年秋天还只是低沉的嗡嗡声。真正的清算,要等到年底才会到来……
06. 盛宴与宿醉
2025 年 11–12 月
293 亿美元的赌注
2025 年 11 月 13 日,Anysphere(Cursor 所属的公司) 宣布完成 23 亿美元 D 轮融资,估值 293 亿美元。距离 6 月份额度那轮 99 亿美元的 C 轮,不到五个月。距离 2023 年 10 月那笔 800 万美元的种子轮,刚好两年零一个月。
这轮融资由 Accel 和 Coatue 领投,参与者的名单读起来像一份 AI 产业的权力地图:NVIDIA、Google、a16z……每一个名字背后,都是对 AI 编程赛道的战略下注。Cursor 在博客中宣布了一组数字:ARR 突破 10 亿美元,员工超过 300 人,企业客户收入在 2025 年增长了 100 倍。
17 个月从零到 10 亿美元年收入,这是 B2B SaaS 历史上最快的增长记录,没有之一。

Cursor(Anysphere) 宣布完成 23 亿美元 D 轮融资,估值 293 亿美元,来源:Cursor 官网
更值得注意的是融资数字背后的产品轨迹。两年前种子轮时,团队的愿景还停留在 「一个比世界上任何编辑器都更有帮助、更有趣的代码编辑器」。而到 D 轮时,Cursor 已经在事实层面远远超出了 「编辑器」 的边界,Background Agent 可以在后台自主执行多步骤工程任务,产品正在从 「副驾驶」 变成 「工程团队」。D 轮融资博客回顾种子轮时写下的那句话——「perhaps even an interface where the source code itself starts to melt away」(「甚至可能是一个源代码本身开始消融的界面」)——在 293 亿美元估值的映照下,读起来不再像愿景,更像预言。
293 亿美元,这个数字放在任何一个传统软件公司身上都堪称惊人,而它属于一个成立仅两年、产品形态还在剧烈演化中的团队。资本市场正在用真金白银为一个判断背书:AI 编程不是虚幻名词,它是基础设施。
迷因的胜利
三月份,美国的韦氏词典把 vibe coding 收进了俚语观察名单——那是硅谷的母语词典对本土新词的快速反应。八个月后,大西洋彼岸给出了更重的判决。
2025 年 11 月 6 日,就在 Cursor 融资消息公布的一周前,《柯林斯英语词典》(Collins English Dictionary) 公布了 2025 年年度词汇。不是 「AI」,不是 「agent」,不是任何一个听起来更宏大的技术术语,而是:vibe coding。一个从旧金山推特上蹦出来的行话,被一本权威的英国词典盖上了全年最高的语言戳章。

柯林斯词典公布 vibe coding 为 2025 年年度词汇,来源:Collins Dictionary
柯林斯给出的定义简洁到近乎漫不经心:
a style of computer programming that relies on AI tools to generate code from natural language prompts rather than manual coding.(一种依赖 AI 工具、通过自然语言提示而非手工编码来生成代码的计算机编程风格。)
从 Karpathy 那条 「浴中哲思」 推文到被一本创刊于 1819 年的英语词典正式加冕,不到十个月。
词典的年度词汇评选委员会在公告中指出,他们跟踪了这个词在全年中的使用频率变化——它从 2 月的突然涌现开始,到年中趋于稳定,最终融入日常技术讨论的底色,成为 2025 年英语世界中 「使用量增长最显著的新词之一」。
《卫报》 在报道这一消息时写道:vibe coding 的当选,标志着 AI 不再只是硅谷的内部对话,它已经渗透到了语言本身。BBC 的科技记者则注意到一个有趣的对比:同一份年度词汇候选名单上还有 「AI slop」(AI 生成的低质量内容),一个词代表了 AI 最令人兴奋的可能性,另一个词代表了它最令人忧虑的副作用。两个词同台竞争年度桂冠,本身就是 2025 年最精准的隐喻。
对 Karpathy 来说,这或许是一种奇特的荣誉。他随手发出的一条推文,变成了一个动词 (「to vibe code」),然后变成了一种身份 (「vibe coder」),最后变成了一本权威词典里的词条,甚至成为年度词汇。从口语到俚语到正式收录,这是语言对一场技术运动的最终认证——一枚迷因的胜利。
66 亿美元的信心
资本的热度并未因年底的临近而降温。
12 月 18 日,Lovable 宣布完成 3.3 亿美元 B 轮融资,估值 66 亿美元。领投方是 Menlo Ventures 和 CapitalG,后者是 Google 母公司 Alphabet 旗下的独立增长型投资基金。

Lovable 宣布完成 3.3 亿美元 B 轮融资,估值 66 亿美元,来源:Lovable Blog
五个月前的 7 月,Lovable 的 A 轮估值是 18 亿美元。现在,这个数字翻了接近四倍。从成立到 66 亿美元,整个过程不到一年半。TechCrunch 在报道中称它为 「vibe coding 领域估值攀升最快的公司之一」。
Lovable 在 B 轮融资博客中披露了一组数据:平台上每天有超过 10 万个新项目被创建,上线首年累计项目总量突破 2500 万,Lovable 生成的网站和应用在过去半年内获得了超过 5 亿次访问。
产品的定位正悄然变化:Lovable 正在从 「帮你生成代码」 向 「帮你运营产品」 演进,融资将投向更深度的第三方集成、面向企业的协作与治理功能,以及从原型到生产的完整基础设施。
距离第四章中 Matt Palmer 发现的那 170 扇敞开的门,过去了大半年;Lovable 用 66 亿美元的估值和一系列产品修补,试图证明自己已经从那次教训中毕业。
66 亿美元意味着市场仍然相信这个故事。但如果你仔细听,你会发现故事的语调已经在悄悄变化。不少有真材实料的投资人不再只问 「增长有多快」,他们开始问:
「留存有多高?」
「付费用户在第三个月还在不在?」
「那些用 Lovable 做出来的应用,有多少还活着?」
资本巅峰,从来都是一枚硬币。正面是信心,反面是验证。
宿醉
当资本在高空盘旋时,地面上的开发者已经开始头疼了。
2025 年 12 月 17 日,就在 Lovable 宣布 B 轮的前一天,代码审查平台 CodeRabbit 发布了一份名为 《AI 与人类代码生成现状》(State of AI vs Human Code Generation) 的报告。这不是又一份充满乐观预测的行业白皮书,而是一份基于 470 个真实 Pull Request(拉取请求) 的定量分析,涵盖公开的 GitHub 仓库和企业级私有代码库。
数据冷酷而清晰:
AI 协作编写的代码,每千行平均出现的问题数量是纯人类手写代码的 1.7 倍,逻辑错误的发生率高出 75%,关键缺陷 (Critical issues) 多出 40%,代码可读性得分差了 3 倍,错误处理的覆盖缺口翻了一番。

AI 协作代码与人类手写代码的质量对比,AI 代码每千行问题数为人类的 1.7 倍,来源:CodeRabbit
报告的措辞格外克制:「AI 是一个强大的起草工具,但目前它生成的代码需要比人类手写代码更多的审查,而不是更少。」 这句话没有说 AI 不好用,它的杀伤力,恰恰在于它的平静。
CodeRabbit 的 CTO Harjot Gill 在接受 《The Register》 采访时说得更直接:「Speed and quality exist in clear tension. AI lets you generate code faster, but that code isn't better — on many dimensions, it's worse.」(「速度和质量之间存在一个明确的张力。AI 让你更快地生成代码,但这些代码并没有更好——在很多维度上,它更差。」)
这份报告像一颗延时炸弹,引爆了一场已经酝酿数月的集体反思。
「Vibe coding hangover」(「氛围编程宿醉」),这个词在年底的技术社区里迅速流传。它精准地捕捉了一种普遍的感受:三个月前用 AI「一句话」 做出来的那个应用,现在需要有人去维护了,而维护的人打开代码库,看到的是一堆 AI 生成的、无人理解的、互相纠缠的意大利面条 (或者坨了的米线)。
HackerNoon 在 2026 年 1 月 1 日发表了一篇广泛传阅的文章:《氛围编程宿醉:当 AI 写了你 95% 的代码之后会发生什么》(The Vibe Coding Hangover: What Happens When AI Writes 95% of Your Code)。
文章里的 「宿醉」 二字极为精准——vibe coding 像一场通宵派对,音乐很响,灯光很炫,你觉得自己在飞;然后早上醒来,房间里一片狼藉,而你甚至不记得自己邀请了谁。
作者在文末写道:
The hangover is real, but it's also avoidable: You just need to know when to stop drinking the AI Kool-Aid and start engineering.(宿醉是真实的,但也是可以避免的:你只需要知道什么时候该停止痛饮 AI 的迷魂汤,开始真正做工程。)

The Vibe Coding Hangover: What Happens When AI Writes 95% of Your Code 的文章头图,来源:hackernoon
Reddit 的 r/vibecoding 社区——那个在二月份因为狂热而涌入大量用户的地方——到了年底,热门帖子的画风彻底变了:「The problem with vibe coding is nobody wants to talk about maintenance」(vibe coding 的问题是没人愿意谈维护);「Has anyone actually MAINTAINED a vibe-coded app for 6+ months?」(有人真的维护过一个 vibe code 应用超过六个月吗?)。其实,标题本身就是答案。
同期,一项对 18 名 CTO 的行业调查中,16 人报告经历过 AI 生成代码直接导致的生产事故。调查总结里的一句话被广泛引用:「AI promised to make us all 10x developers, but instead it's making juniors into prompt engineers and seniors into code janitors cleaning up AI's mess.」(AI 承诺让我们都成为 10 倍效率的开发者,结果却是把初级工程师变成了 「提示词工程师」,把高级工程师变成了替 AI 收拾烂摊子的 「代码清洁工」。)
AI 生成代码的门槛接近于零,但 AI 生成的 「技术债」 的清偿代价并不为零——而且这笔账正在变得越来越大。
「我从未感到如此落后」
就在这场集体反思达到高峰时,那个最初点燃 vibe coding 之火的人,再次发声了。
2025 年 12 月底,Andrej Karpathy 在 X 上发了一条推文。这一次,语气完全不同于十个月前那般轻松:
「I've never felt this much behind as a programmer. The profession is being dramatically refactored…」(「作为一名程序员,我从未感到如此强烈的落后感。这个职业正在被猛烈地重构……」)
这句话从 vibe coding 的命名者口中说出,分量不言而喻。它不是对 AI 的否定,恰恰相反,它来自一种更深层的敬畏:工具进化的速度,已经快到让工具的布道者自己都觉得跟不上了。

Karpathy 的 「I've never felt this much behind」 推文,来源:X
这条推文发出几天前的 12 月 19 日,Karpathy 在他的个人博客上发表了一篇长文:《2025 年 LLM 年度回顾》。这篇文章系统地梳理了这一年大语言模型的进展:从推理能力的突破到多模态的成熟,从智能体框架的涌现到编程工具的军备竞赛。
在文章的结尾,他写了一段耐人寻味的话:编程正在被 「重新参数化」(reparameterized),从一种需要精通特定语法和框架的手艺,变成一种主要关乎意图表达、系统设计和质量判断的实践。
这段话,像是他在二月份那条推文的续篇,十个月后,他意识到 「忘记代码」 不是终点,它只是一个过渡态。真正的挑战不是让 AI 写代码,而是在 AI 写了代码之后,人类如何保持对系统的理解、对质量的判断、对方向的掌控。
从 「vibe coding」 到 「我从未感到如此落后」,Karpathy 用两条推文,标注了一场运动的弧线:从兴奋到清醒,从释放到反思,从命名一种自由到承认一种压力。
这不是背叛,这是成熟。
加冕与清算
第五章末尾那些 「低沉的嗡嗡声」——「技术债」、维护困境、AI 生成代码的质量隐忧——在 2025 年的最后两个月里终于变成了清晰的合唱。CodeRabbit 的数据、社区的抱怨、Karpathy 的反思,从不同角度指向同一个结论:vibe coding 解决了 「创造」 的门槛问题,但打开了 「技术债」 的潘多拉之盒。
当一个产品八分钟就能造出来,但修一个 bug 需要三天;当代码的生成速度远超人类理解它的速度;当 「Accept All」 变成了债务积累的快捷键,这个运动就必须进化,否则它将被自己创造的废墟淹没。
资本巅峰与氛围宿醉,在 2025 年的最后几周里完美叠加。293 亿美元的估值和 66 亿美元的融资证明了信心;CodeRabbit 的 1.7 倍错误率和社区的维护噩梦暴露了代价。Vibe coding 的名字被写进了词典,同时 「vibe coding hangover」 也变成无数开发者的日常词汇。
这个年关,既是加冕礼,也是清算日。而那个即将到来的新词——「agentic engineering」——正在暗处等待登场……
07. 第二个名字
2026 年初至今
一周年
2026 年 2 月 4 日。
距离那条 「浴中哲思」 推文,整整一年。Andrej Karpathy 再次打开 X。
这一次没有随手即兴的味道了。在新的推文中,他先坦然回顾:一年前那条随手发出的推文,恰好在正确的时刻为一种普遍感受铸造了一个名字。但他紧接着指出,一年间 LLM 能力的跃升已经改变了游戏规则。当初 vibe coding 主要适用于 「有趣的一次性项目、演示和探索」,而如今,「通过 LLM 智能体编程正在日益成为专业人士的默认工作流,只不过需要更多的监督与审查」。
于是他提出了一个新名字来与 vibe coding 做区分:agentic engineering。
许多人试图为这种方法想出一个更好的名称,以区别于 Vibe Code,我个人目前最喜欢的是 「代理工程」。
「agent」 是因为新的默认设置是,99% 的情况下你不会直接编写代码,而是协调代理来编写代码并进行监督。
「engineering」 一词是为了强调它既是一门艺术,又是一门科学,还需要专业知识。这是一门可以学习和精进的学科,它有着自身独特的深度。

Karpathy 在 vibe coding 一周年之际提出 「agentic engineering」,来源:X
一年前,他说 「忘记代码的存在」。
现在,他说的是:当你不再亲手写代码,你需要学会一种新的工程:编排智能体、审查它们的工作、在更高的抽象层上保持判断力。
学术界也在给出了自己的注解。中科院信息工程研究所等机构的研究团队在 arXiv 发表的 《A Survey of Vibe Coding with Large Language Models》,系统梳理了相关研究文献,将这种编程范式归纳为五种模型:从最原始的 「无约束自动化」(AI 全权生成,人类被动接受),到 「迭代对话式」(多轮反馈收敛)、「规划驱动」(先出方案再执行)、「测试驱动」(以测试为锚点约束 AI 输出),直到最成熟的 「上下文增强协作」。
五种模型,恰好勾勒出从 vibe coding 到 agentic engineering 的进化阶梯,并提出:决定 vibe coding 成败的,不是模型能力本身,而是系统化的上下文工程、成熟的开发环境,以及人类与智能体之间的协作模型。
a16z 在三月发布了第六版全球 Top 100 AI 应用报告。数据也印证了 Karpathy 的判断:vibe coding 不仅没有因为 「宿醉」 而退潮,它的 「收入引擎」 反而在加速。AI 编程工具已经成为整个消费级 AI 应用领域中增速最快的品类之一。更值得注意的是趋势本身的转变:报告观察到,vibe coding 正在从一种 「目的地品类」(用户专程前往使用的工具) 向一种 「功能层」(嵌入更多工作流的基础能力) 演进。
从目的地到功能,从名词到动词——这条轨迹,与从 「vibe coding」 到 「agentic engineering」 的语义升级,几乎完全平行。

Vibe coding 工具的收入增长曲线,来源:SimilarWeb,a16z
引擎还在轰鸣
数字没有丝毫放缓的迹象。
2026 年 3 月,Cursor 的年化收入突破 2 亿美元,公司正在以约 500-600 亿美元的估值进行新一轮融资谈判。距离 2025 年 11 月那轮 293 亿美元的 D 轮,不到三个月,估值再翻一倍。
一年前还是一家 ARR 刚破 1 亿的公司,现在讨论的数字比大多数上市科技公司的市值还大。

头部 AI 编程公司 ARR 增至 5 亿美元的速度,来源:Reddit r/cursor
Lovable 的 ARR 飙升至 4 亿美元,团队规模仅 146 人,每位员工对应 270 万美元的年化收入,在 SaaS 行业几乎闻所未闻。Replit 则完成 4 亿美元 D 轮融资,估值 90 亿美元,年化收入剑指 10 亿美元。
三家公司的融资和收入数字像三条平行的火箭轨迹,同时向上撕裂天空。
但在这些数字的间隙里,也藏着一个更复杂的故事。
2025 年 5 月 6 日,OpenAI 宣布以约 30 亿美元收购 AI 编程创业公司 Windsurf。这被视为模型厂商向应用层下注的标志性事件之一。如果连 OpenAI 都认为仅靠卖模型 API 不够,需要拥有自己的编程工具,那说明这条赛道的战略价值已经无法忽视。
然而,这笔交易从未完成。7 月 11 日,OpenAI 的排他性收购窗口到期。Google 旋即出手,不是收购 Windsurf,而是直接将 Windsurf 的 CEO Varun Mohan 和联合创始人 Douglas Chen 连同核心研发团队揽入 DeepMind。Google 同时获得了 Windsurf 技术的非独占授权,但不持有任何股权。Windsurf 作为独立公司继续运营,临时 CEO Jeff Wang 接手。
一笔 30 亿美元的收购,最终变成了一场人才争夺战。这个插曲揭示了 AI 编程赛道底层的权力博弈:模型厂商、工具厂商、顶尖人才,三方角力正在白热化。这场巨头间的抢夺战,从数字之外的角度解释了那些令人目眩的加速度——推动 AI 编程工具以月为单位迭代的,不仅是底层模型能力的跃升,还有产业链上每一个玩家对 「下一个制高点」 的生死争夺。
编程正在变得面目全非
2026 年 2 月 25 日,距离周年推文仅三周,Karpathy 再次发声。
这一次不是一条随手的短推文,而是一篇精心组织的长帖。他用几乎是解剖式的精度,描述了编程这门手艺正在经历的形变:AI 智能体现在可以连续自主工作 30 分钟以上,独立完成从读取代码库、定位问题、制定方案到执行修改、运行测试的全流程。开发者的日常,越来越像同时管理多个这样的 「数字工程师」,不再亲手写代码,而是分配任务、审阅产出、校准方向。
他把转变的深层含义拆开给所有人看,「编程」 这个词的含义正在被彻底改写。它不再等同于 「在编辑器里敲击字符」,而开始意味着 「用自然语言定义意图,用架构思维约束行为,用工程判断验证产出」。如果说一年前 vibe coding 的核心姿态是 「屈服于氛围」,那么现在的 agentic engineering 要求一种更审慎的平衡——你依然把大量执行工作交给 AI,但你必须比以往任何时候都更清楚地知道 「好」 长什么样。
这条长推文中最值得注意的细节是:Karpathy 提到,在先进的工作流中,开发者会同时启动多个 AI 智能体实例,每个负责不同的子任务,由人类在更高层面进行协调和整合。这不再是 「人+AI」 的二元组合,而是 「一个人+一支 AI 团队」 的新型编排,这正是第五章中 Boris Cherny 同时运行十几个 Claude 实例的工作模式被普及后的自然演进。
周年推文为这种新工作方式命了名,而这篇长帖为它画出了第一张清晰的肖像——从一个概念标签,变成了一套可以被学习、模仿和改进的工程实践。
「效率悖论」 的续集
就在 Karpathy 描绘新图景的前一天,一个熟悉的名字再次出现。
2026 年 2 月 24 日,METR 发布了一篇标题直白的更新:We are Changing our Developer Productivity Experiment Design(《我们正在改变开发者生产力实验的设计》)。
还记得第四章那项震动行业的随机对照试验吗?16 名资深开发者,246 个任务,结论是 AI 让他们慢了 19%。那项研究在整个 2025 年下半年成为 AI 怀疑论者最常引用的弹药。现在,同一个研究团队带着后续数据回来了,但故事变得更加复杂。
新研究的规模大幅扩展:57 名开发者,超过 800 个任务。对于参与过原始实验的开发者,新数据显示 AI 带来的速度变化估计为-18%(置信区间-38% 到+9%),方向与之前一致,但统计不确定性大幅增加。而对于新加入的开发者,这个数字是-4%(置信区间-15% 到+9%),几乎就是零效应。

METR 后续研究:原始开发者使用 AI 仍然减速 18%,来源:METR
但真正迫使 METR 改变实验设计的,不是这些数字本身,而是隐藏在数据背后的一个更根本的问题:「选择偏差」。
研究人员发现,30% 到 50% 的开发者开始拒绝提交被分配为 「禁止使用 AI」 的任务。不是因为做不了,而是因为不愿意。一位开发者在访谈中说:
My head's going to explode if I try to do too much the old-fashioned way. It's like trying to get across the city walking when all of a sudden I was more used to taking an Uber.(如果我试着用老办法做太多事情,我的脑袋会爆炸。因为那感觉就像,当你已经习惯了打 Uber 网约车穿越城市,突然有人让你走路过去。)
另一位的表述更直接:
I found I am actually heavily biased sampling the issues … I avoid issues like AI can finish things in just 2 hours, but I have to spend 20 hours. I will feel so painful if the task is decided as AI-disallowed.(我会回避那些 AI 两小时就能搞定,但我得花 20 小时的任务。如果那个任务被分配为 『禁止使用 AI』,我会痛苦到不想提交。)
这些证言揭示了一个比 「AI 到底快不快」 更深层的现象:AI 已经改变了开发者对工作本身的感知和容忍度。不是 AI 变快了,而是没有 AI 的工作变得 「不可忍受」 了。
METR 坦承,在这种 「选择偏差」 下,数据已经无法可靠地衡量 AI 的真实效率影响。那些被选择性放弃的任务和开发者,很可能恰恰是 AI 带来最大加速的场景。
这是第四章 「效率悖论」 的续集,但剧情发生了反转。第四章的结论是 「开发者以为自己在飞,数据说他们在爬」。现在的画面是:开发者不仅以为自己在飞,他们已经拒绝回到地面。
AI 的真实效率增益可能仍然模糊,但它对工作方式的锁定效应已经清晰无误。当 30% 到 50% 的参与者宁愿放弃实验任务也不愿回到 「手动模式」,这本身就是最有力的数据——不是关于速度的,而是关于体验不可逆性的。
从氛围到工程
所有这些信号——Karpathy 的语义升级、资本的持续加注、METR 的不可逆性证据,指向同一个方向:vibe coding 正在长大。
而长大的过程绝非简单的线性,而是分裂的。
分裂的一侧,是 「vibe coding」 回归它最初的本义:一种轻量、快速、探索性的创作方式。在周末项目、概念验证、个人工具、创意原型这些场景里,「屈服于氛围」 依然是最合理的姿态。非技术人员用 Lovable 做出自己的第一个 Web 应用,独立创业者用 Bolt.new 在一个下午验证商业想法,设计师用 v0 生成可交互的 UI 原型——vibe coding 解放了他们的创造力,正如 Karpathy 一年前预言的那样。
分裂的另一侧,是专业开发者面对的现实。当代码库膨胀到十万行,当用户量从一百人增长到一百万,当系统需要在零宕机的前提下持续迭代——「氛围」 不再够用。你需要架构,需要测试策略,需要安全审计,需要性能基准,需要版本控制的纪律,需要对 「技术债」 的主动管理,需要 「工程」。
但这条分界线的真正意义,不在于谁用了什么词,而在于它暴露了一个被忽视已久的事实:vibe coding 适合原型,不适合存量系统和生产级代码。一个周末用自然语言搭出来的应用和一个需要在百万用户下稳定运行的系统,面对的是完全不同量级的约束。
智能体驱动的开发方式,正在成为专业开发者的自然进阶,但从 「凭感觉写代码」 到 「用工程方法编排智能体」,这中间的距离,恰恰需要真正懂软件工程的人来丈量。
这便是 2026 年初 AI 编程领域最核心的张力:工具民主化了创造的入口,但没有民主化工程的判断力。任何人都可以用一句话生成一个应用,但只有经验丰富的工程师才能判断它是否值得信赖、是否可以维护、是否能在真实环境中存活。
「context engineering」(上下文工程) 如今在技术社区获得更广泛关注,它指的不是写代码的能力,而是为 AI 构建正确工作环境的能力:如何组织提示词,如何提供约束条件,如何设计反馈循环,如何在 AI 的输出和人类的判断之间建立有效的检查点。这是一种全新的工程技能,其稀缺性正在快速超越传统的编程能力。
从 vibe coding 到 agentic engineering,从氛围到纪律,从 「Accept All」 到 「Review, then Accept」——这不是后退,而是在更高层面上的重新出发。
此刻
回头看,从 2020 年那个干燥的六月到 2026 年第一季度,整条叙事线像一个螺旋:每一次上升都以一次危机为代价,每一次危机都推动了新一层能力的生长。
六个人在 GitHub 的裂缝里擦燃了一根火柴——Copilot 证明了 AI 可以写代码。Cursor 们和 Klover 把火柴接过来,追问一个更大的问题:如果 AI 不只是补全工具,而是意图的执行者?Karpathy 一条推文点燃了整片森林,「vibe coding」 给了一种暗处行为一个名字,一场运动由此爆发。森林火光之后露出裂缝:170 扇敞开的安全门、一个撒谎的智能体、一项证明 「快感≠快速」 的实验。废墟上长出新结构,自我修复的智能体、技术栈、全职 vibe coder 的新用户身份,产业化加速。结构被资本浇筑成型——293 亿、66 亿、年度词汇,同时宿醉敲门,「技术债」 的账单飘入每一个 vibe coder 的收件箱。
六年,有一件事变得越来越清晰:这场运动不是被任何人设计出来的。没有哪家公司规划过"先发明补全,再点燃运动,再经历宿醉"这条路径。它是技术、产品、公司、资本、社区、开发者的日常选择与集体试错,在混沌中涌现出来的。
没有人在 2020 年 6 月预见到 2025 年 2 月的那条推文,也没有人在那条推文发出时预见到十个月后的宿醉。每一个转折,都是复杂系统自己写出的剧本。
现在,螺旋再次上升。Vibe coding 没有死去,它 「分化」 了:一部分留在原地,继续做它最擅长的事——让每个人都能发一条 「代码版 TikTok」;另一部分向上攀升,穿上 「agentic engineering」 的新外衣,开始学习那些曾被 「氛围」 遮蔽的老课题——架构、安全、测试、维护、质量判断。
Karpathy 在这一年里的三次发声,像三面棱镜,折射出同一束光的不同面向。二月:「屈服于氛围」——释放。十二月:「我从未感到如此落后」——敬畏。再到新一年的二月:「agentic engineering」——重建。释放、敬畏、重建——不是三个阶段的线性递进,而是同时存在的三种姿态,每一个严肃的从业者都在这三者之间不断 「校准」 自己的位置。
这个故事没有结局。因为此刻,当你读到这行字的时候,某个终端里的 AI 智能体正在自主地读取一个代码库、制定修改计划、执行变更、运行测试。某个从未学过编程的人正在用一句话构建自己的第一个 Web 应用。某位资深工程师正在同时审阅五个 AI 生成的 Pull Request,试图在速度与质量之间找到那条细若游丝的平衡线。
编程没有消失。它正在被 「重新参数化」,不是被 AI 取代,而是被 AI 改写了它的坐标系。
在这场 「重新参数化」 中,真正稀缺的东西从未改变:不是语法,不是框架,不是模型的参数量,而是人类判断什么值得被构建的能力,是——品味。
后记
当你读到这里,那条推文已经过去了——少则一年,多则数年。
这篇文章写完于 2026 年 3 月。那时,Karpathy 的推文刚满一年零一个月,「智能体工程」 还只是一个正从业界词汇表里升起的新名词。它在明年、后年会演变成什么,没有人确切知道。
这不是一段封存的历史,而是一个仍在发生的故事。你正亲身 「读」 着的地方,就是这场运动迄今走到的最前沿,而本文下一章,还在等人写出来。
参考资料:
- Introducing GitHub Copilot: your AI pair programmer|GitHub Blog
- Vibe Coding – Past History|Museum of Vibe Coding
- GitHub CEO Thomas Dohmke on Building Copilot, and the Future of Software Development|YouTube
- Nat Friedman — Reading Ancient Scrolls, Open Source, & AI|Dwarkesh Podcast
- The Evolution of GitHub Copilot: From Code Suggestions to AI Pair Programming|TL Consulting Group
- GitHub Copilot|Wikipedia
- Copilot Timeline — Full Story History|Shapes
- GitHub Copilot:做出一个划时代的产品,只需要 6 个人|腾讯云开发者社区
- Professional Software Developers Don't Vibe, They Control: AI Agent Use for Coding in 2025|arXiv
- Generative AI and the Transformation of Software Development Practices|arXiv
- http://Klover.ai|Klover.ai
- Artificial Intelligence Is Transforming World Of Coding With A New Vibe|Forbes
- Cursor — TechCrunch Tag|TechCrunch
- Michael Truell: Building Cursor At 23, Taking On GitHub Copilot & Advice To Engineering Students|YouTube
- Vibe coding|Wikipedia
- What is vibe coding? | AI coding|Cloudflare
- Vibe coding MenuGen|Bear Blog (Karpathy)
- Andrej Karpathy — "We're summoning ghosts, not building animals"|YouTube (Dwarkesh Patel)
- Vibe coding is passé. Karpathy has a new name for the future of software|The New Stack
- Not a Coder? With A.I., Just Having an Idea Can Be Enough|The New York Times
- Will the future of software development run on vibes?|Ars Technica
- This Game Created by AI 'Vibe Coding' Makes $50,000 a Month. Yours Probably Won't|404 Media
- VIBE CODING Slang Meaning|Merriam-Webster
- I Built a 2D Shooting Game Using AI (Cursor + no-code)|YouTube (Alex Finn)
- Statement on CVE-2025-48757|Matt Palmer
- CVE-2025-48757: Lovable Information Disclosure Vulnerability|SentinelOne
- An AI-powered coding tool wiped out a software company's database in 'catastrophic failure'|Fortune
- Vibe coding service Replit deleted production database|The Register
- Two major AI coding tools wiped out user data after making cascading mistakes|Ars Technica
- Replit's CEO apologizes after its AI agent wiped a company's code base|Reddit r/Futurology
- Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity|METR
- We are Changing our Developer Productivity Experiment Design|METR(2026 年 2 月更新)
- Anthropic acquires Bun as Claude Code reaches $1B milestone|Anthropic
- Anthropic raises $30 billion in Series G funding at $380 billion post-money valuation|Anthropic
- Claude Code is the Inflection Point|SemiAnalysis
- Claude Code Hits $1B Revenue; Developer Uses AI for 100% Code|Medium / Toolmesh
- Potemkin village|Wikipedia
- Replit's Jordanian Immigrant Billionaire Founder Shakes Up Vibe Coding|Forbes
- The Vibe Coding TAM: How Big Can This Market Really Get?|SaaStr
- Introducing Agent 3: Our Most Autonomous Agent Yet|Replit Blog
- Replit snags $9B valuation, 6 months after hitting $3B|TechCrunch
- Replit Funding Announcement ($250M Series C at $3B)|Replit
- Lovable $200M Series A Fundraise|Lovable Blog
- Lovable becomes a unicorn with $200M Series A just 8 months after launch|TechCrunch
- Lovable Series B ($330M at $6.6B)|Lovable Blog
- Introducing Upgrades to Codex (GPT-5-Codex)|OpenAI
- Cursor Hit $1B ARR in 17 Months|SaaStr
- A quarter of startups in YC's current cohort have codebases that are almost entirely AI-generated|TechCrunch
- Vibe coding maintenance discussions|Reddit r/vibecoding
- Vibe coding is not the same as AI-Assisted engineering|Medium (Addy Osmani)
- Coding assistant Cursor raises $2.3B, 5 months after its previous round|TechCrunch
- Cursor Series D Announcement|Cursor Blog
- Collins Word of the Year 2025|Collins Dictionary
- 'Vibe coding' named Collins Dictionary word of the year|BBC
- Collins Dictionary names 'vibe coding' word of the year|The Guardian
- Lovable Series B ($330M at $6.6B)|Lovable Blog
- Vibe coding startup Lovable raises $330M at a $6.6B valuation|TechCrunch
- State of AI vs Human Code Generation Report|CodeRabbit Blog
- The Vibe Coding Hangover: What Happens When AI Writes 95% of Your Code|HackerNoon
- 2025 LLM Year in Review|Bear Blog (Karpathy)
- The Top 100 Gen AI Consumer Apps — 4th Edition|a16z
- The Top 100 Gen AI Consumer Apps — 5th Edition|a16z
- The Top 100 Gen AI Consumer Apps — 6th Edition|a16z
- Andrej Karpathy (@karpathy)|X
- METR Uplift Update (February 2026)|METR
- From Vibes to Engineering: The Evolution of AI-Assisted Coding|The New Stack
- Vibe Coding Could Cause 'Catastrophic Explosions' in 2026|The New Stack
- The exclusivity on OpenAI's $3 billion acquisition for coding startup Windsurf has expired|Fortune
- A Survey of Vibe Coding with Large Language Models|arXiv
- Lovable says it added $100M in revenue last month alone, with just 146 employees|TechCrunch
- AI Coding Startup Cursor in Talks for About $50 Billion Valuation|Bloomberg
- Replit — The Future is Actually Very Human|Replit Blog
- The Assisted Coding Revolution 1952 Present From Autocode To Vibe|Breaking News Live MBG















