文 | 字母 AI
最近两个月我在刷手机的时候,感觉每天都有 Anthropic 的新闻。今天发布了个啥,明天又发布了个啥。
产品管理社区 Product Compass 创始人帕维尔·胡林 (Paweł Huryn) 也有相同的感觉,于是他把这些新闻整理成了一份日历发在 X 上,从美东时间 2 月 1 日到 3 月 23 日,Anthropic 在 52 天发布了 73 款产品。

这条 X 发出的当天,Anthropic 发布了 Computer Use(电脑操控功能),以及 Claude Code Channels for Teams + Enterprise。
所以应该叫 52 天发布 75 个产品才对。
这篇 X 刚发出不到 24 小时,Anthropic 又发布了 Claude 的 Auto Mode。
Anthropic 相当于每 0.7 天就发布一个新产品,是 OpenAI 自称 「每 3 天一个新功能」 速度的 4 倍以上,甚至说我还没写完一篇稿,下一个新产品就已经发布了。
在之前字母 AI 的文章 《150 万 AI agent 社交狂欢背后,是一场 「产品大爆炸」》 中,我提出了 「产品大爆炸」 的概念,自从 Claude Code 掀起编程革命之后,整个 AI 圈都投入了一场产品创新迭代的浪潮之中,「龙虾」OpenClaw 就是其中的代表。毫无疑问,Anthropic 既是 「产品大爆炸」 的引领者,同时也是最大的受益者和践行者。
但是你有没有想过,为什么 Anthropic 能做到?
诚然,AI 编程是至关重要的一环,用 AI 来开发,事半功倍。
可是在全球最严格的编程测试集 SWE-Bench Pro 里,ChatGPT-5.4 和 Gemini 3 Pro 的成绩都比 Claude Opus 4.6 要高。
所以在我看来,AI 编程只是第一步,它是目前所有 AI 公司都拥有的能力,Anthropic 的成功并不只在于此。
而是在于他们形成了技术自举的加速循环,用 AI 来完成整个闭环。人类开发者在其中的作用,只是提供一个想法,唯一需要做的就是等 AI 跑出结果。
当工具开始制造工具本身时,我们可能正在目睹技术奇点的早期信号。
现在看是 52 天发布 75 款产品,过几天可能就缩短到 30 天发布 80 款产品,15 天发布 100 款产品……
Anthropic 如今的成功,正在迫使行业老大 OpenAI 重新审视自己的战略,开始全面模仿 Anthropic 的路径。
01 52 天的产品浪潮
引领这场产品浪潮的是 Anthropic 在 1 月中旬发布的 Cowork。
这个产品开发团队只有 4 个人,总工时 10 天,90% 的代码由 AI 编写。
可就是这么一个超短周期的产品,却能根据你所描述的任务,自主实现规划、执行,以及交付结果。彻底改变了许多人的工作方式。
显然,Cowork 的成功给了 Anthropic 信心。于是到了 2 月初开始,浪来了。
Claude 上线了法律插件,它能够审查法律文件、追踪合规任务、自动化合同审查,与 Thomson Reuters 等法律数据库深度集成。
这个插件在单日引发全球软件和服务类股票约 2850 亿美元的抛售,6 个交易日总共造成 8300 亿美元的抛售。
Thomson Reuters、LegalZoom 等法律科技公司股价当场暴跌,软件 ETF 基金 IGV 从 2026 年初至 2 月 27 日下跌 22.8%。
2 月 17 日,重磅炸弹 Claude Sonnet 4.6 来了。
这是 Anthropic 产品历史上第一次,Sonnet 级别的模型在编程测试中超越了上一代的 Opus。
Sonnet 4.6 的上下文窗口扩展到了 100 万 token,约 75 万个单词,相当于 2500 页文档,意味着 AI 可以一次性处理整个大型代码库。
过去企业在选择 AI 服务时,成本和能力是跷跷板的两端,性能高价格就高,价格低性能就低。
现在 Anthropic 把跷跷板拆了,Sonnet 4.6 比 Opus 4.6 便宜了将近一半,加速了企业市场向 Anthropic 的迁移。
2 月 20 日,Claude Code Security 上线,使用基于推理的扫描来发现代码库中的零日漏洞。
传统安全扫描工具需要不断更新规则库,就像是拿着通缉犯照片在街上找人。
而 Claude Code Security 可以发现从未见过的漏洞模式,它理解代码编写的逻辑,所以能在很早的时候就判断出哪些地方可能出问题,即使这个问题从没有被记录过。
2 月 24 日,Anthropic 开始发布大体量的产品,这家公司在当天连发了 10 个企业插件。
包括投资银行插件能做交易审查、估值建模,财富管理插件能做投资组合分析,私募股权插件能做尽职调查,人力资源插件能处理入职材料、品牌规范,还有工程、设计、运营等插件。
Anthropic 与 FactSet、S&P、Thomson Reuters、RBC Wealth Management 等行业巨头深度合作。
市场再次出现抛售,但是与 Anthropic 合作的公司股票反而上涨。投资者的理由很简单,「与 Anthropic 合作」 是生存之道,而非对手。
同期,私有插件市场上线。
Anthropic 为企业客户提供了一个 「私有插件市场」,企业可以开发自己的插件,将公司特有的工作流、合规要求、品牌规范编码为 agent,然后在组织内部分发。
它把 Anthropic 的能力变成了一个平台,企业不再是购买一个工具,而是获得了一个可以无限扩展的基础设施。
3 月 9 日,Code Review 上线。
当 AI 开始大量生成代码,这时候人类就审查不过来了,只能交给 AI 自己来处理。
Code Review 就是这样一款专门审查代码的多 agent 系统。它能自动分析代码逻辑、标记错误、识别安全漏洞,每次审查成本 15 到 25 美元。
同时这也是 Anthropic 实现 AI 开发自举循环的关键一环。
3 月 11 日,Anthropic 迈出了更大的一步,发布了微软 Excel 和 PowerPoint 跨应用协作功能。
Anthropic 让 Claude 可以在 Excel 和 PowerPoint 之间无缝工作。
举个例子,你可以让 Claude 从 Excel 中提取财务数据、构建交易对比表,然后自动将估值摘要放入演示文稿,最后起草发邮件。
整个过程信息、指令、任务历史在不同应用间流动,用户不需要重复说明上下文。
这个功能虽然说起来简单,然而它实际上解决了一个长期存在的问题:AI 的记忆是孤立的。你在 Excel 里告诉 AI 的事情,到了 PowerPoint 里它就忘了。
3 月 17 日,持久化 agent 线程发布。
用户现在可以用 Claude Apps 来管理 Cowork 中的任务,agent 可以跨会话保持上下文和任务状态。你早上在手机上给 AI 布置任务,下午在电脑上打开,AI 还记得你要什么,进展到哪里了。
根据 Ramp 的数据,仅仅 10 周。在首次购买 AI 工具的企业中,Anthropic 占据的份额从 50% 飙升至 73%,OpenAI 从 50% 跌至 27%。在整体企业市场中,Anthropic 的份额超过 40%,OpenAI 为 27%。
OpenAI 被打得有点懵圈了。
02 为什么是 Anthropic 引领了这场浪潮
前面咱们也说过了,别人的 AI 编程能力比 Anthropic 还强,但是凭什么是 Anthropic 领先呢?
核心原因不在 AI 编程上,而是在于 Anthropic 使用的线束架构 (harness)。
线束架构不是新鲜事物,OpenAI 也在用。
线束架构的本质是一个让 agent 能够长时间自主运行、完成复杂任务的编排系统。
在 Anthropic 的官方 blog 中写到,如果把 AI 模型比作引擎,线束就是让引擎持续运转的整套基础设施。线束管理上下文、编排多个 agent 协作、处理任务分解、进行状态传递,确保 AI 能够在数小时甚至更长时间内自主工作,而不需要人类持续介入。
Anthropic 在构建长时间运行的 AI 编程系统时,发现了两个关键问题。
第一个是上下文焦虑。当任务变得复杂、对话历史变长时,模型会开始失去连贯性。模型会出现 「上下文焦虑」,当它们认为快要达到上下文限制时,会过早地结束工作。
就像一个打工人,眼看快下班了,可是他手头的活还没干完,他就只能匆匆收尾。
Anthropic 的解决方案是上下文重置 (Context Reset)。完全清空上下文窗口,启动一个全新的 agent,但通过结构化的 「交接文档」 传递前一个 agent 的状态和下一步计划。
这给了 agent 一个干净的起点,同时保持了工作的连续性。这与简单的 「压缩」 不同。压缩是把早期对话总结后保留在同一个会话中,但 「上下文焦虑」 依然存在。
重置则是彻底的新开始,代价是需要精心设计交接文档,确保下一个 agent 能无缝接手。
第二个问题是自我评估失效。
当要求 AI 评估自己生成的代码或设计时,它们倾向于自信地称赞自己的作品,即使在人类看来质量明显平庸。这个问题在主观任务上尤其严重,因为没有像软件测试那样的二元验证标准。
你让 AI 设计一个网页,它做完了,你问它做得怎么样,它说 「非常好,符合现代设计美学」。你一看,又是紫色渐变配白色卡片,丑绝人寰,甲方看了想退单,产品看了想杀人。
Anthropic 的解决方案是分离生成者和评估者。
让一个 agent 负责生成,另一个 agent 负责评判。这种分离本身不会立即消除宽容倾向,可是一旦外部反馈输入,生成者就有了具体的改进目标。
Anthropic 目前采用了三 agent 的线束架构,分别是 Planner、Generator、Evaluator。
这个系统实现了完整的 AI 编程闭环。
Planner(规划 agent) 的任务是把用户的简单想法扩展为完整的产品规格文档。
用户只需提供简单的想法,Planner 就会将其扩展为完整的产品规格文档。
Anthropic 特意让 Planner 专注于产品背景和高层技术设计,而不是细节实现。因为如果 Planner 在前期就指定了错误的技术细节,这些错误会级联到后续实现中。所以才要约束最终交付物,让 agent 在工作中自己找到路径。
Generator(生成 agent) 采用 「一次一个功能」 的方式工作,从规格文档中逐个挑选功能实现。
每个冲刺 (sprint) 结束后,Generator 会先自我评估,然后将工作交给 Evaluator 进行质量检查。它使用 React、Vite、FastAPI、SQLite 或 PostgreSQL 技术栈,并通过 git 进行版本控制。
Generator 就是真正干活的那个。它不会一口气把所有功能都做完,而是一次只做一个功能。
做完一个功能后,它会先自己检查一遍,然后把成果交给 Evaluator 去打分。它用的都是现成的主流技术,而且还会做版本管理,以便做坏的时候恢复到以前版本。
Evaluator(评估 agent) 使用 Playwright MCP 工具,像真实用户一样点击运行中的应用,测试 UI 功能、API 端点和数据库状态。
然后根据一套标准对每个冲刺打分,比如产品深度、功能性、视觉设计、代码质量之类的。
每个标准都有硬性阈值,如果任何一项低于阈值,冲刺就会失败,Generator 会收到详细的反馈说明哪里出了问题。
除此之外,在每个冲刺开始前,Generator 和 Evaluator 会协商一份 「冲刺合约」。
在写任何代码之前,需要先达成合约上规定的东西。
Generator 提议要构建什么、如何验证成功,Evaluator 审查这个提议,确保 Generator 在构建正确的东西。
双方通过文件进行沟通,一个 agent 写文件,另一个读取并回复。这种机制确保工作忠于规格,同时不会过早地过度指定实现细节。
你可以这么理解,在每次开始干活之前,Generator 和 Evaluator 会先开个会,碰一碰需求。用行话来讲就是 「对齐一下颗粒度」。
只有所有人都满意这个方案的时候,才会开工去执行,并且每执行一步,都要拿出这个方案来再瞅一眼。
Anthropic 用同一个提示词对单 agent 模式和三 agent 的线束模式进行测试,题目为:创建一个 2D 复古游戏制作工具,包含关卡编辑器、精灵编辑器、实体行为和可玩测试模式。
单 agent 方式运行 20 分钟,成本 9 美元。生成的界面看起来符合预期,但实际使用时问题不断。
布局浪费空间、工作流程僵硬、最关键的是游戏本身坏了,实体出现在屏幕上但不响应输入。


完整线束方式运行 6 小时,成本 200 美元。
Planner 将一句话提示扩展为 16 个功能、10 个冲刺的完整规格,远超单 agent 尝试的范围。除了核心编辑器和播放模式,还包括精灵动画系统、行为模板、音效和音乐、AI 辅助的精灵生成器和关卡设计器,以及带分享链接的游戏导出功能。


线束模式的成本是单 agent 的 22 倍,但产出的质量差距不是 22 倍能形容的。单 agent 的产出是一个看起来能用、实际不能用的半成品。完整线束的产出是一个可以直接发布的产品。
这个架构的真正价值不在于它能做什么,而在于它能持续做什么。单 agent 可以完成一个简单任务,但当任务复杂到需要数小时甚至数天时,单 agent 就会迷失方向。
线束架构通过分工、检查、重置,让 AI 能够像一个小团队一样工作。
线束架构不是 Anthropic 的发明,Anthropic 的优势在于,他们比别人更早、更系统地遇到这些问题,然后把解决方案标准化、产品化。
03 Anthropic 帮助整个行业看清了方向
虽然 Anthropic 引领了这波产品浪潮,但是 2026 年初,整个 AI 行业最火的产品,却不是 Anthropic 的产品,而是 OpenClaw。
大街小巷都有各种 「养龙虾」 攻略教程,这已经无需多言。
可 OpenClaw 的成功,恰恰证明了 Anthropic 路线是正确的。
真正的护城河不在于模型性能,而是用 AI 来完成整个闭环。
OpenClaw 能访问你的电脑文件系统、执行终端命令、控制浏览器、接入社交软件。更重要的是,它运行在用户自己的电脑上,拥有你给它的所有权限。
你发一句话给它,它就能自己去执行,最后返回给你结果。
当然它也会有失败的时候,但是它绝大多数都能成功。
这才致使用户宁愿冒着巨大的安全风险,给 AI 开放底层电脑权限,让它去帮自己订票、发邮件、修 Bug。
用户不是不在乎安全,他们对 「让 AI 干活」 的渴求已经强烈到可以暂时压过对风险的恐惧。
还有一家企业也被 Anthropic 的产品大爆炸所影响,它就是 OpenAI。
2026 年 3 月 16 日,在 OpenAI 的内部会上,应用业务 CEO 菲吉·西莫 (Fidji Simo) 直言:「Anthropic 的进展应该成为警钟。」
自此,OpenAI 宣布从 「do-it-all」 策略转向聚焦编程工具和企业客户。
在产品层面,OpenAI 计划将 ChatGPT、Codex、Atlas 浏览器像 Claude 一样合并为单一应用。
在企业市场,OpenAI 也准备模仿 Anthropic,推出类似的插件市场。
不过 OpenAI 现在面临的问题是,即使他们理解了 Anthropic 的策略、也懂得构建类似的线束架构,他们还需要时间来追赶。
可是在 AI 这个行业,时间就是一切。Anthropic 可是每 0.7 天发布一个新产品,OpenAI 哪怕耽误一秒钟都有可能会掉队。
抓点紧吧!
















