Amazon S3 的 20 年：从「存储无限」到「智能无止」——专访亚马逊云科技技术副总裁 Mai-Lan Tomsen Bukovec

【TechWeb】4 月 29 日消息，2006 年的 Pi Day（3 月 14 日，圆周率日），一个起初看似简单的「弹性存储」概念被推向市场，它允许开发者以极低的成本存储无限量的数据。20 年后的今天，这个名为 Amazon S3（Amazon Simple Storage Service）的服务不仅承载了超过 500 万亿个对象，更在 AI 爆发的时代，悄然完成了从一个「被动数据湖」向「主动智能基础设施」的蜕变。

在 20 周年之际，我们与亚马逊云科技技术副总裁 Mai-Lan Tomsen Bukovec 进行了一场深度对话。访谈刚一开始，她就难掩兴奋地分享了一个刚刚收到的喜讯：Amazon S3 Vectors 在 2026 年 NAB Show（全美广播电视展）上荣获了「年度产品奖」。

亚马逊云科技技术副总裁 Mai-Lan Tomsen Bukovec

谈及 Amazon S3 一路以来的创新发展，Mai-Lan 总结道：「对每一个 Byte（字节）的承诺，无论那是非结构化数据、Parquet 文件，还是一个向量字节，这是我们过去 20 年从未改变的准则，也是未来 20 年不会改变的准则。」

S3 Tables 打破「只读」：Iceberg 与数据表的可编辑革命

回顾 Amazon S3 的演进，Mai-Lan 认为其产品定义是「弹性」的，这种弹性不仅在于容量，更在于产品形态。最初的 S3 是一个巨大的非结构化数据仓库，如果用户想修改视频或音频文件中的一部分，必须替换整个对象。

然而，S3 Tables 的推出彻底打破了这一边界。通过原生支持 Apache Iceberg 格式，Amazon S3 中的数据第一次变得「可编辑」。

「这是一个巨大的飞跃，意味着你可以用 S3 的价格优势直接操作数据表，」Mai-Lan 解释道。最令人兴奋的并非仅是存储本身的变革，而是由此催生的生态化学反应。她观察到，从 Supabase 的 Postgres 到 Oracle 的 GoldenGate，数据库的变更数据正被直接呈现在 S3 Tables 中。

这种变化在 AI 时代尤为关键。Mai-Lan 指出，AI Agent 极度依赖 SQL 和 Iceberg 格式。因为大语言模型（LLMs）在训练时就已经对 SQL 和结构化数据逻辑非常熟悉，将数据以 Iceberg 形式存放在 S3 中，等于为数以万计的 AI Agent 扫清了数据访问的障碍，让 Agent 不必再去费力学习复杂的 API 调用。

S3 Vectors 和 S3 Files 构建共享记忆：向量成为一种新语言

如果说 Iceberg 解决了 Agent「读懂数据」的问题，那么 S3 Vectors 则解决了 Agent「记住状态」的问题。

在 2026 NAB Show 颁奖典礼上的高光时刻并非偶然。Mai-Lan 透露，自 S3 Vectors 发布以来的五个月里，市场需求经历了显著的增长。起初，团队预期的主要用例是通过嵌入模型为数据添加上下文，用于 RAG 或语义搜索。但实际增长的爆发点在于 Agent 系统的共享记忆。

「LLMs 在记忆能力上的飞跃非常显著。无论是 Agent 之间、人机之间还是 Agent 与数据之间，都在引入更深层次的对话上下文。而向量，就像是为 AI 交互体验注入的『状态』。」Mai-Lan 将 S3 Files 和 S3 Vectors 的组合形容为 Agent 的「共享记忆空间」。

随着 S3 Files 的发布，这种交互变得更加自然。S3 Files 在物理存储上是对象，但在逻辑接口上是符合 POSIX 标准的文件系统。

Mai-Lan 还分享了一个非常细腻的产品洞见，她认为：「由于 LLMs 在训练中接触了大量的 Python 库和 Shell 脚本，AI Agent 天生就习惯将文件作为数据接口。」这种底层逻辑的契合，使得开发者无需重构代码，就能让 AI 直接通过文件目录与海量数据交互。

延迟与成本的经济学权衡

尽管 AI 追求极致的低延迟，但 Mai-Lan 坦率地承认，S3 的架构延迟确实高于数据库。向量数据库能在几毫秒内完成查询，而 S3 Vectors 大约需要 100 毫秒。然而，她认为这并非缺陷，而是一种设计上的权衡。

「并非所有的 AI 应用都追求亚毫秒级响应。很多科研分析、大范围的产品相似度搜索，甚至生成报告的 Agent，完全可以在 100 毫秒的延迟下运行得极其完美。」她类比道，就像 2006 年时，人们虽然会为极致性能选择数据库，但绝大多数工作负载依然会流向更具成本效益的 S3。

进入 Agent 时代，这种成本考量变得更加残酷且现实。Mai-Lan 指出，人类工程师通常一次只跑一个查询，而 AI Agent 为了寻找最佳路径，往往会瞬时发起数十甚至数百个并行查询，是极其激进的数据消费者。在这种情况下，底层存储和分析服务的成本效率，可能直接决定了一个 Agent 应用能否盈利。这种肉眼可见的大规模消耗，让 S3 的性价比优势在 AI 时代反而成了一种护城河。

跨越 20 年的工程承诺：数学般的严谨

在长达 20 年的服务中，S3 最令 Mai-Lan 感慨的并非某个新功能，而是一次对底层的重构，即引入「强一致性」。

「在发布强一致性之前，我们绝对无法通过写测试用例来覆盖所有场景，S3 太庞大了。如果无法证明它是绝对一致的，我们就绝不能上线。」Mai-Lan 向 TechWeb 回忆道。为此，团队引入了一种极端的工程方法「形式化验证」。他们构建了一套数学证明体系，任何新的代码变更，都必须先通过数学逻辑的证明校验，确保不会破坏系统的一致性，才能被合并入库。

这种「对每一个字节负责」的执着，体现在 S3 底层的 300 个微服务中，其中大量服务每天都在默默充当「审计员」的角色，反复校验数据完整性。正是这种极致的工程追求，才构筑了 S3 标志性的 11 个 9 持久性。

「产品形态的演进必须是连贯的，新能力必须与原有服务逻辑完美契合。」Mai-Lan 强调，「S3 Vector 将持久性原则贯彻到向量中，S3 Tables 让表格的操作感与原有数据类型保持一致，让表格数据像存储桶一样，可以轻松同步。这种在扩展边界的同时保持内核连贯性的思路，是我们过去 20 年、乃至未来 20 年进化的核心逻辑」

访谈接近尾声时，Mai-Lan 提到了亚马逊的一句领导力准则——「Are Right, A Lot」决策正确。要做到这一点的关键是：领导者要不断证伪自己的信念，即不断推翻「我们构建的一切都运行良好」这种念头。在 AI 技术每隔几个月就颠覆一次认知的 2026 年，Amazon S3 的这条成功经验反而显得格外清醒，这种时刻寻找改进现有系统或构建新能力机会的执着，可能才是其成为 AI 时代兼具数据韧性与技术创新能力的标杆的底层逻辑，同时能够敏锐响应每一次技术浪潮变化背后潜藏的真实客户需求。