《科创板日报》4 月 19 讯 在大部分人的认知里,受摩尔定律和空间需求推动,芯片几乎总是越做越微小。OpenAI 却用一笔订单证明,哪怕反其道而行,同样能在飞速狂奔的 AI 产业中争得一席之地。
据媒体报道,OpenAI 已与芯片设计商 Cerebras 达成协议,承诺在未来三年内支付逾 200 亿美元,以使用由后者芯片驱动的服务器。除此之外,OpenAI 还同意向后者提供约 10 亿美元的资金,以帮助其开发能够运行其人工智能产品的数据中心。
根据上述协议,OpenAI 将有可能获得 Cerebras 约 10% 的的认股权证,并且其持股比例可能会随着对 Cerebras 投资的增加而提高。
交易本身不难理解,如今正值 OpenAI「去英伟达」 战略的关键期,即通过多元化硬件布局来减少对英伟达芯片的依赖。出人意料的是,Cerebras 的技术路径与英伟达,甚至可以说与绝大多数 AI 芯片创企截然不同——既非通用 GPU 也非 ASIC,而是专注 「像餐盘一样大」 的晶圆级引擎 (WSE)。
Cerebras 最新一代晶圆级引擎是 2024 年发布的 WSE-3,被称作 「迄今为止最大的 AI 芯片。其内部集成了 90 万个计算核心、44GB 片上内存和 21PB 的内存带宽,总面积达 46225 平方毫米,是英伟达 B200 的 56 倍。
其性能同样不容小觑,WSE-3 包含 4 万亿个晶体管,相比 B200 拥有 250 倍的片上内存容量和 2625 倍的内存带宽。
▌片上存储
Cerebras 的芯片设计思路是,将所有计算与存储资源整合于一块巨型芯片之上,以此破解数据搬运过程中耗时耗能的瓶颈。
具体而言,其采用静态随机存取存储器 (SRAM),通过将数据直接存储在芯片上 (即片上存储),从而减少数据在芯片与外部存储硬件之间来回传输的需求,而这一数据搬运过程正是英伟达等系统的潜在瓶颈之一。
资料显示,在 SRAM 中每个存储单元需 4-6 个晶体管组成触发器结构,只要持续供电,触发器就能稳定保持数据状态,无需额外的刷新操作。基于此,SRAM 读写速度极快,访问时间仅约 10 纳秒甚至更低,访问速度远超 DRAM。
Cerebras 的 WSE-3 被部署在其 CS-3 系统中,多个多个 CS-3 系统连接起来可形成 Cerebras AI 超级计算机,作为单个逻辑计算机进行大规模训练和推理。据报道,OpenAI 有望在 2026 至 2028 年把 750MW 规模的 Cerebras 芯片集成到其 AI 推理计算资源库中。
广发证券指出,SRAM 架构已进入主流视野。根据 Groq 官网,其 LPU 单芯片内集成约 230MB 片上 SRAM,存储带宽高达 80 TB/s。根据 Artificial Analysis 的独立基准测试,Groq LPU 芯片在不同上下文长度下均能维持稳定推理速度,达 275-276token/s,显著优于其他推理平台。
从行业层面来看,3D 堆叠方案有望为片上 SRAM 打开应用空间。
东方证券表示,片上 SRAM 存在工艺缩放比逻辑电路慢等问题,导致在单枚芯片上 SRAM 占用的面积较大、成本提升。基于此,部分投资者认为 SRAM 架构难以成为 AI 芯片内存的主要方案。
该机构认为,SRAM 3D 堆叠方案可通过垂直堆叠存储单元的方法来提升密度以规避传统 SRAM 容量受面积密度限制的问题,可能在未来拓展应用。展望未来,若 AI 推理中需要实现更高容量的 SRAM,3D 堆叠方案有望拓展应用。











