
图片来自 Taalas 官网
打着 「颠覆英伟达」 的旗号的公司,总是会接二连三涌现。
最近,一家来自加拿大多伦多的芯片 「小厂」Taalas 引起了 AI 圈关注。有声音认为,它很可能撬动英伟达主宰了多年的 AI 芯片市场。
当地时间 2 月 20 日,成立于 2023 年的初创公司 Taalas 发布了首款产品 Taalas HC1 芯片,专为 Llama 3.1 8B 模型优化,采用 30 芯片集群时实现每秒 12000 tokens 的推理速度,较传统 GPU 方案提升 50 倍能效。
Taalas 称,公司通过结构化 ASIC 技术将芯片定制周期缩短至两个月,已累计融资 2.19 亿美元。24 名敬业的员工的努力,投入 3000 万美元,打造出了这款拥有 「极致的专业化、速度和能源效率」 的产品。
Taalas 创始人兼 CEO 是曾任 AMD 架构师的业界传奇人物柳比沙·巴伊奇 (Ljubiša Bajić)。
在公司官网的介绍文章中,巴伊奇称,这款芯片选择了 Meta 公司 2024 年 7 月推出的开源大模型 Llama 3.1 8B 作为运行平台,峰值推理速度接近 17000 tokens/秒,比目前市场中最先进的技术快近 10 倍,构建成本降低到原来的 1/20,功耗降低至原来的 1/10。

截图来自社交平台 X
巴伊奇给出了一组测试数据,Taalas 自己在 Llama 3.1 8B 上测试了英伟达的主力产品 H200 和 B200,结果为 230 tokens/秒和 353 tokens/秒,而 Taalas 的 HC1 性能是它们的 48 倍。
此前这一数据,是由独立分析平台 Artificial Analysis 测出的最高值,来自刚刚完成 H 轮融资、估值 230 亿美元的 Cerebras,为 1981 tokens/秒,也仅为 HC1 的 11%。
在实测演示中,大模型对用户问题的详细解答,达到甚至超越了 「秒回」 的水平。
不过,AI 在大量回复的一瞬间,人类对话者也产生了扑面而来的压迫感。

图片来自 Taalas 官网
这一堪称 「突破极限」 的表现,果不其然引起了大量的讨论。大呼 「颠覆将至」 者有之,质疑其言过其实、过度营销者亦有之。
令我们好奇的是,在喧嚣背后,Taalas 的技术和产品究竟有何特殊之处?又是否当得起其自称的 「世界上速度最快、成本和功耗最低的推理平台」 呢?
将模型直接 「刻」 在芯片上
在研究了其首款产品 HC1 的相关公开信息之后,我们发现,Taalas 的技术路线,与目前市场主流的 ASIC 路线相比,极具颠覆性,堪称 「邪修版」ASIC。
与英伟达和 AMD 代表的业界主流 GPU 通用计算技术路线不同,Taalas 更接近 ASIC(专用集成电路) 路线。
这一技术路线通过为特定应用场景定制硬件设计,以追求极致能效和成本效益。虽然它的适用性、功能丰富度、可互换性,远低于能覆盖多场景的 GPU,但自去年以来,以谷歌 TPU 为首,ASIC 技术拥有成本 (TCO) 低、打造大模型能力毫不逊色等特点,得到了市场认可,出货量大幅提升。
野村证券预测,2026 年,ASIC 芯片的总出货量可能会首次超过 GPU。而在 GPU 市场处于两巨头垄断的情况下,大多数芯片初创也都选择了 ASIC 路线,包括市场知名度较高的 Cerebras、SambaNova,以及,此前刚刚被英伟达将核心团队纳入囊中的 Groq。
巴伊奇在 AMD 和英伟达都有任职经历,之前还创立了一家专注于 AI 芯片研发的独角兽 Tenstorrent 公司。Tenstorrent 通过开源 RISC-V 架构和软硬件协同设计,降低 AI 计算成本。
而 「挑战英伟达垄断地位」,一直是巴伊奇所宣扬的核心理念,也是 Tenstorrent 公司备受关注的 「招牌」 标签。
不过,英伟达的发展,要远好于 AMD 及各类 AI 芯片初创公司,巴伊奇也在探索中有了更 「极端」 的设想。
2022 年至 2023 年间,巴伊奇逐渐脱离了此前工作,开始筹划创办 Taalas。他与他的妻子、曾在 AMD 任系统工程高级经理莱拉·巴伊奇 (Lejla Bajic),以及,曾任 AMD 高级设计工程师并在 Tenstorrent 担任过 ASIC 设计总监的德拉贡·伊格纳托维奇 (Drago Ignjatovic) 成为了 Taalas 联合创始人。
Taalas 公司 20 余人的核心工程师团队,多数来自 AMD、苹果、谷歌、英伟达和 TensorRent。
2024 年,Taalas 公司完成 5000 万美元的首轮融资,并正式出现在公众视野。
巴伊奇强调,Taalas 致力于解决 AI 发展面临的两大障碍——「高延迟」 和 「天文数字般的算力成本」,并提出 「单芯片性能超越小型 GPU 数据中心」 这一极具野心,甚至显得有些 「狂妄」 的目标。
资本市场为巴伊奇的野心投票。截至目前,Taalas 目前已完成三轮融资,总额超过 2 亿美元。
Taalas 奉行 「The Model is The Computer」(这句话也是公司的 slogan),可以理解为,将传统 「在计算设备上运行模型」 的范式,转变为 「模型本身成为计算设备」。
技术实现路径上,Taalas 提出 「无需软件,直接将模型刻在芯片上」,这与传统的 ASIC 芯片仍需使用软件,通过编译过程将软件代码转化为芯片指令不同。
Taalas 通过 EDA(电子设计自动化) 流程,将特定大模型直接转化为定制芯片。
也就是说,每款使用 Taalas 的大模型,都会拥有专属于自身的定制芯片,实现巴伊奇所说的 「完全专业化」(Total specialization)。
与此同时,算力也摆脱了软件束缚和编译过程,数据几乎不需要在内存和计算单元之间移动,「内存墙」 由此消失,推理成本随之大幅降低,推理速度则显著提升。

截图来自社交平台 X
目前来看,Taalas 的主要业务操作流程也比较简单。大致是客户向 Taalas 提供自身所需的模型,Taalas 在一周内将其转化为电路设计,通过台积电代工在两个月内交付专属芯片。
可想而知,如果 Taalas 能为每个主流模型,都提供出类似 HC1 在 Llama 3.1 8B 上那样的性能飞跃,那么,各大厂商很可能会对其产品趋之若鹜。
实际上,包括独立人工智能研究员本杰明·马里 (Benjamin Marie)、Devtools 创业顾问肖恩·王 (swyx) 等产业界人士和 The Next Platform 记者蒂莫西·普里克特·摩根 (Timothy Prickett Morgan) 等媒体人士,都已在积极介绍 Taalas 的新产品,看好其前景者不在少数。
Taalas 的死穴在哪?
不过,在舆论热度落地到商用市场之前,Taalas 还有很多问题需要被看到。
首先,Taalas 需要面对的是,其产品能否适用更先进、大规模的模型。
2024 年,Meta 推出 Llama 3.1 时,发布了 8B、70B 和 405B 三种参数规模版本,Taalas 选用的是最小的 8B。
很显然,在目前大模型进化速度极快、规模越来越大的背景下,Taalas 的产品能否匹配,是否面临明显 「天花板」,都是必须解决的问题。
巴伊奇称,公司将在今年春季推出一款适用中等规模推理模型的产品,届时表现如何,值得关注。
与此相关的,目前测评体验中,不少质疑声音集中在,Taalas 让本已不算聪明的 Llama 变得 「更笨了」。
一些用户发帖称,HC1「幻觉严重」「答案明显错误,质量远低于同参数 GPU 版」,「回答速度快但错得也快」,其实用性不佳。

截图来自社交平台 X
实际上,对于如何理解 Taalas 给出的测试数据,也有较多质疑声音。
一位关注芯片产业的爱好者对作者表示,Taalas 相当于内置了问题的答案,所以,计算速度 「秒杀」 英伟达等一众业界翘楚,但是,将」1+1=2」 的问题换为 「2*2=?」,它的表现可能就会 「掉链子」。
Taalas 能在极其有限的特定场景下 「秒杀英伟达」,但目前其他英伟达能做的事,对于 Taalas 来说可能更难。
更为关键的问题是,Taalas 能否跟得上大模型的迭代周期。
一位半导体行业从业者对作者表示,Taalas 的芯片 「表现很牛,但目前可能没啥大的用处」,因为大模型还在不停迭代,而 Taalas 的迭代能力和速度成疑。
该行业人士认为,「要等以后大模型达到某个层级不再大规模、快速迭代了,这种芯片才能有更大舞台」。
而在社交平台上的讨论中,不少质疑集中在 HC1「模型锁定」 的 「只读」 模式导致的 「过时」 和 「废弃」 风险,并认为这是其商业化、规模化的重大阻碍。
目前,一款顶尖大模型能保持领先优势的时间窗口不过月余,而 Taalas 交付芯片 (而非量产) 即使已经很快,但也需要至少两个月。
改写 AI 芯片规则的未来已来
支持 HC1 进步性的声音也不在少数。
在知乎的相关讨论中,中国科学院计算技术研究所副研究员赵永威指出,虽然 Taalas「目前的状况还没有应用价值」,但不妨碍它会成为 「一颗有历史意义的芯片」。
他认为,这种 「硬连线」 的模式,是未来芯片发展的一大趋势,目前的质疑由 Taalas 来扛,后来者在推广相关概念时就会更加轻松。他也透露,自己所在单位也在研究类似技术路线,并提到,降低经济成本,既是相关路线的研究目标,也应该是宣传发力点所在。
知名科技记者蒂莫西·普里克特·摩根 (Timothy Prickett Morgan) 在文章中提到,Taalas 确实需要模型的每一次更新中重新设计芯片,但其在推理引擎上蚀刻新模型,只需要更改设计中的两层金属,而不是完全废弃。考虑到训练模型的成本高达数十亿美元,Taalas 芯片的更新成本微不足道。
摩根认为,在主要模型发布间隔时间延长,人们对成熟模型依赖度增加时,Taalas 芯片有望赢得更广泛的市场认可。
也有一些分析称,得益于低延迟、低功耗的特性,Taalas 真正的用武之地或在于边缘推理场景,比如,机器人、自动驾驶汽车,甚至高端智能手机等设备中。这些设备不需要运行所有模型,只需要稳定运行定制化的模型,而更快的速度和更低的消耗,显然更有利于产业普及 AI 大模型。
不过,即便是相关产品能真正规模化地进入市场并大展拳脚,新的状况和问题也会随之浮现。
比如,大模型的底层架构 (Transformer) 是否会遭遇另一场 「革命」?这似乎决定着 「模型即芯片」 技术路线的命运。还有,生态系统建设的问题,英伟达虽然是硬件公司,但 CUDA 软件生态和开发者的重度依赖,才是其真正的护城河,而这也是 Taalas 看中且有意颠覆的。
但这些都是后话了,至少目前来看,Taalas 距离英伟达还很遥远,更遑论 「颠覆英伟达」 了。然而,巴伊奇在这条路上依旧步履不停,Taalas 宣布,计划在今年冬季推出第二代 HC2 产品,将具备更快的执行速度和更强的性能。
届时,一代产品的市场反馈和二代产品的迭代效果,将进一步验证今天各方对这股横空出世的新势力的判断。(作者|胡珈萌,编辑|李程程)















