文丨镜相工作室,作者 | 黄依婷,编辑丨王闪
2026 年,人类在工作上最 「奢侈」 的消费是什么?答案并不是买一部性能顶配的电脑,或是置办几身体面的行头,而是能够不受限制、不计成本地使用这个世界上最先进的 AI 工具。
这意味着你不用为了控制成本,绞尽脑汁优化提示词,生怕弹出一句 「今日免费额度已用完」;也不用再三对比,舍不得累到心爱的 Claude(由美国 AI 公司 Anthropic 开发的大语言模型),只能把不那么重要的工作交给更便宜、更轻量的模型处理。
AI 当然好用,但每用一次都对应着成本,Token(词元) 消耗量贵到你有点用不起了。斤斤计较、小心翼翼,成了如今 AI「牛马」 们最真实的状态。
这让人想到了二十年前,拨号上网的时代。那时带宽紧缺且昂贵,开发者为了节约网站的带宽消耗,尽可能压缩图片、精简代码,几乎不敢上传视频。像土豆网这样的视频领域创业公司是极少数,视频所带来的带宽消耗成为网站运营的成本大头。
昨日重现。
在 AI 产业链条上,算力像水一样自上而下流动。从上游的 GPU(图形处理器) 和数据中心出发,经由云厂商、模型厂商,被封装成 API(应用程序编程接口) 接口,最终流向开发者和普通用户,变成一次次具体的调用、一个个可以计价的 Token。它看似无形,却在每一个环节都对应着清晰的成本,GPU 折旧、电力消耗、高带宽存储,最终都会汇总成账单。
现在,这条水管正在变得拥堵。一头是需求在爆发,多模态、Agent(智能体) 等复杂推理场景让 Token 消耗量千倍增长,另一头则是供给仍未解绑,GPU、HBM(高带宽存储器)、电力和数据中心建设都存在物理极限,GPU 利用率仍处于较低位置。聪明是有代价的,虽然爆发式增长导致 Token 单价更便宜了,但调用它需要花的钱却越来越多。
涨价逐级传导。上游 GPU 有价无市、算力紧缺,中游云厂商率先调整价格,亚马逊云、谷歌云、百度云、阿里云等,在过去一个季度相继上调部分 AI 相关服务费用,模型厂商也结束补贴周期,腾讯、阿里等接连停止免费公测,提高 API 调用价格,其中,腾讯混元大模型最高涨价 463%。
模型和应用侧的涨价,让算力不再是独属巨头竞争中的抽象概念,它以 Token 的形式,给每个普通人也上了一堂付费课。就像当年的流量,以 MB(手机上网流量单位) 为单位计价,号主一不留神就会欠费停机。
黄仁勋日前提出的 「Token 经济学」 概念,认为推理已成为 AI 最核心的工作负载,Token 则是新的大宗商品——标准化、可计量、可交易。由此 Token 从模型训练的技术副产品,演变为驱动数字经济的核心生产要素。
在黄仁勋看来,「Token」 作为商品是有质量的优劣之分的。从免费层到顶级层,每百万 Token 价格从 0 美元到 150 美元不等。低时延、高交互的 Token(如实时对话、智能驾驶) 需要昂贵算力,定价高;高吞吐、离线处理的 Token(如大规模离线推理、批量数据处理) 对时延不敏感,可以用便宜算力生产,定价低。
Token 已经作为 「商品」 产生价值分层了,那使用它的人呢?或许未来,「下沉市场」 人群的定义,也不再仅限于能否消费得起实体商品了。
AI 使用者,被焦虑裹挟
「我难道不是尊贵的会员吗?」3 月 11 日晚,苏玉看着电脑屏幕上跳出的弹窗,有点生气。弹窗提示她,本周 Token 使用量已达到限额的 90%,限额消耗完后将暂停相关模型的使用,直到下周限额更新。
苏玉是某高校在读博士研究生,最近在准备毕业大论文。过去三年,谷歌旗下的 Gemini、OpenAI 旗下的 ChatGPT,一直是她的最佳拍档,她也是这两个 「AI 长工 「的忠实订阅用户。今年 2 月中旬,Anthropic 旗下的 Claude 也加入了她的队伍,并很快成为她最信任的一个。
「Claude 太好用了,工具属性太强了。」 苏玉说。她让几款 AI 应用同时为她梳理、设计研究思路模型,ChatGPT 给出的答案逻辑不够严密,Gemini 太过浮夸谄媚,只有 Claude,像一位客观专业的高级顾问,逐字阅读过客户需求后,才输出了一份真正可使用、有启发的方案。
免费使用半个多月后,苏玉花费大约 180 元人民币开通了 Claude 的月度会员。和 Gemini、ChatGPT 相比,Claude 特殊的地方在于它对会员也设置了每日和每周 Token 消耗的限额。这其实能理解,根据全球知名的大模型盲测榜单 LMArena,截至 3 月 20 日,Claude 的主力模型 Claude-Opus-4-6-thinking 排名全球第一。
但苏玉从未感受到如此直接的 Token 限制。第一次触发 Claude 限额机制时是周三,「扎根理论」 了解到一半就不能再调用了,那一刻她颇有一种 「学术停滞」 的无力感。习惯了 Claude 的辅助,她很难再回到最初做科研的状态。她尝试 「手搓」,翻阅最原始的理论书籍,但效率极低,有些经过翻译的资料她也不完全相信,「最后我还是要等 Claude 恢复使用后复核一遍。」 四天时间,她等得很煎熬。
Claude 限用让苏玉异常焦虑。在一个周二,苏玉发来一张 Claude 后台截图,上面显示她本周的限额已经使用了 45%。「这周才过去不到两天!我已经用得很节省了,一天只讨论一个论文选题,它就到限额了!」 苏玉情绪有点崩溃,谁说 AI 不能替代人类?这个 AI 已经快比她的导师还难搞了。

苏玉的 Claude 后台。图源:受访者
她已经养成了提一个问题就去看一眼后台的习惯,生怕没米下锅。想起以前竟然还和 Claude 老师唠闲嗑,让它帮自己做 PPT,她心里直骂自己浪费。
这种对 「好用的模型」 的谨慎使用,正逐渐变得普遍。一位 AI 影视行业创业者告诉我,他所在团队在使用字节跳动的 AI 视频模型 「即梦」 时,会同步接入其他多家模型厂商的 API,「效果好的模型确实更贵,我们只能在不同模型之间切换,去平衡成本。」
不久前,即梦下调会员积分额度,他一方面觉得很正常,「C 端本来就在补贴,现在只是收回一部分」。但另一方面又为自己的处境担心,叹息 「这下更用不起了」,AI 成本上涨,有时候会直接卡住小创业者的生命线。
终端用户为 Token 焦虑,模型厂商也在为算力成本焦虑。
谈及 Token 调用量暴增的原因,中国工程院院士王坚此前借用电力的发展做了类比,早期人工智能应用就像是 「点电灯」,消耗电量有限。而以 OpenClaw(智能体) 为代表的新一代应用,则像是开启了 「空调」,需要耗费的电力也越来越多。
不过,王坚强调,这种增长不仅意味着应用普及,更意味着单体 Token 成本的下降。「如果电价不降,老百姓是用不起空调的。」
但相比早期一问一答的简单调用,如今越来越多任务通过 Agent 完成。模型需要自行拆解问题、调用工具、写代码、调试、再修正,一次看似简单的请求,背后往往对应的是多轮推理和多次 API 调用,Token 消耗呈指数级放大,虽然单价降低了,但总体所需要的算力成本更高昂了。
「模型变更大了,推理成本也相应提高了,我们也希望把它回归到正常的商业价值上。长期靠低价竞争,对整个行业发展并不利,这也是我们的一个考量。」 智谱 CEO 张鹏说。最近两个月,智谱三次上调 GLM(智谱研发的大语言模型) 系列模型价格,部分模型价格已逼近国际头部模型定价水平。
张鹏的另一个担心是,「未来 12 个月面临的最大问题可能就是算力。所有的技术,包括智能体框架,让很多人的创造力与效率提升了 10 倍。但前提条件是,大家能够用得起来,不能因为算力不够,导致一个问题让 Agent 思考半天也不给我答案。」
流动的算力,累加的成本
按照 Claude 的计算方式,100 Tokens 大约相当于 75 个英文单词或 50 个汉字,而 Token 输出的价格是输入价格的五倍——这是一个最简单的换算方式。换言之,AI 的每一个回答都要经过深思熟虑,后台思考、查询、生成,乃至模型幻觉带来的错误消耗的 Token,都会被计算在内,最终变成真金白银的账单。
智能纪元 AGI 创始人林志佳算过一笔账。他养了四个 「龙虾」,有本地部署的,也有云端部署的。以云端部署为例,他按月购买了 Coding Plan(AI 编码订阅服务),大约 30-40 元人民币,在 3 月还剩 9 天的时候,他的 Token 消耗量还不到套餐额度的 10%——作为媒体人,他对 Token 的需求其实并不大。
但按照 Token 来计费又不太划算。「如果我只是每天早上九点让它给我发条新闻,消耗的 Tokens 价格大概 0.9 元人民币,30 天大概二十多块钱,已经跟买 Coding Plan 的钱差不多了。有时候还有损耗、还有模型更新,光更新就可能要消耗三四块钱的 Tokens。」
在不同计费方式之间权衡,几乎成了高频使用者的日常,而购买 Token 花费的一分一厘,最终都指向同一件事——算力,以及背后对应的 GPU 折旧成本和数据中心的耗电。
GPU 成了一切的起点,高端芯片的供给决定了整个系统的上限。「除了给部分客户预留的备用机,其他基本都卖完了,一卡不剩。」 优刻得架构技术中心副总经理刘华说。
GPU 之下,还要搭建起数据中心、网络和存储系统——高速互联、低延迟传输,这些都不是 「即插即用」 的标准件。刘华提到,仅网络和存储部分,成本就可能占到整体算力成本的 20% 左右。
再下一层,是模型厂商和 API 服务商。他们把大模型部署在这些基础设施之上,封装成标准化接口,供开发者调用。近两年,这几层角色开始出现重叠,云厂商既卖算力也提供模型 API,逐渐成为连接 GPU、模型和开发者的中枢。

算力是如何流动的示意图。图源:AI 生成
算力就这样一层一层向下渗透,最新的变化是在产业的需求端。「以前 AI 大部分是 To B 在付费,现在 To C 端付费也越来越普及了。」 林志佳说。模型被封装成 API,入口被简化,使用门槛降低,个人开发者甚至普通用户,都可以直接调用底层算力。「现在基本上刷一刷社交平台,大家就知道怎么用了。」
算力甚至出现零售化趋势。2024 年前后,一些云厂商开始推出 GPU「日卡」、轻量级云主机,甚至 「一键部署」 的体验产品。比如优刻得面向 「养虾户」 推出的 6.9 元体验套餐,本质上更像一张门票,把复杂的环境配置和算力调度打包好,让用户用极低成本试一次。「很多人其实是来 『排雷』 或者尝鲜的,」 刘华说,「大家都有点焦虑,怕落后。」
但门槛降低,并不意味着成本下降。在刘华看来,「用互联网发展阶段类比,现在的算力成本毫无疑问还是在一个发展初期、很贵的阶段。」 正因为如此,开发者才会精打细算,平台也不敢轻易放开调用规模。
即便是头部厂商也在做取舍。OpenAI 此前关停视频生成项目 Sora,被不少业内人士解读为算力与投入产出之间的权衡,在资源有限的情况下,优先集中到更核心的模型能力和业务上。阿里巴巴、腾讯、字节跳动等互联网大厂,近期对 AI 业务做的一系列调整,核心也是一种算力资源聚焦。
大家都正在意识到一件事:未来拼的不是算力规模,而是算力利用率。算力紧缺带来的连锁效应,是 AI 时代一场漫长的梅雨,每一个身处时代的人都会免不了潮湿。
算力流动到末端发生了什么
苏玉正在尝试分配和调度算力资源。
她把不同模型分了层级:ChatGPT 用来写公文、整理简报,Gemini 负责画图、处理语言细节,Claude 则专门用在最核心的环节,比如研究框架、思路设计、长文本分析。这样能保证她的效率和钱包都效果最大化。
比如,她最近在处理一批访谈材料,会先让 Claude 给出分析框架,再把这个框架 「丢」 给 Gemini 去做初始编码。「我更相信 Claude 给的指导性的东西,但细节性的工作可以交给便宜一点的模型。」 如果 Claude 不限额,她甚至会停用 Gemini。
当然,这并不是在给 Claude 打广告,只是苏玉认为自己的需求更适用这一款应用。好用的模型变得稀缺,而稀缺的资源只会被用在最关键的地方。
为了进一步节省,很多用户都和苏玉一样,开始在细节上抠成本。
社交平台上,一度流行起用文言文与 AI 对话,因为更短的字数意味着更少的 Token。也有人认为,跟风对 AI 说 「你好」「谢谢」,是否也是一种不必要的资源浪费?毕竟,AI 并不需要情绪价值。
其实很多浪费并不在用户可控范围内,有时是模型接入和运行方式的问题。
不久前,MiMo 大模型团队负责人罗福莉提到,「我没办法严格计算第三方 harness(驾驭) 接入造成的损失,但我近距离看过 OpenClaw 的上下文管理,很糟糕。在单次用户查询里,它会触发多轮低价值工具调用,每轮作为独立 API 请求发出,每个请求携带的上下文窗口往往超过 100K Tokens。实际请求次数是 Claude Code 原生框架的数倍。折算成 API 定价,真实成本大概是订阅价格的数十倍。」
回到使用问题上,用户主动节省 Token,平台也不敢完全放开用户规模,这种基于节省成本的 「束手束脚」,比如 OpenAI 正在面临一种矛盾——其在 2025 年上半年创造了 43 亿美元的收入,同期,该公司净亏损高达 135 亿美元,这意味着 OpenAI 每赚一美元,就会损失三美元。亏损的大头正是对算力的投入。
在当下,算力已经不再只是有没有的问题,而是能不能持续用、能用到什么程度。当 AI 足够好用,人会围绕它重新组织工作方式;当 Token 变得昂贵而有限,这种新的组织方式本身也会被迫收缩。
如果未来算力无法真正像电力一样普及,那么 AI 必然会引起分化,人与人之间的认知差距会进一步拉大。比如苏玉,她并不打算把自己的 AI 使用方法完全分享给身边人,如何和 Claude 老师交互、喂什么样的语料,这是她的小秘密,短期内也是她的竞争力。
如果同事请她推荐好用的模型,她会强烈推荐 Gemini 和 ChatGPT,「当然,DeepSeek 也是个好选择」。苏玉调皮地眨了眨眼。
在 「一人公司 (OPC)」「超级个体」 逐渐流行的当下,这样的 「小心机」 并不罕见。当 AI 的好用程度对应成一个个可以计价的 Token,真正拉开差距的,其实是如何使用它的人。
(文中苏玉为化名)
封面来源:《宇宙探索编辑部》
参考资料
- 智能涌现:《杨植麟/张鹏/夏立雪/罗福莉/黄超,谈龙虾,谈 「token 经济学」》
- 每日经济新闻:《AI 催生巨量 token 消耗、内存硬件紧缺 算力租赁热潮下,运营商加码布局液冷服务器》《智谱张鹏:当模型足够强,API 本身就是最好的商业模式》
- 界面新闻:《智谱股价刷历史新高,新一代模型再度提价 10%》
- 深潮 TechFlow:《token 出海,将中国电力卖给全世界》
- 硅星人 Pro:《罗福莉:各位醒醒吧,该结束 token 虚假狂欢了》
【版权声明】 所有内容著作权归属镜相工作室,未经书面许可,不得转载、摘编或以其他形式使用,另有声明除外。















