【TechWeb】4 月 16 日消息,Gartner 预测,到 2030 年,生成式 AI 提供商对 1 万亿参数大语言模型 (LLM) 的推理成本将比 2025 年降低 90% 以上。

AI Token 是生成式 AI 模型处理的数据单位。本次分析中,1 Token 等于 3.5 字节数据,约合 4 字符。
Gartner 高级研究总监 Will Sommer 表示:「推动这一成本下降的因素包括半导体和基础设施效率的提升、模型设计方面的创新、芯片利用率的提高、专用推理芯片的普及以及针对特定用例的边缘设备应用。」
基于这些趋势,Gartner 预测,到 2030 年,大语言模型的成本效益将比 2022 年开发的同等规模早期模型高出多达 100 倍。
然而,生成式 AI 提供商的 Token 成本下降不会完全传导给企业客户。此外,前沿智能所需的 Token 数量将远超当前主流应用。例如,代理式模型每项任务所需的 Token 数量是标准生成式 AI 聊天机器人的 5 至 30 倍并且能够执行比人类使用生成式 AI 更多的任务。
尽管 Token 单位成本的下降将推动生成式 AI 技术的进步,但这些进步将导致 Token 需求急剧增长。由于 Token 消耗增速快于成本降幅,预计整体推理成本仍将上升。
Sommer 表示:「首席产品官 (CPO) 不应将商品 Token 成本的下降与前沿推理的普及混为一谈。随着商品化智能的成本趋近于零,支持高级推理所需的计算和系统资源依然稀缺。如果当前首席产品官用廉价的 Token 掩盖架构的低效,那么将来会在实现代理式应用规模化上遇到难题。」
为了创造价值,平台需要能够编排多种不同模型的工作负载。常规的高频任务必须发送到更高效的小型和领域专用语言模型,这些模型如果能够与专业工作流对齐,则其性能会优于通用解决方案且成本仅为后者的一小部分。此外,必须严格管控前沿级模型的高成本推理并且仅将其用于高利润、复杂的推理任务。
【TechWeb】4 月 16 日消息,Gartner 预测,到 2030 年,生成式 AI 提供商对 1 万亿参数大语言模型 (LLM) 的推理成本将比 2025 年降低 90% 以上。

AI Token 是生成式 AI 模型处理的数据单位。本次分析中,1 Token 等于 3.5 字节数据,约合 4 字符。
Gartner 高级研究总监 Will Sommer 表示:「推动这一成本下降的因素包括半导体和基础设施效率的提升、模型设计方面的创新、芯片利用率的提高、专用推理芯片的普及以及针对特定用例的边缘设备应用。」
基于这些趋势,Gartner 预测,到 2030 年,大语言模型的成本效益将比 2022 年开发的同等规模早期模型高出多达 100 倍。
然而,生成式 AI 提供商的 Token 成本下降不会完全传导给企业客户。此外,前沿智能所需的 Token 数量将远超当前主流应用。例如,代理式模型每项任务所需的 Token 数量是标准生成式 AI 聊天机器人的 5 至 30 倍并且能够执行比人类使用生成式 AI 更多的任务。
尽管 Token 单位成本的下降将推动生成式 AI 技术的进步,但这些进步将导致 Token 需求急剧增长。由于 Token 消耗增速快于成本降幅,预计整体推理成本仍将上升。
Sommer 表示:「首席产品官 (CPO) 不应将商品 Token 成本的下降与前沿推理的普及混为一谈。随着商品化智能的成本趋近于零,支持高级推理所需的计算和系统资源依然稀缺。如果当前首席产品官用廉价的 Token 掩盖架构的低效,那么将来会在实现代理式应用规模化上遇到难题。」
为了创造价值,平台需要能够编排多种不同模型的工作负载。常规的高频任务必须发送到更高效的小型和领域专用语言模型,这些模型如果能够与专业工作流对齐,则其性能会优于通用解决方案且成本仅为后者的一小部分。此外,必须严格管控前沿级模型的高成本推理并且仅将其用于高利润、复杂的推理任务。
【TechWeb】4 月 16 日消息,Gartner 预测,到 2030 年,生成式 AI 提供商对 1 万亿参数大语言模型 (LLM) 的推理成本将比 2025 年降低 90% 以上。

AI Token 是生成式 AI 模型处理的数据单位。本次分析中,1 Token 等于 3.5 字节数据,约合 4 字符。
Gartner 高级研究总监 Will Sommer 表示:「推动这一成本下降的因素包括半导体和基础设施效率的提升、模型设计方面的创新、芯片利用率的提高、专用推理芯片的普及以及针对特定用例的边缘设备应用。」
基于这些趋势,Gartner 预测,到 2030 年,大语言模型的成本效益将比 2022 年开发的同等规模早期模型高出多达 100 倍。
然而,生成式 AI 提供商的 Token 成本下降不会完全传导给企业客户。此外,前沿智能所需的 Token 数量将远超当前主流应用。例如,代理式模型每项任务所需的 Token 数量是标准生成式 AI 聊天机器人的 5 至 30 倍并且能够执行比人类使用生成式 AI 更多的任务。
尽管 Token 单位成本的下降将推动生成式 AI 技术的进步,但这些进步将导致 Token 需求急剧增长。由于 Token 消耗增速快于成本降幅,预计整体推理成本仍将上升。
Sommer 表示:「首席产品官 (CPO) 不应将商品 Token 成本的下降与前沿推理的普及混为一谈。随着商品化智能的成本趋近于零,支持高级推理所需的计算和系统资源依然稀缺。如果当前首席产品官用廉价的 Token 掩盖架构的低效,那么将来会在实现代理式应用规模化上遇到难题。」
为了创造价值,平台需要能够编排多种不同模型的工作负载。常规的高频任务必须发送到更高效的小型和领域专用语言模型,这些模型如果能够与专业工作流对齐,则其性能会优于通用解决方案且成本仅为后者的一小部分。此外,必须严格管控前沿级模型的高成本推理并且仅将其用于高利润、复杂的推理任务。
【TechWeb】4 月 16 日消息,Gartner 预测,到 2030 年,生成式 AI 提供商对 1 万亿参数大语言模型 (LLM) 的推理成本将比 2025 年降低 90% 以上。

AI Token 是生成式 AI 模型处理的数据单位。本次分析中,1 Token 等于 3.5 字节数据,约合 4 字符。
Gartner 高级研究总监 Will Sommer 表示:「推动这一成本下降的因素包括半导体和基础设施效率的提升、模型设计方面的创新、芯片利用率的提高、专用推理芯片的普及以及针对特定用例的边缘设备应用。」
基于这些趋势,Gartner 预测,到 2030 年,大语言模型的成本效益将比 2022 年开发的同等规模早期模型高出多达 100 倍。
然而,生成式 AI 提供商的 Token 成本下降不会完全传导给企业客户。此外,前沿智能所需的 Token 数量将远超当前主流应用。例如,代理式模型每项任务所需的 Token 数量是标准生成式 AI 聊天机器人的 5 至 30 倍并且能够执行比人类使用生成式 AI 更多的任务。
尽管 Token 单位成本的下降将推动生成式 AI 技术的进步,但这些进步将导致 Token 需求急剧增长。由于 Token 消耗增速快于成本降幅,预计整体推理成本仍将上升。
Sommer 表示:「首席产品官 (CPO) 不应将商品 Token 成本的下降与前沿推理的普及混为一谈。随着商品化智能的成本趋近于零,支持高级推理所需的计算和系统资源依然稀缺。如果当前首席产品官用廉价的 Token 掩盖架构的低效,那么将来会在实现代理式应用规模化上遇到难题。」
为了创造价值,平台需要能够编排多种不同模型的工作负载。常规的高频任务必须发送到更高效的小型和领域专用语言模型,这些模型如果能够与专业工作流对齐,则其性能会优于通用解决方案且成本仅为后者的一小部分。此外,必须严格管控前沿级模型的高成本推理并且仅将其用于高利润、复杂的推理任务。







