2026 年 4 月 10 日 星期五
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 行业新闻

Kimi K2 Thinking,是月之暗面的 「复仇」

2025 年 11 月 11 日
在 行业新闻
阅读时间: 1 min read
阅读:21521
A A

Related articles

蒸馏:全员skill的职场恐怖故事

蒸馏:全员 skill 的职场恐怖故事

2026 年 4 月 10 日
【钛晨报】中国自贸试验区扩围至23个,新增内蒙古;腾讯云:5月9日起对AI算力、容器服务及弹性MapReduce(EMR)相关产品刊例价进行调整;消息称特斯拉Cybercab量产启动

【钛晨报】 中国自贸试验区扩围至 23 个,新增内蒙古;腾讯云:5 月 9 日起对 AI 算力、容器服务及弹性 MapReduce(EMR) 相关产品刊例价进行调整;消息称特斯拉 Cybercab 量产启动

2026 年 4 月 10 日


Kimi K2 Thinking 的发布,对于月之暗面而言,就像是 《基督山伯爵》 里那座名为蒙特克里斯托的宝藏岛,曾被困在伊夫堡的那个 「人」 回来了,而且带着一个让世界措手不及的计划。

在年末预计发布的 Gemini 3 和 GPT-5.1,以及 DeepSeek 的新模型之前,中国大模型厂商月之暗面先拿出了里程碑之作——Kimi K2 Thinking。

该如何形容 Kimi K2 Thinking 的价值?

或许 HuggingFace 联合创始人 Thomas Wolf 的评价,反映出大多数人的心声,「这是又一个 『DeepSeek』 时刻么,开源再次超过闭源。」

彼时,开源的 DeepSeek R1 超过 OpenAI 闭源模型旗舰模型 o1,如今,Kimi K2 Thinking 直接对标 GPT-5、Claude 4.5 Sonnet 这样的顶尖闭源模型,尽管还有一些瑕疵,但是不妨碍月之暗面的成功。

如果说此前的大肆投流商业化以及 DeepSeek 的成功,让不少人对月之暗面心有怀疑,还能不能做最有希望的大模型创业企业,此后 Kimi K1.5 可以视为月之暗面的推理摸索,K2 已经让人感到惊艳,Kimi K2 Thinking 则是确定了内外部的信心。

月之暗面证明了自己,仍然有能力站在大模型第一梯队。

11 月 11 日凌晨,月之暗面创始人杨植麟以及合伙人周昕宇、吴育昕,在海外 Reddit 社区办了一场有问必答线上活动,回答关于 Kimi K2 Thinking 以及大模型相关的问题。

460 万美元成本不重要,K3 或有新架构特性

围绕 Kimi K2 Thinking 的横空出世,外界对其训练方法、工程策略与未来规划一直充满好奇,月之暗面从 460 万美元训练成本的真伪,聊到为何大胆采用未经验证的 Muon 优化器,再到长链推理背后的技术突破,这是一场难得的技术直球交流。

Kimi 团队首先澄清了 「460 万美元训练成本」 这一热门传闻。团队表示,这并非官方数字。训练成本难以量化,尤其是大模型预训练大量依赖研究、探索和失败实验,本身就难以用单纯的金钱衡量。

而关于外界最惊讶的一点——为什么敢在如此大型模型上使用一个几乎没人测试过的 Muon 优化器——团队解释得相当直白:Muon 虽然未经他人验证,但他们严格遵循了缩放定律的验证流程,确保它在所有小规模测试中表现稳定。在 Muon 出现之前,已有几十种优化器和架构被淘汰,这让团队对自己的研究体系建立起了信心。

在硬件方面,Kimi 确认他们使用的是 Infiniband 互联的 H800 GPU,相比美国厂商的高端算力设备并不占优。但团队强调:「我们充分压榨了每一张卡。」 在严格预算下最大化产出,是这支团队的一大风格。

谈到预训练期间的核心指标,团队强调最重要的依然是损失 (Loss)、基准测试表现,以及内部稳定性。每一次架构消融都必须在更大规模前通过验证,不允许跳步。如果模型出现任何异常,扩容会被立刻暂停。

关于数据,Kimi 用了一个颇具浪漫气质的比喻:「找到合适的数据集,是一门艺术。」 团队认为数据之间存在大量交互效应,直觉固然重要,但最终必须以实验为准。

对于外界关心的方向策略,Kimi 也给出了明确态度。选择先发布纯文本模型,是因为视频模型的数据准备与训练周期都更长;至于 1M 上下文窗口,团队已做过尝试,只是目前服务成本过高,未来版本中很可能重新引入。

被许多用户称道的 「K2 独特散文风格」 来自何处?Kimi 表示,这既来自预训练阶段打下的知识底蕴,也来自后训练阶段的风味调校,甚至不同的强化学习策略都会导致截然不同的 「风味差异」。模型性格,某种程度上也反映了团队本人的喜好。

对于一些用户提出的批评,例如模型在战斗场景或冲突对话中过于 「安全」、略显 「有毒的积极」,Kimi 团队坦言这是长期挑战,但相信有解决方案。他们也正在探索如何在保持安全的前提下降低不必要的审查力度。至于 NSFW 内容,团队并不排斥可能性,但前提是建立可靠的年龄验证机制并调整服务条款。

关于技术栈,Kimi 继续强调他们在长链推理上的独特优势。K2 Thinking 目前能稳定完成 200 到 300 步的工具调用,团队将其归功于端到端智能体强化学习训练方式。再加上 INT4 推理带来的速度优势,使得单次长推理成为可能。

至于未来技术升级路线,Kimi 透露他们正在研究新架构 KDA(Kernel Attention Dual Architecture),并很可能在 K3 模型中投入使用。此外,团队不排斥进一步开源更多组件,包括安全对齐技术栈,但同时强调需要找到机制确保开源细化不会被滥用。

Kimi K2 Thinking 强在哪?

按照官方介绍,这是月之暗面目前最强的开源思考模型,拥有 1 万亿参数规模,采用 384 个专家混合架构,它以 「思考型智能体」 为目标打造,能够在使用工具的同时逐步推理,在 Humanity』s Last Exam(HLE)、BrowseComp 等多个基准测试上取得最新的业界领先成绩,在推理、智能体搜索、代码、写作以及通用能力等方面都有大幅提升。

当然,对评分不那么感冒的朋友,更看重实效。Kimi K2 Thinking 能在没有人工干预的情况下,连续执行 200 到 300 次工具调用, 并在数百步的链式推理中保持连贯,解决复杂问题,标志着在测试时扩展 (test-time scaling) 上的最新进展,包括扩大思考 token 的规模,以及扩大工具调用的链路深度,这是堪比 Claude 长程规划和自适应推理能力,Kimi K2 Thinking 直接把门槛大幅拉低。

Kimi K2 Thinking 在多项衡量推理、编码和智能体能力的基准上刷新记录。它在带工具的 HLE 中达到 44.9%,在 BrowseComp 上达到 60.2%,在 SWE-Bench Verified 上达到 71.3%,展现了作为顶级思考型智能体模型的强泛化能力。

图片来自AI生成

图片来自 AI 生成

Kimi K2 Thinking 还能在推理过程中主动调用多种工具,数百步的序列中也能完成规划、推理、执行与自适应调整,处理一些最具挑战性的学术与分析类问题。在某次测试中,它通过 23 次交错进行的推理与工具调用,成功解决了一道博士级数学难题,充分展示了其深度结构化推理能力与长程问题求解能力。

编码也是体现智能体能力的重点,Kimi K2 Thinking 在编码和软件开发任务上表现出显著提升,尤其在 HTML、React 以及组件密集型前端任务上表现突出,能够将想法转化为功能完整、响应灵敏的产品。在代理式编码场景中,它在调用工具的同时进行推理,能够流畅地融入软件代理,精确且灵活地执行复杂的多步骤开发工作流。

低比特量化 (Low-bit quantization) 是减少大规模推理服务器延迟和 GPU 内存占用的有效方法。然而,思考型模型通常使用过长的解码长度,因此量化往往会导致显著的性能下降。

为解决这一挑战,月之暗面在后训练阶段采用了 量化感知训练 (Quantization-Aware Training, QAT),并对 MoE 组件应用 仅权重的 INT4 量化。这使得 K2 Thinking 能够支持原生 INT4 推理,在生成速度上大约提升 2 倍,同时仍保持最先进的性能。

总体来看,月之暗面通过 K2 Thinking 证明其大模型技术能力,也更清晰地印证了当前大模型发展的一个核心趋势:从追求规模参数转向追求推理效能和实用化能力。

但其长期竞争力,仍需放在与 Gemini、GPT 等巨头模型的持续迭代和更广泛的市场检验中观察。行业的竞争,已进入一个比拼技术深度、工程效率与生态策略的更为复杂的综合阶段。(文 | TechPulse ,作者 | 张帅,编辑 | 盖虹达)

广告

相关 文章

蒸馏:全员skill的职场恐怖故事

蒸馏:全员 skill 的职场恐怖故事

来自 周天财经
2026 年 4 月 10 日
0

文 | 脑极体 「你好,我是已离职员工 XX...

【钛晨报】中国自贸试验区扩围至23个,新增内蒙古;腾讯云:5月9日起对AI算力、容器服务及弹性MapReduce(EMR)相关产品刊例价进行调整;消息称特斯拉Cybercab量产启动

【钛晨报】 中国自贸试验区扩围至 23 个,新增内蒙古;腾讯云:5 月 9 日起对 AI 算力、容器服务及弹性 MapReduce(EMR) 相关产品刊例价进行调整;消息称特斯拉 Cybercab 量产启动

来自 周天财经
2026 年 4 月 10 日
0

【钛媒体综合】 日前,国务院印发 《中国 (内...

胡峥:产业链视角下,低成本与高性价比是商业航天的核心趋势 | 钛资本航空航天组

股票精选回顾:哪些奏效了,接下来会怎样

来自 周天财经
2026 年 4 月 10 日
0

(本文作者为 Barrons 巴伦,钛媒体...

独家 | Happy Horse-1.0确系阿里研发,将于近期正式发布

独家 | Happy Horse-1.0 确系阿里研发,将于近期正式发布

来自 周天财经
2026 年 4 月 9 日
0

钛媒体 App 综合多方获悉,业内备受关注的...

SpaceX 的挑战者们:贝索斯和中国军团们追得上吗?

SpaceX 的挑战者们:贝索斯和中国军团们追得上吗?

来自 周天财经
2026 年 4 月 9 日
0

文 | 海豚研究在本篇中,我们重点关注可...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2

4 月 8 日周大福黄金价格报 1476 元/克 较上一日上涨 43 元/克

2026 年 4 月 10 日
国产新能源乘用车3月份出口近35万辆 超3成来自比亚迪

国产新能源乘用车 3 月份出口近 35 万辆 超 3 成来自比亚迪

2026 年 4 月 10 日

蛋氨酸价格快速上涨,聚焦石化 ETF 华夏 (159731) 长期布局机会

2026 年 4 月 10 日
消息称京东近期将上线出行服务 对标打车平台

消息称京东近期将上线出行服务 对标打车平台

2026 年 4 月 10 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录