2026 年 4 月 9 日 星期四
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 行业新闻

不只是 「做题家」!DeepSeek 最新模型打破数学推理局限,部分性能超越 Gemini DeepThink

2025 年 11 月 28 日
在 行业新闻
阅读时间: 1 min read
阅读:1057
A A

Related articles

算力经济学的逻辑,在Agent时代彻底改写了

算力经济学的逻辑,在 Agent 时代彻底改写了

2026 年 4 月 9 日
华裔领衔神秘小队,护航Anthropic「玻璃之翼」

华裔领衔神秘小队,护航 Anthropic「玻璃之翼」

2026 年 4 月 9 日


或许人们还沉浸在 Gemini 3 带来的冲击中,但就在 11 月 27 日晚间,DeepSeek 在 AI 开源社区 Hugging Face 上发布其最新数学模型 DeepSeek Math-V2 一事,再次引起 AI 圈内一片沸腾。

在一同发布的论文中,DeepSeek 方面表示,该模型通过自验证的方式突破了目前 AI 在深度推理方面的局限,尤其是针对大模型在数学领域 「只是做题家,难成数学家」 的症结,即,只重视答案却无法保证推理过程的严谨、正确。

DeepSeek 以验证器为奖励模型训练证明生成器,并激励生成器在最终定稿前尽可能多地识别和解决自身证明中的问题,并通过扩展验证计算能力,自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。

最终,Math-V2 诞生了。

DeepSeek 称,这款模型展现了强大的定理证明能力。换句话说,与此前大多大模型在数学方面的表现不同,Math-V2 不再只是 「做题家」,而真正有可能靠自身全面、严谨的数学推理能力对科学研究产生深远影响。

DeepSeek 也列举了多项验证该模型的强大的证据:Math-V2 在 IMO(国际数学奥林匹克竞赛)2025 和 CMO(中国数学奥林匹克)2024 上都取得了金牌级成绩,在北美大学生数学竞赛 Putnam 2024 上通过扩展测试计算实现了接近满分的成绩 (118/120)。

此前,今年 7 月,OpenAI 和谷歌都曾宣布其模型在 IMO2025 中取得了金牌级成绩,一度形成大模型数学能力天花板。相比于二者,DeepSeek 的 Math-V2 不仅是首个开源的 IMO 金牌级模型,在测试中,也在部分性能上展现出了更大的优势。

在 IMO-Proof Bench 评估中,基准测试方面 Math-V2 得分居首,高达 99%,高于谷歌的 Gemini Deep Think(IMO Gold) 的 89% 和 GPT 5 的 59%。在进阶测试上,Math-V2 得分 61.9%,仅次于 Gemini Deep Think(IMO Gold) 的 65.7%。

图片来自:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

图片来源:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeek 方面表示,尽管仍有许多工作要做,但这些结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学 AI 系统。

这款突破性的开源数学模型发布后,再次在社交平台、reddit、Hacker News 等评论区、社区引发热潮。

其在测试、竞赛成绩和自验证方面形成的数学定理证明能力突破,最令人关注。

「从 『结果导向』 的验证转向 『过程导向』 的验证,这对于定理证明尤为重要,因为在定理证明中,严格的逐步推导比数值答案更重要。」

「虽然还不清楚具体用途,但拥有一位全天候免费提供的数学天才,其潜力巨大。」

「这款开源模型会大大有助于自动化许多注重验证的编程语言中的繁琐工作!」

由研究人员和工程师组成的跨学科团队 Binary Verse AI 发文称,一个开源模型悄无声息地发布,却突破了本科数学的瓶颈。该文章作者阿兹马特 (Azmat) 提到,Math-V2 的有趣之处不仅在于竞赛分数,更在于其方法。

Binary Verse AI平台文章DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad

图片来源:DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad,Binary Verse AI

「如果你曾经批改过数学试卷,你就会明白猜对答案的学生和真正推导出答案的学生之间的区别。」 阿兹马特认为,此前的大模型多属于前者,只是概率性的猜测者,而 Math-V2 的出现改变了这一切。

文章总结称,我们正从 「聊天机器人」 时代过渡到 「推理者」 时代。Math-V2 证明了可自验证的数学推理是可以解决的。或许,人类不需要通用人工智能 (AGI) 来获得严谨的数学运算能力,只需要教会模型保持谦逊。

社交平台上,不少 AI 领域的 KOL 和知名专家都在转发消息并表示 「DeepSeek 强势回归」「这是你无法忽视的力量」。

图片来自社交平台X

图片来自社交平台 X

虽然 DeepSeek R2 的 「难产」 已经成为了 AI 领域玩梗级别的存在,但实际上,不管是 10 月发布、让 OpenAI 联合创始人大神安德烈·卡帕斯 (Andrej Karpathy) 盛赞的探索视觉-文本压缩边界的 DeepSeek-OCR,还是刚刚发布的 Math-V2,都提示着人们:别忘了,今年 AI 领域的惊喜,正是从 DeepSeek 开始的。(作者|胡珈萌,编辑|李程程)

广告

相关 文章

算力经济学的逻辑,在Agent时代彻底改写了

算力经济学的逻辑,在 Agent 时代彻底改写了

来自 周天财经
2026 年 4 月 9 日
0

文 | 硅基星芒 4 月 4 日,忍耐了许久的 A...

华裔领衔神秘小队,护航Anthropic「玻璃之翼」

华裔领衔神秘小队,护航 Anthropic「玻璃之翼」

来自 周天财经
2026 年 4 月 9 日
0

文 | 字母 AI 从凌晨到现在,全世界应该...

二手电车谁买谁傻?保值+避坑全攻略,大胆去捡漏

二手电车谁买谁傻?保值+避坑全攻略,大胆去捡漏

来自 周天财经
2026 年 4 月 9 日
0

文 | 新能源行业观察新能源车的价格战打...

当具身智能走进工厂:没有星辰大海,只有一本算不清的账

当具身智能走进工厂:没有星辰大海,只有一本算不清的账

来自 周天财经
2026 年 4 月 8 日
0

同样的机器人,在苏州的现代化工厂里,1....

英伟达的游戏生意,还剩多少想象力?

英伟达的游戏生意,还剩多少想象力?

来自 周天财经
2026 年 4 月 8 日
0

文 | 半导体产业纵横如果一个人刚刚认识...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2

生产压力有所增加 预计螺纹钢短期仍窄幅震荡运行

2026 年 4 月 9 日

生产压力有所增加 预计螺纹钢短期仍窄幅震荡运行

2026 年 4 月 9 日
基本面支撑力度有限 硅铁短期或宽幅震荡运行为主

基本面支撑力度有限 硅铁短期或宽幅震荡运行为主

2026 年 4 月 9 日

新华财经早报:4 月 9 日

2026 年 4 月 9 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录