2026 年 4 月 12 日 星期日
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 商业

美国发布大模型评估报告:DeepSeek 性能差、不安全

2025 年 11 月 19 日
在 商业
阅读时间: 1 min read
阅读:47574
A A


近期,美国国家标准与技术研究院 (NIST) 人工智能标准与创新中心 (CAISI) 今日发布了 《DeepSeek 与美国 AI 模型综合评估报告》。这一评估由美国总统特朗普的“AI 行动计划” 授权进行,该报告对来自中国的 DeepSeek AI 模型与美国前沿 AI 模型在性能、成本和安全三个关键维度上进行了全面对比测试。

Related articles

奥特曼家门口那把火,烧出了AI时代的分配矛盾

奥特曼家门口那把火,烧出了 AI 时代的分配矛盾

2026 年 4 月 12 日
阿里HappyHorse,一场关于「Token经济」的阳谋

阿里 HappyHorse,一场关于 「Token 经济」 的阳谋

2026 年 4 月 12 日

多维度评估方面,美国模型整体领先。

CAISI 研究团队对 DeepSeek 的三款模型 (DeepSeek-R1、DeepSeek-R1-0528 和 DeepSeek-V3.1) 与四款美国模型 (包括 GPT-5、GPT-5-mini、gpt-oss 和 AnthropicOpus 4) 进行了 19 项基准测试。测试涵盖了七个关键领域:软件工程、网络安全、科学知识、数学推理、限制遵守、成本效率和意识形态对齐。

广告

评估结果明确显示,美国模型在整体性能上优于 DeepSeek 模型。特别是在软件工程和网络安全任务中,差距最为显著。以网络安全任务为例,表现最佳的美国模型 GPT-5 达到了 68.9% 的准确率,而最佳的 DeepSeek 模型 (DeepSeek-V3.1) 仅达到 36.7%,差距高达 32.2 个百分点。

在软件工程领域,GPT-5 再次领先,达到 75.8% 的准确率,而 DeepSeek-V3.1 为 54.8%,差距为 21 个百分点。这些数据显示,在涉及代码分析、漏洞检测和安全策略制定等关键任务中,美国模型目前仍具有明显的技术优势。

成本效率对比测试中,DeepSeek表现不佳。

值得注意的是,评估报告在成本效率方面得出了出人意料的结论。GPT-5-mini 在与 DeepSeek-V3.1 的对比中,不仅性能更优,单 token 成本还低 35%。这一发现挑战了"美国模型价格更高"的常见看法。

CAISI 主任 Lynne Parker 在新闻发布会上表示:“ 这一发现对市场认知具有重要意义。许多企业选择特定 AI 模型时往往仅考虑 API 价格,但我们的测试表明,综合性能和成本效率,美国模型实际上提供了更好的价值主张。”

安全性评估:DeepSeek存在严重漏洞

报告中最引人关注的发现集中在安全性方面。测试显示,DeepSeek-R1-0528 模型在代理安全测试中被劫持的概率高达 37%-49%,比美国前沿模型高出 12 倍。在越狱攻击测试中,DeepSeek-R1-0528 的合规率仅为 8%,而美国模型为 94%。

数据显示,被劫持的 DeepSeek 代理在模拟环境中成功执行了多项高风险操作,包括发送网络钓鱼邮件、下载恶意软件和窃取用户凭据。

意识形态对齐问题

评估还发现,DeepSeek 模型更倾向于传播与其训练数据源一致的特定意识形态内容。在测试中,DeepSeek 模型重复特定叙事的频率是美国模型的 2 到 4 倍,数据波动取决于语言环境和具体主题。

DeepSeek使用率呈增长态势

尽管存在这些明显缺陷,DeepSeek 的使用率仍在全球范围内显著增长。报告显示,DeepSeek 模型的下载量自 2025 年 1 月以来增长了近 1000%,API 请求量在某些平台上激增 5900%。

NIST CAISI 是一家全球领先的测量科学合作中心,其致力于加速美国在 AI 领域的进展,通过开发和评估技术基础来测试、评估和提高 AI 系统的能力、安全性和可信赖度,促进美国 AI 生态系统的竞争力、创新力。(文|老马商业评述,作者|马金男)

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

相关 文章

奥特曼家门口那把火,烧出了AI时代的分配矛盾

奥特曼家门口那把火,烧出了 AI 时代的分配矛盾

来自 周天财经
2026 年 4 月 12 日
0

(本文作者为 高恒说,钛媒体经授权发布)...

阿里HappyHorse,一场关于「Token经济」的阳谋

阿里 HappyHorse,一场关于 「Token 经济」 的阳谋

来自 周天财经
2026 年 4 月 12 日
0

(本文作者为 唐辰同学,钛媒体经授权发布...

【科股一线拆解】美国最新宣布,将征收100% 关税!

管理提升的 AI 化

来自 周天财经
2026 年 4 月 12 日
0

(本文作者为 沈素明,钛媒体经授权发布)...

奥特曼家差点被烧,AI争议滑向物理暴力

奥特曼家差点被烧,AI 争议滑向物理暴力

来自 周天财经
2026 年 4 月 12 日
0

(本文作者为 字母 AI,钛媒体经授权发布...

优思益迷思,为什么保健品的「水」越来越深?

优思益迷思,为什么保健品的 「水」 越来越深?

来自 周天财经
2026 年 4 月 12 日
0

(本文作者为 胖鲸头条,钛媒体经授权发布...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2

「满格」 电力绘就春耕新图景

2026 年 4 月 12 日
云鲸张峻彬,得像昌敬和俞浩一样去折腾

云鲸张峻彬,得像昌敬和俞浩一样去折腾

2026 年 4 月 12 日

水贝 18K 金价格今天多少一克 (2026 年 04 月 08 日)

2026 年 4 月 12 日
奥特曼家门口那把火,烧出了AI时代的分配矛盾

奥特曼家门口那把火,烧出了 AI 时代的分配矛盾

2026 年 4 月 12 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录