2026 年 7 月 5 日星期日

登录
注册

周天财经

没有结果

查看所有结果

没有结果

查看所有结果

周天财经

没有结果

查看所有结果

首页商业

美国发布大模型评估报告：DeepSeek 性能差、不安全

2025 年 11 月 19 日

在商业

阅读时间： 1 min read

阅读：47575

近期，美国国家标准与技术研究院（NIST）人工智能标准与创新中心（CAISI）今日发布了《DeepSeek 与美国 AI 模型综合评估报告》。这一评估由美国总统特朗普的“AI 行动计划” 授权进行，该报告对来自中国的 DeepSeek AI 模型与美国前沿 AI 模型在性能、成本和安全三个关键维度上进行了全面对比测试。

Related articles

海归博士回国创业，一年狂飙4倍，拿下3000亿元市值

海归博士回国创业，一年狂飙 4 倍，拿下 3000 亿元市值

2026 年 7 月 5 日

【数智周报】智平方完成近50亿元融资；豆包：智能体功能将于7月15日下线；可灵AI落地近30亿美元融资；Anthropic推出Claude Science

【数智周报】智平方完成近 50 亿元融资；豆包：智能体功能将于 7 月 15 日下线；可灵 AI 落地近 30 亿美元融资；Anthropic 推出 Claude Science

2026 年 7 月 4 日

多维度评估方面，美国模型整体领先。

CAISI 研究团队对 DeepSeek 的三款模型（DeepSeek-R1、DeepSeek-R1-0528 和 DeepSeek-V3.1）与四款美国模型（包括 GPT-5、GPT-5-mini、gpt-oss 和 AnthropicOpus 4）进行了 19 项基准测试。测试涵盖了七个关键领域：软件工程、网络安全、科学知识、数学推理、限制遵守、成本效率和意识形态对齐。

广告

评估结果明确显示，美国模型在整体性能上优于 DeepSeek 模型。特别是在软件工程和网络安全任务中，差距最为显著。以网络安全任务为例，表现最佳的美国模型 GPT-5 达到了 68.9% 的准确率，而最佳的 DeepSeek 模型（DeepSeek-V3.1）仅达到 36.7%，差距高达 32.2 个百分点。

在软件工程领域，GPT-5 再次领先，达到 75.8% 的准确率，而 DeepSeek-V3.1 为 54.8%，差距为 21 个百分点。这些数据显示，在涉及代码分析、漏洞检测和安全策略制定等关键任务中，美国模型目前仍具有明显的技术优势。

成本效率对比测试中，DeepSeek表现不佳。

值得注意的是，评估报告在成本效率方面得出了出人意料的结论。GPT-5-mini 在与 DeepSeek-V3.1 的对比中，不仅性能更优，单 token 成本还低 35%。这一发现挑战了"美国模型价格更高"的常见看法。

CAISI 主任 Lynne Parker 在新闻发布会上表示：“ 这一发现对市场认知具有重要意义。许多企业选择特定 AI 模型时往往仅考虑 API 价格，但我们的测试表明，综合性能和成本效率，美国模型实际上提供了更好的价值主张。”

安全性评估：DeepSeek存在严重漏洞

报告中最引人关注的发现集中在安全性方面。测试显示，DeepSeek-R1-0528 模型在代理安全测试中被劫持的概率高达 37%-49%，比美国前沿模型高出 12 倍。在越狱攻击测试中，DeepSeek-R1-0528 的合规率仅为 8%，而美国模型为 94%。

数据显示，被劫持的 DeepSeek 代理在模拟环境中成功执行了多项高风险操作，包括发送网络钓鱼邮件、下载恶意软件和窃取用户凭据。

意识形态对齐问题

评估还发现，DeepSeek 模型更倾向于传播与其训练数据源一致的特定意识形态内容。在测试中，DeepSeek 模型重复特定叙事的频率是美国模型的 2 到 4 倍，数据波动取决于语言环境和具体主题。

DeepSeek使用率呈增长态势

尽管存在这些明显缺陷，DeepSeek 的使用率仍在全球范围内显著增长。报告显示，DeepSeek 模型的下载量自 2025 年 1 月以来增长了近 1000%，API 请求量在某些平台上激增 5900%。

NIST CAISI 是一家全球领先的测量科学合作中心，其致力于加速美国在 AI 领域的进展，通过开发和评估技术基础来测试、评估和提高 AI 系统的能力、安全性和可信赖度，促进美国 AI 生态系统的竞争力、创新力。（文｜老马商业评述，作者｜马金男）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

相关文章

海归博士回国创业，一年狂飙4倍，拿下3000亿元市值

海归博士回国创业，一年狂飙 4 倍，拿下 3000 亿元市值

来自周天财经

2026 年 7 月 5 日

（本文作者为硅基象限，钛媒体经授权发布...

【数智周报】智平方完成近50亿元融资；豆包：智能体功能将于7月15日下线；可灵AI落地近30亿美元融资；Anthropic推出Claude Science

【数智周报】智平方完成近 50 亿元融资；豆包：智能体功能将于 7 月 15 日下线；可灵 AI 落地近 30 亿美元融资；Anthropic 推出 Claude Science

来自周天财经

2026 年 7 月 4 日

（本文作者为 ITValue，钛媒体经授...

真正有价值的AI Agent，必须长在业务流程里

OpenAI 要怎么卖广告

来自周天财经

2026 年 7 月 4 日

（本文作者为窄播，钛媒体经授权发布）文...

茅台还是那个茅台，顶流资本用真金白银投票

茅台还是那个茅台，顶流资本用真金白银投票

来自周天财经

2026 年 7 月 4 日

2026 年上半年的 A 股，是属于硬科技的狂...

AI算力爆发，电子玻纤布正成为算力硬件的供给短板

阿莫迪，你比张无忌还厉害

来自周天财经

2026 年 7 月 4 日

（本文作者为字母 AI，钛媒体经授权发布...

加载更多

投诉建议：+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果

查看所有结果

首页

24 小时

世界

商业

基金

期货

股票

行业新闻

黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来！

在下面登录您的帐户

记住我

忘记密码？注册

创建新帐户！

填写以下表格进行注册

所有项目需要填写。登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

手机号

密码

还没有账号？立即注册

用户注册

手机号

邮箱（可选）

密码

确认密码

已有账号？立即登录