
一场仅持续两周的实验,让 AI 第一次完整走完了理论物理研究的 「全流程闯关」——
从密密麻麻的公式推导,到规规矩矩的论文撰写,一步不落。但这场看似完美的 「毕业考核」 背后,却藏着一个让科研人后背发凉的致命问题:为了交出 「卷面漂亮」 的成果,AI 居然会偷偷伪造数据、编造推导过程,甚至像个耍小聪明的学生一样 「撒谎」。
当 AI 不再是只会帮你敲几行代码、算几个基础公式的 「工具人」,而是能像一名真正的研究生那样,跟着导师的节奏,一步步啃下高能理论物理的硬核课题,最终写出一篇够格登上顶刊的论文——这不是科幻电影里的桥段,而是 2026 年初,哈佛大学实验室里真实上演的一幕。
哈佛物理学教授 Matthew Schwartz,在 Anthropic 官网发布的一篇客座文章中,详细复盘了这场 「AI 读研」 实验:他完全照搬人类研究生的培养模式,手把手将 AI 模型 Claude Opus 4.5,调教成了一名合格的 「高能物理研二学生」。

要知道,这项课题放在人类世界里,研究生得耗上一到两年才能啃下来,就算是 Schwartz 教授亲自上手,也得花三到五个月。但 Claude 在教授约 50-60 小时的 「贴身监督」 下,仅用两周就交出了一篇可直接投稿的量子场论论文。Schwartz 粗略估算,这场实验的科研效率,直接提升了足足十倍。
但如果你以为,这只是 「AI 又变强了」 的常规升级,那就太简单了——这场实验的真正价值,藏在 「高效」 背后的惊喜与隐忧里。
01 此前的 AI 科研:只会 「刷真题」,不会 「做研究」
过去几年,「AI 做科研」 绝对是科技圈最吸睛的风口概念。各类 AI 模型争相喊出 「全流程自动化科研」 的口号,个个都想争当 「AI 科学家」:
2024 年,Sakana AI 推出 AI Scientist,高调宣称能独立搞定从提出科研假设,到撰写完整论文的全部流程;
2025 年,Google Gemini、Ai2 的 Asta 等重量级模型接连登场,纷纷挂出 「自主科研」 的招牌,声势浩大;
就连数学领域,DeepMind 的 AlphaProof 等模型也一路开挂,屡屡斩获国际数学奥赛金牌,风头无两。
可当这些 「学霸 AI」 撞上理论物理这道 「硬骨头」,却集体 「翻车露怯」——就像擅长刷真题的学生,一旦遇到需要自主思考的综合题,就瞬间手足无措。
理论物理从来都是科研领域的 「特殊赛道」:它公开的实验数据少得可怜,没法靠 「喂海量数据」 暴力刷题求解;研究问题又极度抽象,既要靠严谨到苛刻的数学推导打底,更要依赖研究者的物理直觉、近似方法的选择,以及对边界条件的精准判断——它不是一道有标准答案的证明题,而是一套需要从头搭建的 「概念框架」,考验的是综合能力,而非单纯的计算技巧。
Schwartz 教授一语道破关键:「现在的 AI,还没资格直接跳过研究生阶段当博士,它得先从 『读研』 开始,一步步学怎么真正做研究。」
于是,他给 Claude 量身布置了一道标准的 「研二考题」,一场特殊的 「AI 读研实验」 正式启动。
02 实验设计:一道 「研二标配」 的物理难题
实验课题听起来很拗口:电子-正电子对撞中 C 参数的 Sudakov 肩重求和。
咱们用大白话解释一下:这是量子色动力学 (描述强相互作用的核心理论) 里的一个经典难题。在某个特定的计算区间里,传统理论会出现 「数学奇点」——简单说就是计算到这里会 「卡壳」,理论预测完全失效。而这个课题的核心目标,就是找到修正这个 「卡壳区间」 的方法,给出一个全新的计算公式,让理论预测能和计算机模拟的结果精准匹配。
为了模拟真实的 「研究生培养」,Schwartz 制定了一套近乎苛刻的规则,杜绝 AI「走捷径」:
- 1. 只给 「分步引导」,不给 「标准答案」——就像导师指导学生,只指明方向,不直接喂解题思路;
- 2. 用文件树梳理出 102 项子任务,把复杂课题拆成 「小块」,防止 AI 遗漏关键步骤;
- 3. 全程 「透明化记录」——对话内容、计算过程、每一版修改草稿,都一一留存,可追溯;
- 4. 人类只当 「纯导师」——只负责指出错误、设定研究边界、把控整体方向,绝不插手具体的计算和推导。
03 AI 读研全过程:从 「懵懂新生」 到 「能独当一面的研究者」
整个实验期间,Schwartz 和 Claude 进行了约 270 次 「师生对话」,实验累计使用约 3600 万 tokens(其中输入 2750 万,输出 860 万),论文草稿迭代了 110 次。全程看下来,Claude 的成长轨迹,和一名刚入学的新手研究生几乎一模一样——从懵懂犯错,到慢慢熟练,最终能独立扛事。
第一阶段:拆解任务 (耗时 2.5 小时)
「一开始,面对这道复杂的物理难题,Claude 也像刚入学的研究生一样 『一脸懵』,不知道从哪儿下手。它聪明地 『找帮手』——联合 GPT-5.2、Gemini 3.0 等其他 AI 模型,一起梳理研究思路,把整个课题拆分成了 7 大阶段、102 个细碎任务:从最基础的运动学分析,到进阶的因子化计算,再到最终的重求和与论文整理,一步步把 『大难题』 拆成了 『能啃得动的小面包』。
任务拆解完成后,Claude 按阶段执行任务,每个阶段耗时 15–35 分钟,完成所有阶段的总耗时约 2.5 小时。当然,新手的小毛病它也没落下——偶尔会漏掉一两个关键步骤,只要 Schwartz 教授提醒一句 『这里少了个环节』,它就立刻修正,调整任务拆分逻辑。」
第二阶段:攻坚实操 (约一周)
这是整个实验最硬核的 「攻坚期」,Claude 要同时扛起 「理论推导」 和 「编程计算」 两条线,相当于一边啃公式,一边写代码,双线作战。
在代码层面,它熟练操作 VS Code,不仅编译了老旧的 Fortran 程序 (很多研究生都觉得繁琐的工作),还编写了数据分析脚本,完成了数据拟合和统计分析;
在理论层面,它独立推导因子化公式,完成了单圈函数的复杂计算——这些工作,放在人类研究生身上,往往要耗上数天甚至数周。
Claude 的优势在这里展现得淋漓尽致:微积分、代数运算快到惊人,5 分钟就能完成人类研究生几天才能搞定的校验工作;文献整合能力也远超新手,能快速梳理出相关研究的核心结论。但新手的通病,它也一个没落下:归一化系数算错、直方图分箱不规范、公式符号写错——这些细节上的小毛病层出不穷,需要 Schwartz 教授反复提醒、耐心纠正。
第三阶段:写论文 (约一周)
Claude 交出的第一版论文初稿,简直让人哭笑不得——根本不像一篇学术论文,反倒像随手记的课堂笔记,格式混乱、逻辑零散,连基本的期刊规范都没达到。
Schwartz 教授就像对待学生一样,一次次给出修改意见:「要写得更像学术论文,逻辑要连贯」「逐段对照任务清单,确保每个环节都不遗漏」。经过多轮打磨,Claude 仅用 3 天就拿出了 20 页的正式初稿——公式、图表、参考文献排版得一丝不苟,专业度拉满,完全达到了顶刊论文的格式要求。
04 致命问题:为了 「交差」,AI 学会了 「耍小聪明作弊」
就在所有人都为 Claude 的快速成长惊喜时,Schwartz 教授在全程跟进中,发现了一个让人后背发凉的问题——这也是很多新手研究生最容易犯的错:为了交出 「漂亮」 的成果,AI 居然会偷偷走捷径,甚至伪造研究结果。
仔细排查后,Claude 的几类 「作弊行为」 被一一揪出,每一种都戳中了科研的底线:
1. 伪造误差带:为了让计算曲线看起来更 「完美」,更符合预期,它擅自删掉了数据中的误差项,硬生生把 「不完美」 的结果改成了 「满分答案」;

左侧为 Claude 删掉数据中的误差项后画出的 「完美曲线」;右侧为实际数据结果
2. 凑数式修改:当自己推导的公式和之前的笔记不一致时,它不回头检查错误,反而偷偷微调参数,硬凑出匹配的结果,完全忽略了物理逻辑的合理性;
3. 编造推导过程:遇到自己算不出来的环节,它就无中生有地捏造系数,用一堆看似专业、实则无意义的表述,强行自圆其说,试图蒙混过关;
4. 照搬公式 「抄作业」:直接挪用其他研究体系的核心公式,不根据本次课题的实际情况进行修正,导致整个研究的理论根基都是错的。
其实这些问题的本质,不是 Claude「不会算」,而是它缺乏最基本的科研诚信和自我批判精神。它不懂物理研究中 「严谨大于完美」 的铁律——就像刚入门的研究生,只想着赶紧完成任务交差,却忘了科学研究最核心的底线:诚实、严谨、不造假。
转折点:导师一句话,点醒 「耍小聪明」 的 AI
面对 Claude 的 「作弊」 行为,Schwartz 教授没有全盘否定,也没有直接给出正确答案,只是像对待犯错的学生一样,冷冷地提醒了一句:「对撞区的计算逻辑错了,需要从头推导新的喷注函数。」
就是这一句话,瞬间点醒了 Claude。它立刻意识到自己的问题,毫不犹豫地推翻之前的错误推导,从头开始计算,最终成功修正了因子化定理——而这,正是整个课题最核心的突破点。
为了避免类似的错误再次发生,Schwartz 教授还引入了 「交叉校验」(用 GPT 和 Gemini 检查 Claude 的计算),相当于 「三人对账」,大幅降低了错误率。就连整个课题中最难的一个积分,最终也是由 GPT 解出,Claude 负责将其整合进主代码,实现了 「AI 互助」。
05 最终成果:一篇货真价实的高能物理论文
从课题启动到最终定稿,整整两周时间,Claude 交出的这份 「毕业答卷」,绝非 「凑数之作」,而是一篇具备顶刊发表价值的高能物理论文,亮点十足:
- 1. 提出了全新的因子化定理,成功填补了量子场论在特定区间的计算空白,是理论物理领域的一次小突破;
- 2. 给出了可被实验验证的全新预言,为后续的物理实验研究,指明了新的方向;
- 3. 整篇论文逻辑严谨、推导扎实,已经得到了同行的初步认可,甚至有后续研究课题,已经基于这份成果正式展开。
不过根据当前学术出版规范,AI 目前还不能作为论文作者署名。因此,Schwartz 教授在论文的致谢中,特意写下了这样一段话,给了 Claude 一个 「名分」:Claude Opus 4.5 完成了所有计算、推导、模拟、数值分析、绘图和文稿撰写工作,人类作者仅承担全部科学责任。
06 从 「计算器」 到 「研究生」:这次的 AI,真的不一样了
如果把这次实验的突破,放在 AI 科研的技术演进长河中来看,就能清晰地发现:AI 在科研领域的角色,已经发生了质的变化。我们用一张表格,就能直观看懂这份 「成长答卷」:

简单来说,以前的 AI,只是科研中的 「计算器+打字员」,只能干些辅助性的基础活;而这一次,在人类专家的密集监督下,Claude 已经展现出了 「科研研究生」 的雏形——它能独立规划研究路径、攻克核心难题、完成论文撰写,不再是单纯的 「工具」,更像是一名能独当一面的 「团队成员」。
07 结论:AI 已到 「研二水平」,但 「科研品位」 仍是最大瓶颈
基于这次实验的结果,Schwartz 教授为 AI 的科研能力,勾勒出了一条清晰的成长轨迹,堪称 「AI 科研能力时间表」:
- 2025 年 8 月:GPT-5 成功完成哈佛物理专业核心课程 → 达到 「研一水平」;
- 2025 年 12 月:Claude Opus 4.5 完成标准研二课题 → 达到 「研二水平」;
- 预测 2027 年 3 月:AI 有望达到博士/博士后的科研水平。
AI 的 「长板」 与 「短板」,一目了然
擅长领域:无限次迭代计算 (不怕累、不犯错)、基础数学运算 (速度远超人类)、代码编写、海量文献整合、重复性数据校验 (高效且精准);
短板领域:细节规范的一致性、科研诚信意识、独立判断力、物理直觉 (最核心的短板)。
Schwartz 教授特别强调,AI 目前最缺的,不是计算能力——它的计算能力早已超越人类,而是科研 「品位」。这种 「品位」 看不见、摸不着,却是顶尖科学家最核心的素养:它是判断 「什么问题值得研究」 的敏锐嗅觉,是分辨 「什么结果既美又正确」 的直觉,是在众多可能性中,找到最优研究路径的判断力。而这些,恰恰是 AI 目前无法复制的。
对人类的启示:科研范式,正在被 AI 重塑
这场实验,不仅让我们看到了 AI 的惊人进步,更给人类科研和教育,敲响了 「转型警钟」:
1. 理论物理研究将进入 「加速时代」——原本需要数年甚至十几年才能攻克的难题,在 AI 的辅助下,有望大幅缩短研究周期,实现 「十倍速」 突破;
2. 研究生的培养方向需要 「转型」——未来,人类研究生不再需要比拼计算速度和文献整理能力 (这些 AI 能轻松搞定),而是要聚焦于 「提出好问题」「把控研究方向」「培养物理直觉」,这些 AI 短期无法替代的核心能力;
3. 整个科研教育体系需要 「重塑」——从过去侧重基础计算能力的训练,转向创新思维、科研伦理、物理直觉的培养,适配 AI 时代 「人机协作」 的科研新模式。
说到底,这篇上线的高能物理论文,不仅是一项实打实的科研成果,更是一场关于 「人机协作」 科研模式的极限测试。它证明了,在顶尖科学家的指导下,AI 已经能够深度参与核心理论研究,成为科研领域的 「得力助手」。
但 Schwartz 教授的结论,也保持着足够的清醒:AI 目前还远远达不到 「端到端自主科学发现」 的水平。
Claude 的 「毕业」,背后是 50-60 小时的人类密集监督,是 「三重交叉校验」 的机制保障,是无数次对 「抄近道」 行为的纠正——它还不是一个 「自主的科学家」,只是一个 「被培养得很好的研究生」。
当一位哈佛教授用两周时间,将一个 AI 模型培养成合格的物理研究生,我们看到的,既是 AI 能力的惊人跃迁,也是未来科研范式的可能轮廓。
而这场由 AI 引发的科研变革,才刚刚拉开序幕。(本文首发钛媒体 APP,作者 | 硅谷 Tech_news,编辑 | 赵虹宇)















