上周看到黄仁勋那句"Nobody writes prompts anymore. The new job is to write and handle loops",我愣了几秒。
Loop 是什么?就是你不再亲手给 AI 下指令,而是设计一套机制,让它自己跑、自己验、不合格自己重来。你的角色从"写指令的人"变成"设计规则的人"。
Claude Code 之父 Boris Cherny 更夸张——据说卸载了 IDE,手下几百个小 Agent 自己跑,搞不定的才进他收件箱。
然后我想到了自己做内容评测的经历。
以前我是这么干的
打开 ChatGPT,写:"假装你是 24 岁年轻人,评价这篇文案,打 1-10 分。"
AI 回一句"这篇文案还不错,我给 7 分"。
换个角度再问,"假装你是 45 岁中年人",他给 3 分。
一轮一轮聊,人全程盯着。一天下来脖子酸,产出就几个分数。
这不就是卡帕西吐槽的:"人就是瓶颈。"
后来我发现了一件事
评测这件事和编程是一样的——不该是一个 Prompt 一个 Prompt 地聊。
你想想 Loop 最精妙的原则是什么:拆卷子和判卷子不能是同一个人。 Claude Code 的做法是大模型写代码,另一个独立小模型负责验收。
那评测呢?你让 ChatGPT 既当创作者又当裁判,它怎么判都是 7 分——因为它在判自己的审美。
RaaS100 万智测评就在做这个。你不再写"假装你是 XX 人群评价这篇文案"。你只定义两件事——测谁、测什么。然后系统启动 N 个独立 AI 测试员 (万级人设库,每个带年龄、城市、消费力等标签),各自独立打分后聚合分布。你直接看报告。如果你也对此感兴趣,欢迎添加我微信,我们一起来聊聊。
拆卷子和判卷子天然分开。不是"一个模型假装不同人",是独立子智能体各自判断。
人和 AI 的分工变了:你只做规则设计,系统替你跑完整条评测回路。
Loop 是所有 AI 工作流的下一站
从 Prompt → Context → Harness → Loop,四次范式跃迁写的是同一件事:你对 AI 的掌控粒度在往上走,从"写一句话"变成"搭一个能自己转的系统"。
学术上姚顺雨 2022 年的 ReAct 早就揭示了——AI 不该一次性输出,该是思考→行动→观察→再思考的循环。
少写一条 Prompt 问模型"你觉得怎么样",多想想怎么搭评测回路。这才是 Loop 时代的正确用法。









