2026 年 6 月 16 日 星期二
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 基金

同一张图,ChatGPT 说" 很有生活感" 打了 8 分,38 个 AI 测试员看完直接划走了

2026 年 6 月 16 日
在 基金
阅读时间: 1 min read
阅读:863
A A


这事说起来挺荒唐的。我写了条外卖省钱的抖音口播脚本,顺手让 AI 生成了一张封面图。先丢给 ChatGPT,它看图之后说"画面生活感强,容易建立信任",把完播率从 7.5 调高到了 8 分。我又原封不动丢给一个能同时读脚本和看画面的 AI 评测引擎,跑了 38 个虚拟用户——23.7% 的人因为"AI 水印和英文界面"直接弃剧。同一个文件,一个人工智能说真实,另一群人工智能说虚假。

Related articles

机器人板块高开高走,资金持续布局机器人 ETF 易方达 (159530)

2026 年 6 月 16 日

2025 年我国经济增长新增用电首次全部由绿电支撑,绿色电力 ETF 易方达 (562960) 配置价值凸显

2026 年 6 月 16 日

一、先唠叨一下我为什么做这个测试

广告

两年前我帮一个博主朋友写抖音脚本,他每次都是拍完丢上去等结果。"拍一条发出去就是测试,成本也就几十块嘛,"他说。

现在一个小团队拍一条口播,从脚本到拍摄到剪辑,少说两小时。一条信息流素材做出来,投五百块钱没量,你再投五百还是没量,沉没的就是真金白银和时间。但你真的舍得为了测一条素材,去做五组 AB 测试、请 200 个人做问卷调查吗?没人舍得。

所以我一直在琢磨一个方向:能不能在素材拍出来之前,用 AI 先做一次"预投放"? 也就是让一批虚拟用户提前看完你的脚本和画面,告诉你他们会点赞、转发还是划走。

踩到一个产品叫万智市场测评,RaaS100 平台的。它的逻辑挺有意思——不是让你跟一个大模型聊天让它评价你的素材,而是在后台起一堆独立的子智能体,每个都带不同的人设、偏见和偏好,让它们同时看你的内容,然后把所有人的反应汇总成统计数据。

我拿了一条外卖省钱的口播脚本加一张配套封面图,做了三轮测试:

第一轮,只把脚本丢给 ChatGPT-5.4,让它以短视频专家的身份评价。第二轮,把图也拖进去,看看它的评分会不会变。第三轮,同样的脚本加图丢进万智,跑了标准模式。

三轮跑完,我发现一个让我觉得这件事值得写下来的对比。

二、我的素材长什么样

脚本很简单,一个叫"饭总教你省钱"的抖音号,主题是揭露外卖软件排序的逻辑陷阱。开头三秒是"你先打开你的外卖软件,随便搜一个东西——",中间讲前几个搜索结果不一定是最好吃的也不一定是最近的,只是交了广告费,然后给出具体操作:往下滑到第六七个,找评分 4.3 左右、月销超过一千单的老店。结尾是"转发给你那个天天被外卖坑的闺蜜"。

配套配图是用 AI 生成的一张画面:人物手持手机展示外卖 App 界面,居家厨房背景。

三、ChatGPT 的表现:看图前和看图后,它都挺乐观

只读脚本的时候,ChatGPT 给了三个维度的判断。完播率预判 7.5 分,说开头钩子有效、结构清晰、理解门槛低。传播力 7 分,说话题普适但缺少金句和争议点。转化力 6.5 分,说结尾关注引导偏常规,没有非关注不可的理由。总评是"一条合格的实用型短视频脚本,能看完但不太容易爆"——这个结论和我自己的直觉差不多,中规中矩。

然后我把配图拖进去。ChatGPT 看完图之后说了这么一段话,我到现在还记得:

"这张参考图传达的信息很明确:真人出镜、手持手机展示外卖 App 页面、居家厨房场景、整体偏生活化、可信感、口播博主风。画面和文案是匹配的。生活感强,容易建立信任——会比纯截图、纯录屏更像真实经验分享。"

然后它主动把分数调高了。完播率从 7.5 拉到 8 分,传播力从 7 拉到 7.2,转化力从 6.5 拉到 6.8。ChatGPT 的最终结论是:有了真人手持手机的视觉呈现以后,画面更贴近用户实际使用场景,增强了停留和信任。

我看到这里的时候,说实话,我挺踏实的。一条脚本被大模型打了三次分,每次都稳中有升,怎么看都不像是会翻车的样子。

四、万智测评的结果:同一张图,判了"制作不合格"

万智跑了 38 个数字受访者。为什么只有 38 个?因为我选的人群条件叠得比较细——20 到 35 岁、低中消费力、享乐加社交型性格、接地气加潮流花哨审美、冲动型决策、主动分享——多层交叉筛选之后库里匹配的人设就剩这么些。数量虽小,但每个都是精准匹配目标受众的。

总分和定性
综合分 6.02 分,满分 10。等级判定措辞干脆利落——"待改进,需优化制作"。不是改进内容,是改进制作。

内容层和制作层的分数撕裂
万智对短剧类素材拆了 14 个维度打分。我从来没在一个评测工具里见过这种大卸八块式的拆法,但拆完之后分数分布确实暴露了最核心的问题。

内容相关的维度全线飘高:口播信息层 7.86 分,转化潜力 7.36 分,完播率预判 7.05 分,节奏把控 6.96 分。这说明我的脚本本身没有问题,甚至可以说相当扎实——用户看完之后觉得信息有价值、有转发的冲动。

但制作相关的维度,分数惨不忍睹。画面质感 4.74 分,特效包装更是低到 3.70 分,服化道美术 4.97 分,镜头叙事 5.36 分。内容层和制作层的分数差了将近一倍。短视频行业有个说法叫"好本子拍烂了"——这就是标准样本。

这个问题,ChatGPT 一个字都没提。不是它不想提,是它看同一张图的时候,视角和普通观众完全不同。

最扎心的对比:它说"生活感强",他们说"AI 水印太假"
ChatGPT 对画面的核心判词是"生活感强""容易建立信任""更像真实经验分享"。

万智测评报告里用户弃剧的原因写着:"多人明确因 AI 水印、英文界面等制作问题流失。制作真实感风险突出——若持续存在,可能引发更大范围信任危机,尤其影响女性及一线用户。"

同样一张图。一个评价体系说它像真的,另一个评价体系说它一眼假。

仔细想这背后的原因,不是 ChatGPT 的图识别能力差——GPT-5.4 的视觉识别非常准,它清楚画面里有人物、有手机、有外卖界面、有厨房背景。问题是它不会像真人那样,对"AI 生成痕迹"产生本能级的反感。一个中文外卖省钱的博主,配图里的 App 界面是英文的,图片上还有 AI 水印——任何一个刷抖音的中国人看到这个画面,脑子里蹦出的第一个词就是"假的"。ChatGPT 识别到了这些元素,但它没有"这不对劲"的直觉。因为它从来不是一个人,它天生不会挑剔。

五、两条评测体系,本质上是两个物种

对比到这里,我自己总结了一个框架。

做一个评测,你需要回答三个问题:这个人喜不喜欢?哪些人喜欢哪些人不喜欢?改完之后会不会变好?

ChatGPT 回答了第一个问题,但用的方式是一个温和的、有文学素养的主观判断。万智回答了三个问题中的两个,而且全部是用百分比和量化预期来回答的。

具体来说,两者在同一个素材上的判断出现了四个关键分歧。

第一个分歧在制作质量上。ChatGPT 认为画面增加了可信度,把分数往上调。万智的 38 个测试者认为画面是最大的减分项——AI 水印、英文界面、杂乱背景,直接导致将近四分之一的人弃剧。

第二个分歧在传播力上。ChatGPT 的判断是实用收藏型,不太容易爆。万智的数据是 94.7% 分享率,已经是爆款临界点。ChatGPT 漏判了一个关键的社交传播锚点——"转发给闺蜜"这句话的杠杆效应。

第三个分歧在优化优先级上。ChatGPT 的建议全在内容层——要加强损失感、要加对比证据、要更冲击的开头。万智的第一条建议却是:先把画面换成真实录屏、去掉 AI 水印、确保是中文界面。优先级完全不同。ChatGPT 是想到什么说什么,万智是按致命程度排了序的。

第四个分歧在量化能力上。万智的每条建议都带了预期效果——比如"替换真实录屏后预计降低弃剧率至少 10 个百分点,提升女性及一线用户评分 0.5 到 1 分"。ChatGPT 的建议也合理,但"增强被坑损失感"做完之后到底能提升多少,没人知道。

六、写在最后

ChatGPT 能看图,而且看得挺准——它能准确描述画面内容,给出结构化的视觉分析,甚至提供拍摄优化建议。但它看不来"真不真"。

这不是技术问题。GPT-5.4 多模态识别的准确度没什么可质疑的。问题出在它的底层设定上:它会善意地解读所有输入,而不是像真人那样带着偏见和挑剔去看。一张有 AI 水印的图,你发给任何一个抖音用户,对方三秒钟就会划走。但你发给 ChatGPT,它会先夸你的构图、光线、场景感,然后礼貌地问你要不要听听封面文案的优化建议。

多智能体评测和单模型评测的区别就在这里。万智背后的几十个子智能体,每一个都被灌了不同的"偏见设定"——有人挑剔、有人严苛、有人看见英文界面就会本能觉得这不是给我看的内容。它们不是更聪明,它们只是更像人。ChatGPT 永远在用同一个声音说话,那个声音天生不会批评,天生不会嫌弃,天生不会说"你这图太假了我不看"。

所以结论不是"大模型不能做评测",而是"只靠一个大模型做评测,你的判断会被一只特别宽容的眼睛过滤一遍"。如果你只需要一个改稿建议,聊天就够了。如果你需要知道这条内容发出去之后会发生什么——你需要不止一双眼睛。

本次测试使用的 「万智测评」 来自 RaaS100 平台。该平台目前还集成了头脑风暴智能体、KyDI 数字员工、图然 Turan AI 等多个 AI 产品模块,且正在推进开发者招募计划,提供免费算力、超十万资金扶持等资源助力你的想法落地。

对 RaaS100 平台感兴趣、想进一步了解开发者计划或体验万智测评的朋友,欢迎添加我微信交流。

相关 文章

机器人板块高开高走,资金持续布局机器人 ETF 易方达 (159530)

来自 周天财经
2026 年 6 月 16 日
0

6 月 15 日,机器人板块高开高走,截至收盘...

2025 年我国经济增长新增用电首次全部由绿电支撑,绿色电力 ETF 易方达 (562960) 配置价值凸显

来自 周天财经
2026 年 6 月 16 日
0

截至收盘,中证绿色电力指数上涨 0.7%,...

13 只基金单日涨超 10%!AI 硬件爆发,「金梓才」 管理产品霸榜

来自 周天财经
2026 年 6 月 16 日
0

每经记者|肖芮冬    每经编辑|赵云 ...

港股成长资产或迎来估值修复,港股通信息技术 ETF 易方达 (159196) 标的指数涨超 7%

来自 周天财经
2026 年 6 月 16 日
0

6 月 15 日,港股 AI 算力硬件产业链集体爆...

《公开募集证券投资基金可持续投资策略应用指引 (试行)》 发布实施

来自 周天财经
2026 年 6 月 16 日
0

每经 AI 快讯,6 月 12 日,中国证券投资基...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2

中金公司 「三合一」 重组获上交所受理;券商掀起万亿发债潮 | 券商基金早参

2026 年 6 月 16 日

机器人板块高开高走,资金持续布局机器人 ETF 易方达 (159530)

2026 年 6 月 16 日

黄金 T+N2 价格今天多少一克 (2026 年 6 月 11 日)

2026 年 6 月 16 日

锌:市场风险偏好回暖 海外库存持续去化

2026 年 6 月 16 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录