2026 年 5 月 3 日 星期日
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 行业新闻

Chat GPT 文生图不用 DALL·E 模型了?

2025 年 3 月 27 日
在 行业新闻
阅读时间: 1 min read
阅读:702
A A

文 | 王智远

昨晚,Open AI 更新了 ChatGPT 文生图能力。

Related articles

脉动靠猫窝讨好「铲屎官」,巨头跨界背后的定位迷途

脉动靠猫窝讨好 「铲屎官」,巨头跨界背后的定位迷途

2026 年 5 月 3 日
五一爆火!江苏「水上迪士尼」年入1.4亿,女导游带队冲上市

五一爆火!江苏 「水上迪士尼」 年入 1.4 亿,女导游带队冲上市

2026 年 5 月 3 日

准确来说,这次升级是一次小革命。以前,它借助 DALL—E 来生成图像,现在功能直接融入到 ChatGPT 里面了。

广告

新能力能让 ChatGPT 生成的图片更准确。什么叫准确?按照官方意思,能贴合你的要求。要让它生成一个戴眼镜的猫咪,它会先思考一下,然后画出来一个更详细的戴眼镜的猫咪。

最后一项是修改图像。哪些细节不满意,直接告诉它就能修改。

官方直播活动中,也演示了几个例子。有两名研究人员和奥特曼拍了一张合影,然后他们让 ChatGPT 把这张普通的照片变成动画风格的画。结果,ChatGPT 轻松地就完成了这个任务。

另一个是,团队要求 ChatGPT 在生成的图像上加一些文字,比如在图片上写上“Feel The AGI”。ChatGPT 也顺利地做到了。

看不少介绍的文章后,感觉有些吹捧,于是上午见完朋友,下午回来赶紧试了试。问题是,怎么区分不同模型之间的能力差异呢?

我让 Qwen 帮我写了个提示词:

想象一个赛博朋克风格的场景,霓虹灯一闪一闪的,到处都是高楼大厦,楼上有大广告屏,街上跑着悬浮车,天上飞着无人机,还有一轮紫色的月亮挂在天上,地上的行人穿着高科技的衣服。从高处往下看整个城市,画面要高清,细节越多越好。

写完后,把提示词分别给了 GPT 和即梦 AI。不到 20 秒,GPT 出图了,它和即梦 AI 的图对比来说,每个模型对提示词的理解不同,两张图都有赛博朋克的感觉,但细节上各有特点。

要评价的话,两张图片都比较模糊。但即梦 AI 操作起来比较方便,直接点击细节修复、超清功能,就能有效提升清晰度,效果明显。

GPT 在这方面稍显不足,我让它生成高清一点的图,结果它又生成了一张图,遗憾的是,依然没有达到我的预期。

图释:左,Chat GPT;右,即梦 AI 

因此,从图像清晰度控制的可控性来看,GPT 可能稍弱一些。不过它也有自己的优势;比如:在调整尺寸上,我提出要 1:1 尺寸的图片时,它会给到两个不同的解决方案,并问我,你觉得哪个更高?更倾向哪个?

重复试了好几个提示词,结果依然这样。

我又试了一下它的新能力:世界知识的功能。官方说,这功能让 AI 在生成图片时,能更好地理解,并用上现实世界里的知识,做出的图更贴合用户的要求,也更符合实际逻辑。

说白了,AI 在作图时,会考虑现实里的细节,像地理位置、文化背景、还有物理规矩啥的。比如,画个雪山就不会冒出热带植物,画个古代场景不会突然冒出手机。

于是,我让 Qwen 帮我又写了一个提示词:

生成一张图,用两个站在滑板上的人推对方的动作来解释牛顿第三定律。要求画面直观,能清楚展示作用力和反作用力的关系。

给到它后,怎么评价呢?像那么回事。它能展示两个人在滑板上互相推开的关系,而且还增加了一些箭头和英文解释;但是,我为什么觉得这个能力像一个图像 PPT 功能呢。

紧接着,我又测试几轮,分别生成一个人的头部骨骼、身体骨骼。如果满分是 10 分,我最多给 6 分,因为大部分能力字节、腾讯的文生图模型都能做到。

图释:左,Chat GPT;右,即梦 AI 

Sam Altman 对这款产品评价很高,表示难以相信这是 AI 生成的,认为大家会喜欢,并期待用户用它创作出更多创意内容。

他的目标是尽量避免生成冒犯性内容,认为将创作自由和控制权交给用户是正确的,但也会关注实际使用情况并听取社会意见。

Altman 希望大家理解,他们在努力平衡自由和责任的关系,确保 AI 的发展符合大家的期望和道德标准。这些都是老生常谈的话。

我觉得,比起它目前的生成能力,更应该关注它为什么要替代 DALL·E 模型。要知道,DALL·E 模型是 OpenAI 在 2021 年 1 月发布的模型。作为老模型,难道不应该持续迭代,让它更强大吗?

实际上,关键在于 DALL-E 模型核心架构是自回归模型。

什么是自回归模型呢?

它利用自身历史的数据来预测未来的数据。工作方式是把图像拆解为一系列 token(类似于文字中的单词),然后像写作文一样,一个 token 一个 token 地生成图像。

举个例子:

你要画一只猫,你先画了猫的头,然后根据头的样子再画眼睛,再根据眼睛和头的关系画鼻子,一步步来,不能跳过任何一个步骤。这就是自回归模型的工作方法。

优点是能保证细节,缺点很明显,一,速度跟不上、二,前面要是画错了,后面很难调整;因此,OpenAI 选择用新的模型来替代它。

那么,替代后的模型什么样呢?答案是非自回归模型 (Non-autoregressive models),它改变了核心架构。

这个架构会先理解整个图的结构和细节,更像学生先听完老师讲完题目,把整张画的轮廓搞出来,再一点点填细节。比如:画只猫,先勾勒出猫的外形,再去细化毛发、眼睛。

这种模型采用一种特殊的编码、解码架构来实现目标。简单来说,编码器负责“ 读题”,理解你输入的文字;解码器负责“ 作答”,根据文字生成图片。

优势在于,一,不再像老方法那样一步步、逐像素地生成图像,效率更高,二,整体表现更强,特别是在复杂场景里,能更好地处理多个物体之间的关系,生成的图片更逼真。

好比画一个桌子上有杯子、书本和台灯的场景,非自回归模型能更自然地处理东西的位置和光影效果,不会显得乱七八糟。而且,它对复杂的文字指令理解得更好,生成的图片和描述基本能做到符合逻辑。

还有一个特点:这种模型灵活性强,能融合到多模态里,比如,把它塞进 ChatGPT 4.0 里,它不仅能看图,还能结合音频或已有的图像,进而生成更多样化的内容。

因此,Open AI 这一步本质做了一次小小的自我革命。

春节时,DeepSeek 发布一款文生图模型 Janus-Pro,关注过的人应该知道,它采用了非自回归的框架。Janus 系列中的 Janus-Pro-7B 模型,在 GenEval 的准确率上达到了 80%,甚至超过 DALL-E 3 的 61%。

我查了一下,这种非自回归模型最早在 2018 年的 ICLR 会议上提出,最初应用于神经机器翻译 (Neural Machine Translation, NMT) 领域,目的是加速推理速度。

从论文综述来看,微软在 2022 年 5 月 13 日进行了进一步研究。而国内 2023 年左右,阿里巴巴、科大讯飞、昆仑万维、云从科技等一系列企业已经引入这一技术。

所以,OpenAI 是看到了国内对这一模型应用的成熟,开始反思自己了吗?

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

#Chat #GPT 文生图不用 DALLE 模型了

相关 文章

脉动靠猫窝讨好「铲屎官」,巨头跨界背后的定位迷途

脉动靠猫窝讨好 「铲屎官」,巨头跨界背后的定位迷途

来自 周天财经
2026 年 5 月 3 日
0

文 | 创业最前线最近,脉动的外包装上出...

五一爆火!江苏「水上迪士尼」年入1.4亿,女导游带队冲上市

五一爆火!江苏 「水上迪士尼」 年入 1.4 亿,女导游带队冲上市

来自 周天财经
2026 年 5 月 3 日
0

文|天下网商,作者 | 金雅今年五一,李...

假期出游,我被AI坑惨了

假期出游,我被 AI 坑惨了

来自 周天财经
2026 年 5 月 3 日
0

文 | 定焦 One(dingjiaoon...

当女魔头遇见AI浪潮

当女魔头遇见 AI 浪潮

来自 周天财经
2026 年 5 月 3 日
0

文 | 强调 Next,作者|一修,编辑|...

寒武纪2026年一季报点评|公司点评

寒武纪 2026 年一季报点评|公司点评

来自 周天财经
2026 年 5 月 3 日
0

一、 公司发布 2026 年一季报 2026 年...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2
4年砸243亿营销,「999感冒灵们」难提振华润三九的利润

大唐领衔 100 亿注资蒙电入苏 , 入局沙戈荒项目的背后是哪些考虑?

2026 年 5 月 3 日

4 月新势力交付出炉:零跑断层领跑,「一超多强」 格局渐成

2026 年 5 月 3 日

伊朗让步叠加特朗普强硬! 国际黄金 4642 企稳剑指 4700?

2026 年 5 月 3 日

商务部发布禁令,阻断美国对 5 家中国企业实施涉伊朗石油制裁措施

2026 年 5 月 3 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录