社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

关注

Py学习 » chatgpt

OpenAI一夜颠覆AI绘画！DALL·E 3+ChatGPT强强联合，画面直接细节爆炸

深度学习与NLP • 7 月前 • 78 次点击

来源 | 量子位 | 公众号 QbitAI

起猛了，OpenAI竟然把AI绘画和ChatGPT合并了！

这不，最新发布的DALL·E 3，直接给AIGC带来了两大震撼——

提示词门槛极大降低
理解语意的细微差异的细节描述，准确到令人发指

没错，新版DALL·E 3，不仅省去了提示词工程，还顺带把语言理解能力提升了一个档次！

你只管随意想象。词，ChatGPT帮你拓展；画，DALL·E 3给你精确到细节。

AI就能像拍电影一般，保证从背景到人物，细节一字不差地复刻出来：

满月下的街道，熙熙攘攘的行人正在享受繁华夜生活。
街角摊位上，一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子，正在和脾气暴躁的老小贩讨价还价。
这个脾气暴躁的小贩身材高大，老道，身着一套整洁西装，留着引人注目的小胡子，正在用他那部蒸汽朋克式的电话兴致勃勃地交谈。

除了基础细节，DALL·E 3甚至能将模糊的形容词如繁华、讨价还价、脾气暴躁演绎得活灵活现，和CLIP已经不在一个档次了。

同时，相比上一代老模型，DALL·E 3自身的画技也前进了一大步：

这般操作，直接把网友看愣了。

有网友已经决定取消Midjourney订阅了。“如果Midjourney无法准确理解文本，这甚至称不上是同台竞技。”

还有网友调侃，这简直就是给即将到来的谷歌Gemini上压力。

更多细节，我们从DALL·E 3展示的效果一一来看。

在ChatGPT里直接用

相比前两代，DALL·E 3最大的优势在于原生构建在ChatGPT之上。

不仅意味着语言理解能力大幅飞跃，甚至提示词都可以让ChatGPT自己来写。

更多细节藏在奥特曼都忍不住自夸可爱的宣传视频里。

这是一个家长把5岁小朋友脑海里的幻想变成现实的故事。

首先家长询问ChatGPT，“我家5岁宝宝一直在说一个’超级向日葵刺猬’，它该长什么样？”

可以看到ChatGPT同时写了四段不同风格的提示词，并给出对应图像。

家长选择其中偏童话插图风格的一张后，故事的主角小刺猬形象似乎就能固定下来了，可以继续请ChatGPT画出更多。

顺便给小刺猬一个名字Larry，后面的对话中就不用每次都说“超级向日葵刺猬”了。

主角定好了，接下来再添加更多元素，让整个童话故事更丰富，比如给Larry画个房子。

这里既展示出了DALL·E 3创作一致形象的能力，也展示出邮箱上正确写上了LARRY的名字，解决了之前版本DALL·E不会写字的问题。

反正都用上ChatGPT了，不如把故事情节也完善一下？

刚编好的情节立马就可以有配套的插画了。

保持角色形象，迁移到完全不同的贴纸画风也没问题，可以直接打印出来。

注意了，最绝的地方来了，直接让ChatGPT总结前面对话中所有内容，写成一个完整的睡前故事。

虽然演示到此结束，但完全可以想象配合ChatGPT插件功能，还可以直接生成一本电子书出来。

就让人想起之前网友提议，确保AI安全的最佳方法是让OpenAI、Anthropic等公司的员工都有孩子。

这样他们就有动力确保AGI到来时世界是安全的。（手动狗头）

虽然DALL·E 3现在还不能马上玩到，一次放出的大量样张也可以先看个饱了。

每一张点开还可以看到提示词，都是直接用人话描述，没怎么加复杂咒语的那种。

复杂场景与不存在的概念组合，效果很惊艳。

搞室内设计概念图，光影明暗关系乍看也挑不出毛病。

配合正确写字能力，直出海报也是生产力拉满（没指定文字的小字部分还有些问题）。

刚加入OpenAI不久的德扑AI之父Noam Brown也晒出了他试玩的机器人打牌图。

CEO奥特曼最喜欢的则是这张“牛油果看医生”。

有网友去试了同样的提示词用在DALL·E 2的效果，只能说字也不对、牛油果中间的洞没话出来，治疗是更是没有……

还记得2021年1月DALL·E 1刚出的时候吗？梦开始的地方就是一组“牛油果做的沙发”。

也难怪网友感叹：看看它走了多远！

“如有侵权，请来删图”

当然，除了上述特性以外，OpenAI也预告了一些神奇的新功能。

例如，DALL·E 3即将配套推出一个图像鉴别器。

这个分类器可以帮助识别图像是否由DALL·E 3生成，不仅能避免误伤（手动狗头），也能在DALL·E创作出好作品时快速将它认领成自己的。

至于在生成图像上，OpenAI自述也做了大量工作，防止其生成暴力、色情或其他有害图片，或是带有公众人物（明星、名人等）姓名的图像生成。

关于隐私方面，之前纽约时报就曾爆料称，OpenAI正在通过某些技术，模糊掉上传到ChatGPT的图像中的人脸。

这也是为了避免ChatGPT变成一个彻底的“人脸识别工具”，尤其是已经有不少照片流传到互联网上的名人明星们。

如今这个技术可能也被用到了DALL·E 3中，防止生成侵权图像。

同时，OpenAI也与安全红队合作，提高了图像风险评估的能力。

除此之外，在训练数据上，有了Midjourney的“前车之鉴”，OpenAI这次也学会了保护自己。

相比于直接和画手打官司、或者等着被起诉，OpenAI在官网放出了一则训练数据“免责声明”：

您可以填写表格，禁止我们的网络爬虫GPTBot访问您的网站。或者，您也可以发送您想要保护隐私的图像，我们会把它从训练数据中删掉。

不过也有网友对DALL·E 3演示效果不满意，认为比不上MidJourney资深玩家出的图，OpenAI的资金可是充裕n多倍啊。

还有网友开启列文虎克模式，开始挨个挑演示图中漏掉的提示词细节。

比如这张杯子里缺少微型闪电。

这张散落在海底的只有大炮残骸，没有宝藏。

具体这些问题能不能通过调整提示词改善，就要等实际上手玩过才知道了。

那么DALL·E 3具体什么时候上线呢？划重点了：

ChatGPT Pro会员（20美元/月）和企业版在10月可用。
独立版在今年秋天晚些时候提供（目前价格15美元可以玩115次）。

参考链接：
[1]https://openai.com/dall-e-3
[2]https://www.nytimes.com/2023/07/18/technology/openai-chatgpt-facial-recognition.html
[3]https://twitter.com/sama/status/1704547625482203560

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/162468

78 次点击

登录后回复

关于移动版 · 三行代码 · 今天看啥 · Code · link之家 · 卧龙搜索 · 藏经阁 · 小百科

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号