最新

首页> 网络焦点>正文

谷歌赢两次？AI作画大师Parti一出，DALL-E 2.0成「爷爷辈」了

2022/6/23 15:07:16 来源：36氪

最近，在「AI画画」这一块，大厂们又卷上了新高度！

4月，在GPT-3大模型的加持下，Open AI对画图界的扛把子DALL-E进行了2.0版的全面升级。

让自然语言生成图像达到了全新的高度。比如下面这幅「孙子玩儿电脑」（非骂街）。

5月，谷歌不甘落后推出AI创作神器Imagen，效果奇佳。

号称重夺AI画画老大哥地位的Imagen，迅速被国外网友玩出了新高度，一波「虎戴VR」热度直接起飞。

有人惊呼，现在的新模型的保质期只有一个月了么？

谷歌一看，这是要开卷的节奏，不如我再进一步，再搞个新的AI大画家吧。

于是，只过了一个月，新一代AI绘画大师Parti就来了！

Parti，全名叫「Pathways Autoregressive Text-to-Image」，是谷歌大脑老大Jeff Dean提出的多任务AI大模型蓝图Pathway的一部分。

Jeff Dean在社交媒体上第一时间推广了一波。

同时他也表示，和一个月之前的「老前辈」Imagen相比，这次的Parti使用的是不同的技术路线。

为此，谷歌AI专门写了一篇博客文章，对比了两个「AI大画家」在技术层面上的区别。

虽然Imagen和Parti使用类似技术，不过但具体的策略是不同的——自回归和扩散。这样互补的方式使得两个强大模型的有了更加令人期待的组合！

先来回顾一下「老前辈」Imagen，它是一个Diffusion模型，学习将随机点的图案转换为图像。

这些图像首先以低分辨率开始，然后通过超分辨率技术，不断的丰富图像的信息，进而达到提高图像分辨率的目的。

具体点讲，就是：

在用户输入文本后，如「一只戴着蓝色格子贝雷帽、穿着红色波点高领毛衣的金毛犬」，Imagen先使用一个冻结（frozen）T5-XXL 编码器将输入文本映射到嵌入序列和64×64图像扩散模型，再将生成的64×64图像上采样为256 × 256图像，最后上采样为1024 × 1024图像。

而这次新推出Parti是一个自回归模型，它的方法首先将一组图像转换为一系列代码条目，类似于拼图。然后将给定的文本提示转换为这些代码条目并「拼成」一个新图像。

换言之，Parti将「文本到图像的生成」转换成一个「序列到序列」的建模问题，类似于机器翻译——这使得它能够受益于大型语言模型（如PaLM），这对于处理长而复杂的文本提示和生成高质量的图像至关重要。

在这种情况下，目标输出是图像token的序列，而不是另一种语言的文本token。

Parti通过使用功能强大的图像标记器「ViT-VQGAN」将图像编码为离散token序列，并利用其重建图像token序列的能力，使其成为高质量、视觉多样化的图像。

Parti的模型规模支持扩展，最高可扩展至200亿参数。

参数越多，模型规模越大，生成图像的细节越丰富，错误信息也明显降低。

比如面对同样的文本输入：

身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上，胸前举着写着「欢迎朋友」的标语

在3.5亿参数下，袋鼠的眼镜不是蓝色，而且PS痕迹明显，背景只体现出「草地」，悉尼歌剧院基本看不出来。举的牌子上更不知道是哪国文字。

到了7.5亿参数下，眼镜颜色和背景都和文字准确对上了，但却多了另一只带着蓝眼镜的袋鼠。

扩展到30亿参数，之前的袋鼠不见了，但举的牌子多了一块，上面的字仍有拼写错误，但大概能看出是「欢迎朋友」了。但背景中的悉尼歌剧院似乎开了「影分身」。

最终在200亿参数下，文字中的内容得到准确再现。

换一张图，也是如此。文本信息细节越少，体现的越明显。

比如文本是「小提琴的背面」这几个字：

直到30亿参数下，生成的图像仍然是「小提琴的正面」，直到200亿参数下，才生成了正确的图像。

多面手「艺术家」，风格百搭

除了由模型参数量扩大带来的细节提升外，画画最要紧的是能画出不同风格，要都是千篇一律，那还叫艺术家吗？

Parti表示，这挺简单的。

比如命题作画：

一只浣熊穿正装，头戴礼帽，拄着拐杖，拿着个垃圾袋。

就能画出梵高风格的：

埃及法老风格的：

甚至是像素艺术风的：

再比如下面的文字：

「一只老虎戴着列车长的帽子，手里拿着一块滑板，上面有一个阴阳符号。」

也可以画成油画风，真真的那种。

或者版画风，酷酷的那种。

甚至国画风，萌萌的那种。

当然，也有翻车的时候。

比如下面这个作品，文字是「一个没有香蕉的盘子,旁边有一个没有橙汁的玻璃杯。」

然而，生成的图片中盘子里全是香蕉，玻璃杯里也几乎盛满了橙汁！

就当是艺术家偶尔打了个盹吧！

看起来，以后「斗图界」说不定可以告别表情包了，想要什么图，打字就行了！

早些年要是能有这样的神器，「美术课恐惧症」的小编可能也会免去不少不堪回首的回忆吧。

参考资料：

https://parti.research.google/

https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/

本文来自微信公众号“新智元”（ID:AI_era），编辑：David 如願好困，36氪经授权发布。

该文章来源互联网，如有侵权请联系删除

相关文章

相关图集

热门推荐

奇闻异事
离奇事件
幽默搞笑
考古发现

漢唐館藏精品：大唐帝後供養經幢構件: 犹太人是从哪里来的，为什么从上古就开始流浪？; 曾国藩和李鸿章的塑料兄弟情？并肩战斗是你们，明争暗斗也是你们; 街亭一战，到底错在诸葛亮，还是错在马谡？; 王莽当皇帝，刘姓皇族不但不反对反而拍手称快，他到底有何魅力？; 如果没希特勒，德国人会发动二战吗？1380亿马克的美国贷款有话说

历史类人物的论文应该如何动笔？: 咸阳宫遗址出土一批珍贵壁画，可是想要将其修复，却有不小的困难; 同样是中兴之君，虞世南认为他比汉光武帝还要杰出; 当人生陷入空前败落时应该怎么办？透过季布，司马迁这样说; 纸上谈兵”真的是“纸上谈兵”吗？; 南京：历史上有三个辉煌期，目前处于近600年谷底

日本现实版的“咒乐园”，恐怖系数爆表: 和鸟巢争地盘的泰山神庙，只因发生了这件事情; 雷峰塔下面压着白蛇是真的？倒塌之后发现了这样的事情; 北京灵异事件：永外革新里24号莫名起火70多次; 一对夫妇连续害20名女性，用婴儿车装器官; 谷歌街景惊见诡异照教堂墓园树后躲灰脸小女孩令人毛骨悚然！

中国四大未解之谜：科学家毫无头绪民间各种流言四起: 中国出土两千年不腐女尸为何令日本疯狂首相多次来我国索要不成; 香港茶餐厅鬼叫餐事件真相为何迟迟未揭秘胆小请慎入; 6000年前什么证据可以证明外星人的存在？令人惊叹感; 宇宙其实是人的大脑人脑结构为何与宇宙结构有一定联系; 物理学四大神兽之谜被杀之谜为何仍然需研究

图：这妹子好吃吗？: 这就是母爱！狗妈冲进洪水救宝宝，警察暖心接力拯救一家子！; 去表妹家玩看到一只猫，刚想吸一把被它的长相劝退：打扰了; 养狗后的九个奇怪癖好，你中了几个？; 这届年轻人自从化身“铲屎官”，就开始舍得花钱; 刚买的小狗流鼻涕怎么办

一旦接受了这个设定，你就会发现这只猫就是永琪本琪: 猫狗粮为什么不可以混用; 胖猫重达26斤，因不理主人被抛弃，女子给它减肥，一年才减1斤？; 美国一只狗，死于新冠病毒！老美这下子着急了：这可怎么防范？; 公司收留流浪狗还为它制作员工吊牌，请狗狗代言广告，太有爱啦; 一对患难与共的狗兄弟，为守护对方相继离世，完美诠释“兄弟情”

金字塔内部结构揭秘胡夫金字塔内部结构曝光: 千岛湖水下古城探秘大量民房完好如初展现水底古城三大尝试; 慈禧有多少陪葬品死后遭盗墓贼扒光身上竟只剩下内裤; 武则天古尸容貌复原图武则天真实面貌曝光原来她这么美; 王昭君古尸容貌复原图王昭君真实面貌曝光原来她长这样; 乾隆宠爱香妃的真实原因考古学家挖开香妃墓终于找到答案

一个埃及法老奇特的生理结构背后，隐藏着惊人的秘密！: 施工队挖出千年古棺,开馆后忽然伸出一条白腿,吓得专家急忙盖棺; 中国第一大清官包拯墓被发现挖开墓室后里面场景让专家都呆了; 武则天陵墓巧设机关，1300多年无人能闯入，最后却被1农民破解; 探索！轩辕黄帝真正的陵墓在哪里; 成都江边现200多座崖墓惊现“歪果仁”青铜跪坐像

热门图片

更多阅读

热点新闻
大话社区
图片报道

热门话题

本站内容来自互联网，不提供任何保证，亦不承担任何法律责任.如有侵权请联系删除，QQ：888885555.
COPYRIGHT © 2014-2026 xiaoqiweb.com INC. ALL RIGHTS RESERVED. 版权所有笑奇网粤ICP备97098206号