谷歌微软研究AI绘画:机器想象力逼近人类

发布：2022年05月31日 14:01 来源：南方都市报

发布：2022年05月31日 14:01

来源：南方都市报

——"一片向日葵花海在星空下闪烁。"

本来只是在有限的想象力之内挑了梵高的两幅名画加以简单概括，结果AI吞掉这句描述后，居然就吐出了一张张极富冲击力的图像：

图源：Simon_阿文微博

没有参考图像，也并非简单的两幅图像的拼接融合，而是真正基于文字描述，在充分的想象力下，从无到有地进行了绘画创作。

而就在不到一年的时间内，这样的AI画手开始井喷式地出现——

近期在海内外爆火的免费AI作画工具Disco Diffusion，输入简单的文字描述就能在线生成图像，其画面之精细，想象力之超绝让不少人直呼“AI比我都浪漫”：

图源：开发者推特

一度登上苹果应用商店的图形与设计排行榜榜首的Wombo，只要下载App，上传图片或输入关键词，再选择平台给予的风格，几秒之后就能生成图片，其超绝的想象力被无数用户玩出了花：

图源：网络

还有通过聊天出画的Midjourney，用户进入聊天软件Discord，并被邀请到相应的小组中后，就能像是真的与画手隔着网线交流一样，说出自己的需求，而AI也会在群中实时更新的绘画进度：

图源：网络

OpenAI上个月刚刚推出的Dall-E2，其生成结果的精准度、对人物的识别能力震惊了整个技术圈，甚至都有读者用这一AI出了一整本画集，整整1000张图片：

图源：作者个人主页

更不用说谷歌新鲜出炉的Imagen，不管多长，多具体，多不符合现实逻辑的离奇描述词，都可以精准地从文字生成真实准确的图像：

图源：谷歌官网

惊人的技术迭代速度、破圈式的热度、震惊了绘画圈的色彩、构图、想象力和创作力，似乎都在表示，这些AI画手们，正在逐渐在绘画领域中掌握”画语权“。

对此，有人欢欣鼓舞，认为技术的革新将为艺术领域带来全新的思考方式和改变，有人惶惶不安，担忧来势汹汹的AI画手将摧毁一大批中低端绘画岗位，甚至有人怒斥AI将艺术变为了单纯的数据游戏，使得绘画失去了意义和灵魂......

议论连续不断，热度居高不下，AI绘画这一名词开始逐渐出圈，在谷歌的关键词搜索趋势中，AI painting的搜索热度自去年下半旬就开始逐渐高涨，到现在已经达到了一个新的高峰：

热议之下，已经有这样的声音出现：

AI绘画，元年已至。

···

且先不论这一发言是否正确，所谓的AI画作，到底是严格按照代码逻辑运行，风格单一的产物，是AI的随机拼接游戏，抑或是真能如人类画手一般依照主题构想画作？

AI们都画了什么，它们又能画多少？

AI画手的第一批体验者们，当时就抱有着这样的疑惑。PPT设计师阿文就是其中之一。

今年4月份时，他偶然看到一个画手朋友在微博展示了一组AI作画的作品，效果惊人，朋友作为专业画手也给予了很高的评价，他便也对这个叫做Disco Diffusion的工具起了兴趣。

这是一款基于谷歌的技术框架开发的AI作画工具，部署在谷歌Colab（一个可以通过浏览器编写和执行代码的线上托管平台）上，训练画作所需的算力也由谷歌免费提供，而只需要修改代码中的一个部分的文字描述，就能生成画作：

文字描述拥有画种描述、内容描述、画家描述、参考渲染方式、颜色描述五个维度，用户不用修改代码，而是只要从这几个方面进行调整和修改，就可以生成图像。

不过，鉴于是初玩，阿文只谨慎地修改了默认文本中的两个关键词：A beautiful painting of a starry night（原singular lighthouse）, shining its light across asunflower sea（原tumultuous sea）by greg rutkowski and thomas kinkade, Trending on artstation.” "yellow color scheme“，也就是将默认的”一座在惊涛骇浪中闪耀的奇异灯塔”改成了“一片在星空下闪耀的向日葵花海”。

而AI吐出的第一张图片是这样的：

图源：Simon_阿文微博

这是一张超乎了阿文想象的画作，色彩、构图都拥有超绝的美感和想象力。

而Disco Diffusion本身可以根据一句描述产出多张不同的图片，于是，阿文在无比期待中，迎来了挂机渲染之后的另外几幅作品：

图源：Simon_阿文微博

简单的文字描述外加一点点天赐般的运气，诞生了数张色彩构图丰富大胆，如同梦境般的画作，最终一举出圈，在微博超过两万人转发，并纷纷表示震惊“给跪”。

也因此，大批用户纷纷涌入，开启了脑洞大开的AI花式作画。

有将参考画师改为吴冠中，直接得到一张水墨画：

图源：网络

还有应用了虚幻引擎风格，生成的仿佛游戏页面一样的画作：

图源：网络

当然，偶尔也会有人喂出了一些有些诡异的图片：

图源：推特Mike Franchina

......

在那之后，阿文也试用了另一款叫做Midjourney的工具，同样是“星空下的向日葵海“的描述，不过这次的生成结果则恰如其分地落在了他的想象力内：

图源：Simon_阿文微博

“就像是一个听话版的Disco Diffusion。”阿文笑道。

在尝试多次后，他觉得Midjourney的想象力是比不上Disco Diffusion的，但好处是速度够快，五分钟就能成图，而且不至于像Disco Diffusion那样，有抢夺创作主导权的“野心”，是更适合艺术创作者的辅助工具。

还有更多像阿文这样的艺术创作者，走上了探索AI绘画工具的道路，并开始逐步挖掘各自的潜力。

比如主阵地是移动端的Dream，它的整体作画风格更偏向于梦幻柔和：

图源：网络

而诸如DALL·E2、Imagen之类的画手，则是在如何更准确地理解文字描述、更好地组合绘画风格，最后生成更精确而言之有物的事物和人物的方向努力。

当然，除了这些从无到有的“高端创作者”，近几年也火过一批更加亲民的AI画手们。

比如在去年一度火爆外网AnimeGAN，可以实时地将人像转为漫画模样，也是在线部署，火到要排队几个小时才能玩到：

图源：网络

去年在日推被疯转的AI，简陋的草图一经它手就会变成精致可爱的二次元萌妹：

图源：高坂推特视频

还有可以任意推断两张人物图像的子世代长相的Artbreeder，不仅几秒就能出图，还可以通过超多参数微调产出人物的长相：

图源：网络

再出圈一点，抖音、微信或QQ中的将人物照片转变为其他风格的AI滤镜，也能被算进AI作画的范畴里。

这样看来，AI画手们作画内容的范围覆盖之广，比起一些人类画手也是不遑多让。

其屡屡出圈的热度，更证明了在普通观众眼中，AI的画作们有着足够的冲击力和观赏价值。

···

接下来，让我们换一个角度来看AI绘画。一张成品画作由什么组成？在现实中是纸张和各种材料制成的笔墨水彩，而储存在电子设备中的一张图像，本质上则是一个像素点矩阵，每个都由 RGB（Red、Green、Blue）三个颜色通道组成。

图源：网络

因此，AI绘画也就相当于一个可以逐渐产生像素，进行图像生成的计算机模型。

模型是人工智能中的一个概念，我们可以将其通俗地理解为一种从输入到输出的函数。

要让这个函数输出我们期待的像素点矩阵，首先需要赋予它很多“参数”，相当于函数中的变量，这些变量涉及绘画中每一笔的位置、形状、颜色，甚至是覆盖关系、笔触组合等多个属性。

有了这样一个拥有庞大“变量”的“函数”，还要再基于海量的已有图像进行训练，也就是找到效果最好，最合适的一组参数的过程。

而这样一个绘画模型所需的参数量和训练数据集非常庞大，不仅如此，也很难让计算机去理解“创作”这种比较抽象的概念。

因此，诞生之初的AI作画，说是依照逻辑执行任务也并无不妥。

转机则发生在2014年。

这一年，一位名叫Ian Goodfellow的AI从业者发明了一种叫做对抗生成网络（Generative Adversarial Network，简称GAN）的算法，彻底改变了图像领域。

图源：论文

对抗生成网络主要包含两个结构，一个是生成器（Generator），一个是判别器（Discriminator），而其核心思想则是“对抗博弈”，我们可以感性地将其理解为“道高一尺，魔高一丈”。

什么意思？生成器的主要任务是生成尽可能真实的图像，而判别器则负责辨别眼前的图像到底是有机器生成的，还是来源于真实世界的图片，这样，生成器在图片生成的过程中“造假”技术变得越来越强，而判别器的“打假“技术也将越来越精湛，在这双方的对抗博弈之中，最终产出的图片也将越来越真实。

对抗生成网络提出的两年内，图像生成任务有了大跨步的发展，一些有趣的应用，如老照片修复、换脸、素描上色，更是如雨后春笋一般应运而生。

我们上面所提到的Artbreeder、草图生成头像等从已有图片合成新图片的应用，也是在此之后开始有了萌芽。

而在2016年，Scott Reed等AI研究者又首次提出了基于GAN的文本生成图像（Text to Image）。

图源：论文

就像人类拥有五感一样，AI也有自己听觉和视觉，也就是AI研究者们划分出来的计算机视觉（Computer Vision，简称CV）、自然语言处理（Natural Language Processing，简称NLP）、语音识别（Automatic Speech Recognition，简称ASR）等研究领域。

而文本生成图像，则是将计算机视觉的自然语言处理两种领域连接了起来，也被称为多模态学习（MultiModal Learning），可以说，这种技术是今天AI绘画的重要基础。

但要让AI学会”通感“，难度也可想而知，一开始，AI只能在受限的数据集内取得成果，得到的分辨率也不高，同时，AI也受限于机器对于人类自然语言的理解，因此，文本生成图像的进展并不迅速。

直到2021年1月5日，DALL·E模型横空出世。

图源：OpenAI官网

模型的出生地，OpenAI实验室是全世界最著名的AI实验室之一，2015年底成立，同为特斯拉、SpaceX，以及推特等多家公司掌权人的AI产业界顶流马斯克，就是这家实验室的创始人之一。

而模型的名字DALL·E取自超现实主义艺术家萨尔瓦多·达利（Salvador Dali）和皮克斯机器人WALL-E，可以从文字说明直接生成图像。

DALL·E对图像生成领域投下了一记重磅炸弹，圈内诸多大佬转发点赞，其本身更是被称为2021年第一个令人兴奋的AI技术突破，甚至被誉为几乎实现了类人智力的模型。

究其原因，则是因为它在文本生成图像上的惊人表现。

基于同在OpenAI开发的模型，也就是拥有1750亿的巨量参数，截至现在仍是业界公认最强的语言模型GPT-3，DALL·E在语言理解上的能力有了一个惊人的提升——

能够创建拟人化（即类人）的动物和对象：

图源：OpenAI官网穿着芭蕾裙遛狗的小白萝卜插画

能将某些对象或概念合并至单个图像中：

图源：OpenAI官网由竖琴制成的蜗牛，带有竖琴纹理的蜗牛

还能补全图像的缺失部分、控制场景的视点和渲染场景的3D样式、将某个对象的内部和外部结构全部都”想象出来“。

其实，OpenAI同天还推出了一款叫做CLIP的技术框架，这一款能将文本与图像联系起来的特殊的”图像识别“，与一般的通过自行车、苹果等确定单词识别图像不同，它是通过一段文字描述来识别图像的。

图源：OpenAI官网

以这两款技术的诞生为标志性事件，语言理解和图像生成任务多年来的技术积累，以”AI作画“为载体，开始集中爆发。

2012年底，基于类别引导的扩散模型（Guided Diffusion）出现，再结合CLIP，一并组成了上文中提到的火爆全网的Disco Diffusion背后的核心技术。

准确地说，Disco Diffusion会先通过图像扩散模型（Diffusion Model），对现有的生成图像进行一次又一次的”去噪“，也就是减少图像生成中的干扰部分，使其变得越来越清晰的一个过程，反复进行这个过程就被称为”迭代“。

而在每次迭代时，CLIP则负责利用其图像识别技术，依据文本提示对现有的图像扩散模型进行评估，并为其提供下次迭代的”方向“，这样，生成的图像也就会和文本提示的匹配度越来越高，图像的精细度也会逐渐增加。

图源：网络

就这样，CLIP负责从文本特征映射到图像特征，然后指导一个生成对抗网络或扩散模型生成图像，自此之后就成为了文本生成图像的一种基本”套路“。

这还没完，今年4月份，OpenAI对DALL·E做了升级，推出了更高分辨率、更低延迟的DALL·E-2：

图源：OpenAI官网

这一技术架构已经脱离了简单的素材拼接，而是确实理解了许多抽象概念——比如空间、光照，甚至是对现实中不存在的图像的想象：

图源：OpenAI官网宇航员在太空中骑着一匹马

但文本到图像领域的SOTA（State Of The Art，指在特定任务中目前表现最好的方法或模型）才被OpenAI保留了一个月，谷歌就站了出来——

5月24日，谷歌大脑研究团队推出了Imagen模型，使得机器的想象力又到达了一个新的高度。

在论文中，Imagen与其他图像生成模型都在目前最有影响力的计算机视觉数据集之一的COCO上进行测试，与DALL·E，DALL·E2，GLIDE等同领域模型对比，Imagen生成的图像与真实图像的差别是最小的。随着一个又一个革命性的技术框架出现，一个又一个具有影响力的科研团队进入赛道，AI作画开始从粗糙走向专业。从AI的随机组合游戏，到理解文本描述开始”想象“，AI是真的一步一步拿起了画笔。

···

"我认为今年就是AI绘画元年。"

PPT设计师阿文这样表示。

数量井喷，技术迭代速度极快的AI绘画工具，不仅热度出圈，身边的艺术设计、绘画等领域的很多专业画手们也纷纷给予了非常积极和正面的评价。

尤其是其所展现的“想象力”，几乎是将手伸到了人类认为只有自己才能做到的领域，背靠网络上现存的所有图像库，再加上惊人的识别能力和融合速度，AI总是能在极短的时间内产出各种匪夷所思的绘画思路和结果。

于是，这样一个观点逐渐在焦虑中成为了一种主流：

AI画手会不会代替掉一些中低端画手？

对于这个问题，阿文给出了否定的回答：

”即使是现在大热的Disco Diffusion和DALLE·E，也没有投入到生产项目当中，因此最多接触到这些工具的人群，依然还是圈内的设计师们，所做的也都是前沿的尝试，还没有到产品商业化的地步。“

而且更重要的一点是，现在的AI画手对于真正的甲方来说，还不够”听话“。

比如，就当下的AI绘画来说，“关键词”极其重要，如何编写结构合理，语句优美的英文描述句，以便于AI充分识别和理解，这是出画的核心。

对关键词的极高要求，使得AI作画并不能像很多人类画手那样”指哪打哪“，尤其是在面对一些莫测难寻的甲方需求时，就显得更呆了。

图源：Simon_阿文微博与友人的吐槽

并且，关键词稍有不慎，人工智能就可能不再智能。

比如像这张画，将动画大师”宫崎骏“加入描述词后，AI直接将老人家的头像生硬拼凑到了画面中：

图源：网络

这也是AI绘画广为人诟病的另一点：在具象内容，尤其是人物生成上的能力偏弱。看似冲击力十足却缺乏逻辑和细节的画面，没有哦内核的概念拼凑......还有更多问题，都使得AI作画不可能百分之百地展现完美的效果。

图源：网络 wombo生成的没有意义的色块拼接

因此，至少对现在的AI绘画工具来说，人类画手后期的调整和加工必不可少。

并且，技术较为前沿，且需要一定艺术知识的AI作画工具，最先接触与最熟悉的第一批用户，一定也都是画手和设计师，即产业中的乙方。而且越到后期，AI工具就越需要关键词输入之外的更多知识，比如具体到代码层面的参数调整。因此，即使是走到了产业化的一步，甲方首先接触到的，也更有可能是”会使用AI的乙方“，而并非AI本身。

作为”会使用AI的乙方“的阿文，还提出了另一种观点：

AI绘画的出现，反倒会让很多画手有了新的契机，能够借助AI工具成为高端画师。

画工、想象力、底图、灵感......诸多不足都可以由AI绘画工具来补足，只要在这些图的基础上进行二次创作，就很有可能够到更高的门槛。

阿文现在就在努力将AI绘画工具纳入自己的工作流程中，比如他在微博就展示过这么一个例子：首先用Disco Diffusion生成相应的纹理，然后再到三维建模工具blender里贴图，最后再搭场景：