序言

自从前段韶光有光阴被当下AI绘画的水平震住之后(超越统统的AI作画神器, 和它创作的234个盔甲美女未来战士),作者深感当今AI绘画的飞速进展或许已远超所有人的预期。
而这里的前因后果,包括AI绘画的历史,以及最近的打破性进展,值得好好和大伙儿梳理和分享一下。

2022,攻击的AI绘画

今年以来, 输入文本描述自动天生图片的AI绘画神器溘然雨后春笋的冒了出来。

万字整理AI绘画突飞年夜进的一年半

首先是Disco Diffusion。
Disco Diffusion 是在今年 2 月初开始爆红的一个 AI 图像天生程序,它可以根据描述场景的关键词渲染出对应的图像。

到了今年4月, 著名人工智能团队OpenAI 也发布了新模型 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E), 同样支持从文本描述天生效果良好的图像。

而很多读者对AI绘画开始产生特殊的关注, 或许是从以下这幅AI作品闹出的新闻开始的:

这是一幅利用AI绘画做事 MidJourney 天生的数字油画,天生它的用户以这幅画参加美国科罗拉多州展览会的艺术比赛,夺得了第一名。
这件事被曝光之后引发了网络上巨大的辩论至今。

目前 AI绘画的技能仍在不断变革发展中,其迭代之快,完备可以用“日月牙异”来形容。
纵然把今年年初的AI绘画和现在比较,。
效果也有寰宇之别。

在年初的时候,用Disco Diffusion可以天生一些很有氛围感的草图,但基本还无法天生人脸;仅仅2个月后,DALL-E 2已经可以天生准确的五官;现在,最强大的Stable Diffusion在画作的精细程度和作画速率上更是有了一个量级的变革。

AI绘画这项技能并不是近年才有的,但是今年以来,AI产出作品的质量以肉眼可见的速度日益提升,而效率也从年初的一个小时缩短到现在的十几秒。

在这个变革后面,究竟发生了什么事情?就让我们先全面回顾一下AI绘画的历史,再来理解一下这一年多来,AI绘画技能足以载入史册的打破发展。

AI绘画的历史

AI绘画的涌现韶光可能比很多人想象的要早。

打算机是上世纪60年代涌现的,而就在70年代,一位艺术家哈罗德·科恩Harold Cohen(画家,加利福尼亚大学圣地亚哥分校的教授)就开始打造电脑程序“AARON”进行绘画创作。
只是和当下AI绘画输出数字作品有所不同,AARON是真的去掌握一个机器臂来作画的。

Harold对AARON的改进一贯持续了几十年,直到他离世。
在80年代的时候,ARRON“节制”了三维物体的绘制;90年代时,AARON能够利用多种颜色进行绘画,据称直到本日,ARRON仍旧在创作。

不过,AARON的代码没有开源,以是其作画的细节无从知晓,但可以预测,ARRON只因此一种繁芜的编程办法描述了作者Harold本人对绘画的理解——这也是为什么ARRON经由几十年的学习迭代,末了仍旧只能产生色彩艳丽的抽象派风格画作,这正是 Harold Cohen 本人的抽象色彩绘画风格。
Harold用了几十年韶光,把自己对艺术的理解和表现办法通过程序辅导机器臂呈现在了画布上。

左:ARRON和哈罗德·科恩;右:ARRON 在 1992 年的创作作品

只管难说AARON如何智能,但作为第一个自动作画且真的在画布上作画的程序,给予它一个AI作画鼻祖的称号,倒也符合其身份。

2006年,涌现了一个类似ARRON的电脑绘画产品 The Painting Fool。
它可以不雅观察照片,提取照片里的块颜色信息,利用现实中的绘画材料如油漆、粉彩或者铅笔等进行创作。

以上这两个例子算是比较“古典”办法的电脑自动绘画,有点像一个学步的婴儿,有一点样子,但从智能化的角度来看是相称低级的。

而现在,我们所说的\"大众AI绘画\"大众观点,更多指的是基于深度学习模型来进行自动作图的打算机程序。
这个绘画办法的发展实在是比较晚的。

在2012年Google两位大名鼎鼎的AI大神吴恩达和Jef Dean进行了一场空前的试验,联手利用1.6万个CPU演习了一个当时天下上最大的深度学习网络,用来辅导打算机画出猫脸图片。
当时他们利用了来自youtube的1000万个猫脸图片,1.6万个CPU整整演习了3天,终极得到的模型,令人振奋地可以天生一个非常模糊的猫脸。

在本日看起来,这个模型的演习效率和输出结果都不值一提。
但对付当时的AI研究领域,这是一次具有打破意义的考试测验,正式开启了深度学习模型支持的AI绘画这个“全新”研究方向。

在这里我们轻微讲一点技能细节:基于深度学习模型的AI绘画究竟有多麻烦呢,为什么2012年已经很当代水平的大规模打算机集群耗时多天的演习只能得出一点可怜的结果?

读者们或许有个基本观点,深度学习模型的演习大略说来便是利用外部大量标注好的演习数据输入,根据输入和所对应的预期输出,反复调度模型内部参数加以匹配的过程.

那么让AI学会绘画的过程,便是构建已有画作的演习数据,输入AI模型进行参数迭代调度的过程。

一幅画带有多少信息呢?首先便是长x宽个RGB像素点。
让打算机学绘画,最大略的出发点是得到一个输出有规律像素组合的AI模型。

但RGB像素组合一起的并非都是画作,也可能只是噪点。
一副纹理丰富、笔触自然的画作有很多笔画完成,涉及绘画中每一笔的位置、形状、颜色等多个方面的参数,这里涉及到的参数组合是非常弘大的。
而深度模型演习的打算繁芜度随着参数输入组合的增长而急剧增长……大家可以理解这个事情为啥不大略了。

在吴恩达和Jeff Dean首创性的猫脸天生模型之后,AI科学家们开始前赴后继投入到这个新的寻衅性领域里。
在2014年,AI学术界提出了一个非常主要的深度学习模型,这便是大名鼎鼎的对抗天生网络GAN(Generative Adverserial Network,GAN).

正犹如其名字“对抗天生”, 这个深度学习模型的核心理念是让两个内部程序“天生器(generator)”和“判别器(discriminator)”相互PK平衡之后得到结果。

GAN模型一问世就风靡AI学术界,在多个领域得到了广泛的运用。
它也随即成为了很多AI绘画模型的根本框架,个中天生器用来天生图片,而判别器用来判断图片质量。
GAN的涌现大大推动了AI绘画的发展。

但是,用根本的GAN模型进行AI绘画也有比较明显的毛病,一方面是对输出结果的掌握力很弱,随意马虎产生随机图像,而AI艺术家的输出该当是稳定的;其余一个问题是天生图像的分辨率比较低。

分辨率的问题还好说, GAN在“创作”这个点上还存在一个去世结, 这个结正好是其自身的核心特点:根据GAN基本架构,判别器要判断产生的图像是否和已经供应给判别器的其他图像是同一个类别的, 这就决定了在最好的情形下,输出的图像也便是对现有作品的模拟,而不是创新……

在对抗天生网络GAN之外,研究职员也开始利用其他种类的深度学习模型来考试测验教AI绘画。

一个比较著名的例子是2015年Google发布的一个图像工具深梦(Deep Dream)。
深梦发布了一系列画作,一时吸引了很多眼球。
谷歌乃至为这个深梦的作品策划了一场画展。

但如果较真一下,深梦与其说是AI绘画,更像是一个高等AI版滤镜。

和作品不尴不尬的Deep Dream比较,Google更靠谱的是2017年景千张手绘简笔画图片演习的一个模型,AI通过演习能够绘制一些简笔画。
(Google,《A Neural Representation of Sketch Drawings》)

这个模型之以是受到广泛关注有一个缘故原由,Google把干系源代码开源了,因此第三方开拓者可以基于该模型开拓有趣的AI简笔画运用。
一个在线运用叫做 “Draw Together with a Neural Network”,随意画几笔,AI就可以自动帮你补充完全个图形。

值得把稳的是,在AI绘画模型的研究过程中,各互联网大厂成了主力,除了上述Google所做的研究, 比较有名的是2017年7月,Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方互助得到的新模型,号称创造性对抗网络(CAN,Creative Adversarial Networks)

(Facebook,《CAN: Creative Adversarial Networks, Generating \公众Art\"大众 by Learning About Styles and Deviating from Style Norms》)

从下图的作品集可以看出,这个创造性对抗网络CAN在考试测验输出一些像是艺术家作品的图画,它们是独一无二的,而不是现存艺术作品的仿品。

CAN模型天生作品里所表示的创造性让当时的开拓研究职员都感到震荡,由于这些作品看起来和艺术圈子盛行的抽象画非常类似。
于是研究职员组织了一场图灵测试,请不雅观众们去猜这些作品是人类艺术家的作品,还是人工智能的创作。

结果,53%的不雅观众认为CAN模型的AI艺术作品出自人类之手,这在历史上类似的图灵测试里首次打破半数。

但CAN这个AI作画,仅限于一些抽象表达,而且就艺术性评分而言,还远远达不到人类大师的水平。
更不用说创作出一些写实或者具象的绘画作品了,不存在的。

实在一贯到2021年初,OpenAI发布了广受关注的DALL-E系统,其AI绘画的水平也就一样平常,下面是DALL-E画一只狐狸的结果,勉强可以辨别。

但值得把稳的是,到了DALL-E这里,AI开始拥有了一个主要的能力,那便是可以按照笔墨输入提示来进行创作了!

接下来,我们连续去探求本文一开始提出的问题。
不知各位读者是否有同感,自今年以来,AI绘画的水平溘然大涨,和之前的作品质量比较有实质的飞跃,恍然有种一日不见如隔三秋的觉得。

事出必有妖. 究竟发生了什么情形? 我们逐步道来.

AI绘画何以突飞年夜进

在很多科幻电影或剧集里,每每会有这么一幕:主角和特殊有科幻感的电脑AI说了一句话,然后AI天生了一个3D影像,用VR/AR/全息投影的办法呈现在主角面前。

抛开那些酷炫的视觉效果包装,这里的核心能力是,人类用措辞输入,然后电脑AI理解人类的表达,天生一个符合哀求的图形图像,展示给人类。

仔细一想,这个能力最根本的形式,便是一个AI绘画的观点嘛。
(当然,从平面绘画到3D天生还稍有一点间隔,但比较于AI凭空创作一幅具象故意义的绘画作品的难度,从2D图自动天生对应的3D模型就不是一个量级上的问题。

以是,无论是用说话掌握,还是更玄乎的脑电波掌握,科幻影视中的酷炫场景实际上描述了一种AI能力,那便是把“措辞描述”通过AI理解自动变为了图像。
目前语音自动识别文本的技能已经成熟至极,以是这实质上便是一个从文本到图像的AI绘画过程。

实在挺牛X的,仅靠笔墨描述,没有任何参考图片,AI就能理解并自动把对应内容给画出来了,而且画得越来越好!
这在昨天还觉得有点远的事情,现在已真真切切涌如今所有人的面前。

这统统到底怎么发生的呢?

首先要提到一个新模型的出身。
还是前面提到的OpenAI团队,在2021年1月开源了新的深度学习模型 CLIP(Contrastive Language-Image Pre-Training)。
一个当今最前辈的图像分类人工智能.。

CLIP演习AI同时做了两个事情,一个是自然措辞理解,一个是打算机视觉剖析。
它被设计成一个有特定用场的能力强大的工具,那便是做通用的图像分类,CLIP可以决定图像和笔墨提示的对应程度,比如把猫的图像和“猫”这个词完备匹配起来、

CLIP模型的演习过程,大略的说,便是利用已经标注好的“笔墨-图像”演习数据,一方面对笔墨进行模型演习,一方面对图像进行另一个模型的演习,不断调度两个模型内部参数,使得模型分别输出的笔墨特色值和图像特色值能让对应的“笔墨-图像”经由大略验证确认匹配。

关键的地方来了,实在呢,之前也有人考试测验过演习“笔墨-图像”匹配的模型,但CLIP最大的不同是,它搜刮了40亿个“笔墨-图像”演习数据!
通过这天量的数据,再砸入让人咂舌的昂贵演习韶光,CLIP模型终于修成正果。

聪明的读者会问,这么多的“笔墨-图像”标记是谁做的呢?40亿张啊,如果都须要人工来标记图像干系笔墨,那韶光本钱和人力本钱都是天价。
而这正是CLIP最聪明的地方,它用的是广泛散布在互联网上的图片!

互联网上的图片一样平常都带有各种文本描述,比如标题、 注释,乃至用户打的标签,等等,这就天然的成为了可用的演习样本。
用这个特殊机灵的办法,CLIP的演习过程完备避免了最昂贵费时的人工标注,或者说,全天下的互联网用户已经提前做了标注事情了。

CLIP功能强大,但无论如何,它第一眼看上去,和艺术创作彷佛没啥关系。

但就在CLIP开源发布几天后,一些机器学习工程师玩家就意识到,这个模型可以用来做更多的事情. 比如Ryan Murdock,想出了如何把其他AI连接到CLIP上,来打造一个AI图像天生器。
Ryan Murdock在接管采访时说:“在我把玩它几天后,我意识到我可以天生图像。

终极他选择了BigGAN,一个GAN模型的变种,并将代码发布为Colab条记The Big Sleep。

(注:Colab Notebook是Google供应的非常方便的Python Notebook交互式编程条记本在线做事,背后是Google云打算的支持。
略懂技能的用户可以在一个类似条记本的Web界面上编辑运行Python脚本并得到输出。
主要的是,这个编程条记是可以分享的)

Big Sleep创作的图画实在略诡异和抽象, 但这是一个很好的开始。

随后,西班牙玩家@RiversHaveWings在此根本上发布了CLIP+VQGAN的版本和教程,这个版本通过Twitter被广为转发传播,引起了AI研究界和爱好者们的高度关注。
而这个ID背后,正是现在所被熟知的打算机数据科学家 Katherine Crowson。

在之前,类似VQ-GAN这样的天生工具在对大量图像进行演习后,可以合成类似的新图像,然而,如读者还有印象,前面说过,GANs类型的模型本身并不能通过笔墨提示天生新图像,也不善于创作出全新的图像内容。

而把CLIP嫁接到GAN上去天生图像,这个中的思路倒也大略明了:

既然利用CLIP可以打算出任意一串笔墨和哪些图像特色值相匹配,那只要把这个匹配验证过程链接到卖力天生图像的AI模型(比如这里是VQ-GAN) ,卖力天生图像的模型反过来推导一个产生得当图像特色值,能通过匹配验证的图像,不就得到一幅符合笔墨描述的作品了吗?

有人认为CLIP+VQGAN是自2015年Deep Dream以来人工智能艺术领域最大的创新。
而美妙的是,CLIP+VQGAN对任何想利用它们的人来说都是现成的。
按照Katherine Crowson的线上教程和Colab Notebook,一个略懂技能的用户可以在几分钟内运行该系统。

故意思的是,上一章也提到,在同一个韶光(2021年初),开源发布CLIP的OpenAI团队也发布了自己的图像天生引擎DALL-E。
DALL-E内部也正是用了CLIP,但DALL-E并不开源!

以是论社区影响力和贡献,DALL-E完备不能和CLIP+VQGAN的开源实现发布比较,当然,开源CLIP已经是OpenAI对社区做出的巨大贡献了。

说到开源贡献,这里还不得不提到LAION。

LAION是一个跨环球的非营利机器学习研究机构,今年3月开放了当前最大规模的开源跨模态数据库LAION-5B,包含靠近60亿(5.85 Billion)个图片-文本对,可以被用来演习所有从笔墨到图像的的天生模型,也可以用于演习 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像天生模型的核心。

除了供应以上的海量演习素材库,LAION 还演习 AI 根据艺术感和视觉美感,给LAION-5B 里图片打分,并把得高分的图片归进了一个叫 LAION-Aesthetics 的子集。

事实上, 最新的AI绘画模型包括随后提到的AI绘画模型王者 Stable Diffusion都是利用LAION-Aesthetics这个高质量数据集演习出来的。

CLIP+VQGAN 引领了全新一代AI图像天生技能的风潮,现在所有的开源 TTI(Text to Image, 文本文本天生图像)模型的简介里都会对 Katherine Crowson 致谢,她是当之无愧的全新一代AI绘画模型的奠基者。

技能玩家们环绕着CLIP+VQGAN开始形成社区,代码不断有人做优化改进,还有Twitter账号专门网络和发布AI画作。
而最早的践行者 Ryan Murdoch 照样以被招募进了Adobe担当机器学习算法工程师。

不过这一波AI作画浪潮的玩家紧张还是AI技能爱好者。

只管和本地支配AI开拓环境比较,在Golab Notebooks上跑CLIP+VQGAN的门槛相对而言已经比较低,但毕竟在Colab申请GPU运行代码并调用AI输出图片,时时时还要处理一下代码报错,这不是大众化人群特殊是没有技能背景的艺术创作者们可以做的。
而这也正是现在 MidJourney 这类零门槛的傻瓜式AI付费创作做事大放光彩的缘故原由。

但激动民气的进展到这里还远没结束。
细心的读者把稳到,CLIP+VQGAN这个强力组合是去年初发布并在小圈子传播的,但AI绘画的大众化关注,如开篇所说,则是在今年初开始,由Disco Diffusion这个线上做事所引爆。
这里还隔着大半年的韶光。
是什么耽搁了呢?

一个缘故原由是CLIP+VQGAN模型所用到的图像天生部分,即GAN类模型的天生结果始终不尽如人意。

AI职员把稳到了其余一种图像天生办法。
如果复习一下GAN模型的事情事理,其图像输出是内部天生器和判断器的PK妥协结果。
但还有其余一种思路,那便是Diffusion模型(扩散化模型)。

Diffusion这个词也很高大上,但基本事理说出来大家都能理解,实在便是“去噪点”。
对,便是我们熟习的手机拍照(特殊是夜景拍照)的自动降噪功能。
如果把这个去噪点的打算过程反复进行,在极度的情形下,是不是可能把一个完备是噪声的图片还原为一个清晰的图片呢?

靠人当然弗成,大略的去噪程序也不可能,但是基于AI能力去一边“猜”一边去噪,倒是可行的。

这便是Diffusion扩散化模型的基本思路。

Diffusion扩散化模型目前在打算机视觉领域的影响力越来越大,它能够高效合成视觉数据,图片天生完备击败了GAN模型,而在其他领域如视频天生和音频合成也展现出了不俗的潜力。

今年初被大众首先熟知的AI绘画产品Disco Diffusion,正是第一个基于CLIP + Diffusion模型的实用化AI绘画产品。

但Disco Diffusion的缺陷还是有些明显,如身为专业艺术家的 Stijn Windig 反复考试测验了Disco Diffusion,认为 Disco Diffusion 并没有取代人工创作的能力,核心缘故原由有2点:

Disco Diffusion 无法刻画详细细节,渲染出的图像第一眼很惊艳,但仔细不雅观察就会创造大部分都是模糊的概括,达不到商业细节水准。

Disco Diffusion的初步渲染韶光因此小时打算的,而要在渲染图像的根本上刻画细节,则相称于要把全体图重新画一遍,这样一个流程下来花耗费的韶光精力,比直接手绘还要多。

不过 Stijn Windig 还是对AI绘画的发展持乐不雅观态度,他以为只管直策应用 Disco Diffusion 进行商业化创作还不可行,但作为一种灵感参考还是非常好的:“……我创造它更适宜作为一个创意天生器利用。
给一个笔墨提示,它返回一些图片能引发我的想象力,并可以作为草图用来在上面绘画。

实在从技能上来说, Stijn提出的两大痛点实际上都是由于Diffusion扩散模型的一个内在缺陷, 这便是反向去噪天生图片的迭代过程很慢,模型在像素空间中进行打算,这会导致对打算韶光和内存资源的巨大需求,在天生高分辨率图像时变得非常昂贵。
(像素空间, 有点专业化的说法, 实际上便是说模型直接在原始像素信息层面上做打算)

因此对付大众运用级的平台产品,这个模型无法在用户可以接管的天生韶光里去打算挖掘更多的图像细节,即便那种草稿级别的作图,也须要耗费Disco Diffusion以小时打算的韶光。

但无论如何,Disco Diffusion给出的绘画质量,相对付之前的所有AI绘画模型,都是碾压式的超越,而且已经是大部分普通人无法企及的作画水平了,Stijn的挑刺只是站在人类专业创作的高点提出的哀求。

但是,Stijn同学恐怕切切没想到,他所指出的AI绘画两大痛点,还没过几个月,就被AI研究职员近乎完美的办理了!

讲到这里,当当当当,当现代界最强大的AI绘画模型Stable Diffusion终于闪亮登场了!

Stable Diffusion今年7月开始测试,它非常好的办理了上述痛点。

实际上Stable Diffusion和之前的Diffusion扩散化模型比较,重点是做了一件事,那便是把模型的打算空间,从像素空间经由数学变换,在尽可能保留细节信息的情形低落维到一个称之为潜空间(Latent Space)的低维空间里,然后再进行繁重的模型演习和图像天生打算。

这个\"大众大略\"大众的思路转化,带来了多大的影响呢?

基于潜空间的Diffusion模型与像素空间Diffusion模型比较,大大降落了内存和打算哀求。
比如Stable Diffusion所利用的潜空间编码缩减因子为8,说人话便是图像长和宽都缩减8倍,一个512x512的图像在潜空间中直接变为64x64,节省了8x8=64倍的内存!

这便是Stable Diffusion之以是又快又好的缘故原由,它能快速(以秒打算)天生一张饱含细节的512x512图像,只须要一张消费级的8GB 2060显卡即可!

读者可以大略算一下,如没有这个空间压缩转换,要实现Stable Diffusion这样的秒级图像天生体验,则须要一张8Gx64=512G显存的超级显卡。
按照显卡硬件的发展规律来看,消费级显卡达到这个显存恐怕是8~10年后的事情。

而AI研究职员一个算法上的主要迭代,把10年后我们才可能享受到的AI作画成果直接带到了当下所有普通用户的电脑前!

以是目前大家对AI绘画的进展感到吃惊是完备正常的,由于从去年到今年,AI绘画的技能确实涌现了连续的打破性的进展,从CLIP模型基于无需标注的海量互联网图片演习大成,到CLIP开源引发的AI绘画模型嫁接热潮,然后找到了Diffusion扩散化模型作为更好的图像天生模块,末了利用潜空间降维的改进方法办理了Diffusion模型韶光和内存资源花费巨大的问题……这统统的统统,让人目不暇接,可以说AI绘画在这一年间,变革因此天打算的!

而在这个过程中,最幸福的莫过于所有AI技能爱好者和艺术创作者们。
大家亲眼目睹着结束了多年的AI绘画水平以火箭般的速率冲到了顶峰。
毫无疑问,这是AI发展历史上的一个高光时候。

而对所有普通用户来说,最愉快的,当然是享受到了利用Stable Diffusion或者MidJourney这样确当今顶级作画AI去天生专业级别画作的巨大乐趣。

有趣的是,Stable Diffusion的出身还和前面提到的两位先驱Katherine Crowson 和Ryan Murdoch 有关。
他们成为了一个去中央化组织的AI开源研发团队EleutherAI的核心成员。
虽然自称草根团队,但EleutherAI在超大规模预言模型和AI图像天生领域目前都已经是开源团队的佼佼者。

正是EleutherAI作为技能核心团队支持了Stability.AI这一家创始于英国伦敦的AI方案供应商。
这些有空想的人们聚在一起,基于以上这些最新的AI绘画技能打破,推出了当今最强大的AI绘画模型Stable Diffusion。
主要的是,Stable Diffusion按照承诺,已经在8月完备开源!
这个主要的开源让全天下的AI学者和AI技能爱好者冲动得痛哭流涕。
Stable Diffusion一经开源,就始终霸占着GitHub热榜第一。

Stability.AI彻底履行了它官网首页的Slogan “AI by the people,for the people”,必须给予一个大大的赞.

下图是作者线上运行的Stable Diffusion,感谢开源!
话说这个AI天生的自带光环的日漫小哥是相称的帅气:)

顶级AI绘画模型的PK:Stable Diffusion vs. MidJourney

作者在之前文章里已经先容了MidJourney这个在线AI作画神器,它最大的优点便是零门槛的交互和非常好的输出结果。
创作者无需任何技能背景就能利用基于Discord的MidJourney bot进行对话式绘画创作(恩,当然,全英文)。

从输出风格上看,MidJourney非常明显针对人像做了一些优化,用多了后, MidJourney的风格方向也比较明显(作者在MidJourney上花了数百刀的打算资源考试测验了各种主题创作后的第一手感想熏染),说得好听是比较细腻讨巧,或者说,比较油腻一点点。

而Stable Diffusion的作品,就明显的更淡雅一些,更艺术化一些。

以下是作者利用了同一种笔墨描述在这两大平台上创作的AI作品比拟,读者不妨直接感想熏染一下。
(注:以下天生画作均有完备版权,单独转载请注明来源)

Stable Diffusion(左)vs. MidJourney(右):

树屋

柴油朋克风的城市

魔兽天下主城奥格瑞玛

盔甲狼骑士

碧蓝抱负风格漫画少女

浪漫写实主义美女油画(风格参考丹尼尔·戈尔哈茨,美国画家)

带有狭长走道的迷宫般老城市建筑

哪种风格更好?实在萝卜青菜各有所爱。

由于做过针对性的优化,如要出人像图或者糖水风格美图用MidJourney更方便。
但比较了多张作品后,作者认为Stable Diffusion还是明显技高一筹,无论从艺术表达上还是风格变革的多样性上。

不过,MidJourney这几个月的迭代是有目共睹的快(毕竟是付费做事,很赢利很有动力啊), 加上Stable Diffusion的完备开源,估量干系技能上风会很快被接管进MidJourney。
而另一方面,Stable Diffusion模型的演习还在持续进行中,我们可以非常期待,未来版本的Stable Diffusion模型也将百尺竿头更进一步。

对所有的创作者用户而言, 这都是天算夜的好事。

AI绘画的打破对人类意味着什么

2022年的AI领域,基于文本天生图像的AI绘画模型是风头无两的主角。
从2月份的Disco Diffusion开始,4月DALL-E 2和MidJourney约请内测,5月和6月Google发布两大模型Imagen 和Parti(不开放内测只有论文,觉得略水),然后7月尾,Stable Diffusion横空出世……

真的让人眼花缭乱。
也勿怪作者在上篇文章里感慨,怎么稍不把稳AI绘画的水平就突飞年夜进到如此地步,事实上,确实便是在这一年半载里,AI绘画发生了革命性的、乃至可以说历史上会留名的打破性进展。

而接下去的韶光里,AI绘画,或者更广泛的,AI天生内容领域(图像、声音、视频、3D内容等)还会发生什么,让人充满了遐想和期待。

但不用等待未来,体验了当下以Stable Diffusion为代表的最前辈AI绘画模型所能触达的艺术高度,我们已经基本可以确认,“想象力”和“创造力”这两个曾经充满着神秘主义的词汇,同时也是人类末了的骄傲,实在也是可以被技能解构的。

对人类灵魂神圣至上说法的推戴者而言,当今AI绘画模型所展现的创造力,是一种对崇奉的无情打击。
所谓灵感、创造力、想象力,这些充满着神性的词,即将(或者已经)被超级算力+大数据+数学模型的强力组合无情打脸了。

事实上,类似Stable Diffusion这种AI天生模型的一个核心思路,或者说很多深度学习AI模型的核心思路,便是把人类创作的内容,表示为某个高维或者低维数学空间里的一个向量(更大略的理解,一串数字)。

如果这个“内容->向量”的转化设计足够合理,那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。
而存在于这个无限的数学空间里的其他向量,正是那些理论上人类可能创造,但尚未被创造出来的内容。
通过逆向的“向量->内容”的转换,这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney、Stable Diffusion这些最新AI绘画模型所做的事情。
AI可以说是在创作新的内容,也可以说是新绘画作品的搬运工。
AI产生的新绘画作品在数学意义上一贯客不雅观存在,只是被AI通过很聪明的办法,从数学空间里还原出来,而已。

“文章本天成, 妙手偶得之”。

这句话放在这里非常得当。
这“天”,是那个无限的数学空间;而这“手”,从人类换成了AI。
数学真是天下至高法则。

目前最新AI绘画的“创造力”开始追赶乃至几已比肩人类,这或许进一步打击了人类的肃静,从围棋阿法狗开始,人类在“聪慧”这个点的肃静领地已经越来越小,而AI绘画的打破性进展则进一步把人类“想象力”和“创造力”的肃静都打碎了——或许还没完备破碎,但已经充满缝隙风雨飘摇。

作者一贯对人类的科技发展保持某种中性意见:只管我们寄望于科技让人类的生活变得更美好,但事实上正如核弹的发明,有些科学技能的涌现是中性的,也可能是致命的。
完备取代人类的超级AI从实践来看彷佛是一件越来越可能的事情。
人类须要思考的是,在不太远的将来,我们在所有领域面对AI都落荒而逃的时候,如何保持对天下的主导权。

有个朋友说的很对,如果AI终极学会了写代码——彷佛没有什么一定的壁垒在阻挡这件事的发生——那么电影《闭幕者》的故事或许就要发生了。
如果这样太悲观,那么人类至少要考虑,如何与一个超越自己所有聪慧和创造力的AI天下相处。

当然咯,乐不雅观的角度而言,未来的天下只会更美好:人类通过AR/VR接入统一的或者个人的元宇宙,人类主人只要动动嘴皮子,无所不能的AI助理就能根据哀求自动天生内容,乃至直接天生可供人类体验的故事/游戏/虚拟生活。

这是一个更美好的盗梦空间,还是一个更美好的黑客帝国?(笑)

无论如何,本日我们见证的AI绘画能力的打破和超越,正是这条不归路的第一步。

One More Thing

说个题外话作为结尾。
只管还没涌现,但该当就在这两年,我们可以直接让AI天生一本指定风格的完全长篇小说,特殊是那些类型化的作品,比如《斗破苍穹》《凡人修仙传》这样的玄幻小说,还可以指定长度,指定女主角个数,指定情节方向性,指定悲情程度和热血程度,乃至xx程度,AI一键天生。

这完备不是天方夜谭,考虑到AI绘画这一年坐火箭般的发展速率,作者乃至以为这一天就近在面前。

目前还没有AI模型可以天生足够传染力和逻辑性的长篇文学内容,但从AI绘画模型气势汹汹的发展态势来看,不久的将来AI天生高质量的类型文学作品险些已是板上钉钉的事情,理论上没有任何的疑问.

这样说或许打击了那些辛劳码字的网文作者,但作为一个技能爱好者和玄幻小说爱好者,作者对这一天的到来还是有些期待的:从此再也不需催更,也不须要担心连载作者的写作状态了;更美好的是,看到一半如以为不爽,还可以随时让AI调度后续情节方向重新天生再连续看……

若你还不愿定这样的一天即将到来,我们可以求同存异,一起等待。

末了分享一组作者用stable diffusion天生的细节完备不同、风格又完备同等,质量还永久保持满格的“带有狭长走道的城市迷宫老建筑区”系列。
看着这些精美的AI作品,作者只有一种觉得,AI创作有“灵魂”了,不知读者们,是否有同感?

本文来自微信公众号:Web3天空之城(ID:gh_a702b8d21cdf),作者:城主

本内容为作者独立不雅观点,不代表虎嗅态度。
未经许可不得转载,授权事宜请联系 hezuo@huxiu.com

正在改变与想要改变天下的人,都在 虎嗅APP