AI绘画的成长历史GANdiffusionVAE

随着像midjourney、stable diffusion、DALL-E 这些生图模型的问世，越来越多的同学开始用上了AI生图工具，类似文章配图，文章封面这类创作场景都可以直接用AI产出的图片，可以说节省了本钱的同时供应了很大的便利。

一、20世纪70年 AARON AI绘画问世

最早的AI绘画追溯到20世纪70年代，艺术家哈罗德·科恩（Harold Cohen）发明了AARON，AARON最大的一个特点便是通过机器臂输出作画的，当然这套机器的背后也是通过打算机程序环绕规则和算法驱动的，下面为大家展示一些AARON绘画的作品：

图片风格有点像我上小学那会儿学科教材上的插画样式带点抽象风格，90年代的”AARON”已经能够利用多种颜色进行绘画，并在三维空间中创作，AARON的迭代改进持续了几十年，直到本日它还仍旧在创作。

2006年, 涌现了一个类似ARRON的电脑绘画产品 The Painting Fool. 它是伦敦大学金史密斯学院的打算机创作学教授Colton的作品，它可以不雅观察照片, 提取照片里的块颜色信息, 利用现实中的绘画材料如油漆, 粉彩或者和铅笔等进行创作，Painting Fool作品如下：

AI绘画的成长历史GANdiffusionVAE

以上都是属于“古典”的AI绘图模型，我们当代的AI绘画属于基于深度神经网络根本上产生的，最早也要追溯到2012年吴恩达演习出的能天生“猫脸”的模型。

二、2012年模糊的猫脸

2012年，谷歌的吴恩达和Jeff Dean利用深度学习模型，基于大量猫脸图片演习出了一个能够天生模糊猫脸的模型，这标志着AI绘画的一个主要出发点，他们利用了他们利用了1.6万个CPU核心和来自YouTube的一千万张猫脸图片，进行了为期3天的演习，成功演习出了一个能够天生模糊猫脸的深度神经网络模型，通过模型天生的猫脸图像参照下面这张图：

只管天生的图像质量并不高，但这个实验标志着深度学习在图像天生领域的一个重大进步。
它证明了深度学习模型能够学习到图像的繁芜特色，并用于天生新的图像内容。
这个实验利用了卷积神经网络（CNN），这是一种特殊适用于图像识别和处理的深度学习架构。
这个模型在之前的先容GPT中的神经网络演进历史有讲到过，这篇文章就不再详细先容了。

三、2014年天生式对抗网络（GAN）

2014年，加拿大蒙特利尔大学Ian Goodfellow等人提出的天生对抗网络算法为AI绘画带来了新的发展，它实质上是通过天生器和判别器的对抗过程来天生图像，下面详细先容它的演习事理：

上述图中有两个模型：天生器和判别器，这两个模型分别都有一个目标，对付天生器来说，它的目的是让自己天生的图能够骗过判别器，让它认为这张图便是原始数据库中的真实图片而非模型天生的，这种情形下输出结果越趋近于1（1为真）就能解释天生模型效果越好；对付判断器来说，它的目的是有效地辨别出生成器天生的图片，这种情形下输出结果越趋近于0（0为假）就能解释判别模型效果越好；这样的话就形成了所谓的对抗（GAN），一个想让天生结果更趋向于1，一个想让天生的结果更趋向于0，天生的结果数值会给到两个模型和演习目标比对（一个目标是0，一个目标是1）后分别进行Fine tune（优化模型参数）；那什么情形下算是演习好了呢？这里就有一个纳什均衡的观点，便是说当输出的结果无限趋近于0.5，0和1的中间值那么就算是把这个天生器演习完了。
这个时候天生器天生的图片效果无限逼近于原始图了。

我们现在熟知的Midjourney底层便是基于GAN模型。

四、2015年谷歌的Deep Dream

2015年，谷歌推出了”深梦”（Deep Dream）图像天生工具，只管它更像是一个高等滤镜，但它也标志着AI绘画技能的进步，我们可以先看一下Deep Dream生图的效果：

上面那排是原始演习的数据集，下面那排是Deep Dream 天生的像梦境般的迷幻图。

Deep Dream事理：

假设输入图像是X，这个输入图像可以是随机噪音，也可以是一个图像。
把这个图像输入到卷积神经网络中，它输出的结果是各个类别的概率，这里卷积神经网络便是一个分类机器，若何得到Deep Dream图像呢？须要指定一个标签。
比如想要天生海星状的图像，就须要把目标标签指定为海星，然后通过海星和预测结果的种别之间的偏差，反向传播到输入图像，去优化输入的图像X，如果优化后的X通过卷积神经网络后得到的海星标签的概率很高，那么就得到了类似海星的图像。

把稳：这里调度的是输入图像的像素值而不是卷积神经网络。
在Deep Dream项目中，用到的卷积神经网络的参数是固定的，调度的仅是输入的图像。

无论是14年的GAN还是15年的DeepDream都还没有实现笔墨->图片，直到2021年Open AI推出的生图模型DALL-E的出身。

五、2021年 OpenAI 推出 DALL-E

DALL- E模型的革命性的意义是实现了笔墨->图片的天生模式，相称于用户输入prompt给DALL-E，DALL-E就能天生笔墨对应的图片，DALL-E截止目前已经更新到了第三个版本，每个版本利用的模型可以说差别都挺大的，这个三个版本涉及到的紧张模型如下：

DALL-E 1

模型根本: GPT-3（Transformer） + VAE（自分编码器）

DALL-E 2

模型根本: CLIP（视觉措辞预演习模型） + Diffusion（扩散模型）

DALL-E 3

模型根本：CLIP + VAE + Diffusion（扩散模型）

下面是网上找到的DALL-E2和DALL- E3的比拟图：

上述涉及的模型比较多，但我们可以将其进行归类，一类是图像描述天生模型（将用户的Prompt转换成生图模型理解的描述），例如：GPT-3（Transformer）、CLIP（视觉措辞预演习模型）；其余一类是图像天生，模型 VAE（自分编码器）、Diffusion（扩散模型）。
那么下面我们就分别来看看这些模型的事理：

CLIP（视觉措辞预演习模型）

中央思想：基于4亿个图像-文本对的数据集，自监督学习的办法实现最大化文本和图像的关联关系。

1）详细步骤为：数据集准备：网络大量的图像和文本对。
这些图像和文本对可以是成对的，也可以是单独的图像或文本。
空想情形下，这些数据该当涵盖广泛的种别和场景。

2）特色提取：利用预演习的卷积神经网络（CNN）作为图像编码器，从图像中提取特色。
对付文本，可以利用预演习的措辞模型（如BERT）来提取文本特色。

3）正负样本对：为每个图像天生正样本对（与图像匹配的文本描述）和负样本对（与图像不匹配的文本描述）。
这可以通过从数据集中随机选择或利用专门的数据增强技能来实现。

4）比拟学习：CLIP模型的核心是比拟学习，它通过最大化正样本对之间的相似度并最小化负样本对之间的相似度来演习模型。
这常日通过一个比拟丢失函数来实现。

5）迭代演习：重复上述步骤，直到模型在验证集上的性能不再显著提升或达到预定的迭代次数。

VAE（自分编码器）

VAE（自分编码器）也是一个生图模型，我们在理解VAE（自分编码器）之前可以先理解下它的前生AE（自动编码器）

AE模型由两部分组成，编码器（Encoder）和解码器（Encoder），可以理解为是两个神经网络层，前者是将高维输入（图片）映射为低维编码（code），后者将低维编码（code）映射为高维图片。
这样的架构下天生的图片效果并不是很空想，缘故原由是过拟合，泛化性不好，下面用一个例子来阐明下这个缺陷：

如果我们让 AE 这套架构先去学习“月牙”和“满月”两个数据，个中“月牙”输出的 code=1 而满月输出的 code=10，这时候想让演习好的 AE 输出“半月”也便是 code=5，效果是不理想的，缘故原由模型演习都是固定的输入和输出，中间没有灰度，所以为理解决这个问题，那么下面讲到的 VAE 就横空出世了。

VAE 是怎么办理 AE 的毛病的呢，同样用“月牙”“满月”的例子，如下图：

我们可以大略理解为在 AE 的根本上增加了正太函数，使得不仅仅code=1 为“月牙”，code=0.9、0.8、1.1…同样具备月牙的特色，同理不仅仅code=10 为“满月”，code=10.5、11、9.5…同样具备满月的特色，那当 code=5 时候就同时具备了满月和月牙的特色，输出的结果就比较空想。

Diffusion（扩散模型）

同样Diffusion（扩散模型）也是一个生图模型，比较上文提到的GAN（对抗天生网络）和AVE（自分编码器）的上风在于天生的图片质量更高且演习过程可控稳定但打算资源花费较大，我们来看下扩散模型的生图事理：

大略来说 diffusion models 便是一个通过给图片加噪，再反向减噪还原图片的过程，还原的过程中会涉及到一个 unet 网络去预测还原的噪声。
详细步骤如下：

1. 将数据集中的图像加噪：

2. 反向引入 unet 网络预测噪声，这里涉及到unet网络如何演习：

引入一个随机噪声图像；随机噪声图像代入到 unet 网络，网络预测产生了多少噪声；将随机图像-噪声得到图片结果；将图片结果和实际精确图片进行比对产生偏差后反向调度模型，直到显示精确的图像。
不同的图片数据集反复形成一个合格的 unet 网络。

3. 有了 unet 网络，就可以还原数据集中的图片：随机噪声-unet 网络预测的噪声

备注：这里面可以理解下马尔可夫链的干系知识，油管地址：https://www.youtube.com/watch?v=2NruDWUyXBk&t=194s

马尔可夫链在这里可以大略理解为，结果不受初始值（随机噪声）的影响，通过马尔可夫链打算函数可以预测到固定的结果，以是我们可以引入随机的噪音。

我们现在熟知的stable diffusion紧张便是基于diffusion生图模型。

到这里DALL-E模型就基本先容完了，接下来先容的便是我们众所周知的Midjourney喝Stable Diffusion两个图片天生AI了，而他们所用的模型基本在前面的内容中都先容了，以是我们就不再扩展，大略先容下他们用的模型以及一些生图的效果。

八、2022年3月 AI绘画工具 Midjourney 问世

核心的模型：CLIP+GAN

Midjourney 为闭源系统

九、2022年8月 AI绘画工具 stable diffusion 问世

核心模型：CLIP+diffusion+VAE

stable diffusion为开源系统

本文由 @产品萧书原创发布于大家都是产品经理。
未经作者容许，禁止转载

题图来自 Pixabay，基于CC0协议

该文不雅观点仅代表作者本人，大家都是产品经理平台仅供应信息存储空间做事

每期AI知识网

AI绘画的成长历史GANdiffusionVAE

大年夜力教诲大年夜力做AI课低调上线豆豆狐小马AI课

录音1小时出稿5分钟有位内容创作AI小秘书能帮你写作赚钱