两年前,蒙特利尔大学 Ian Goodfellow 等学者提出“天生对抗网络”(Generative Adversarial Networks,GANs)的观点,并逐渐引起 AI 业内人士的把稳。
实在,直到 2015 年,天生对抗网络还称不上是炙手可热。
但自今年(2016)以来,学界、业界对 GANs 的兴趣涌现“井喷”:

多篇重磅论文陆续揭橥;

Facebook、Open AI 等 AI 业界巨子也加入对 GANs 的研究;

它成为今年 12 月 NIPS 大会当之无愧的明星——在会议大纲中被提到逾 170 次;“

生成对抗收集GANs 为什么这么火盘点它出身以来的主要技能进展

GANs之父” Ian Goodfellow 被公推为人工智能的顶级专家;

业内另一位大牛 Yan Lecun 也对它交口夸奖,称其为“20 年来机器学习领域最酷的想法”。

现在,雷锋网得到,就连苹果也跳上了 GANs 的彩车:苹果有史以来第一篇公开拓表的 AI 论文,讲的是如何更好地利用 GANs,来演习 AI 图像识别能力。
这是继苹果本月初在 NIPS 大会上宣告“将对外公布 AI 研究成果”之后,为兑现诺言做出的行动。

那么,GANs 是如何从一个原来“不温不火”的技能,成为本日人工智能的紧张课题之一?

雷锋网对此进行了梳理,归纳了 GANs 从出身到现在如何一步步走向技能成熟。
以下是它发展路线中的大事宜(紧张研究进展):

1. GANs 出身

Ian Goodfellow

2014 年 6 月,Ian Goodfellow 等学者揭橥了论文《Generative Adversarial Nets》,题目即“天生对抗网络”,这标志着 GANs 的出身。
文中,Ian Goodfellow 等作者详细先容了 GANs 的事理,它的优点,以及在图像天生方面的运用。

那么,什么是 GANs?

用 Ian Goodfellow 自己的话来说:

“天生对抗网络是一种天生模型(Generative Model),其背后基本思想是从演习库里获取很多演习样本,从而学习这些演习案例天生的概率分布。

而实现的方法,是让两个网络相互竞争,‘玩一个游戏’。
个中一个叫做天生器网络( Generator Network),它不断捕捉演习库里真实图片的概率分布,将输入的随机噪声(Random Noise)转变成新的样本(也便是假数据)。
另一个叫做判别器网络(Discriminator Network),它可以同时不雅观察真实和假造的数据,判断这个数据到底是不是真的。

对不熟习 GANs 的读者,这番阐明或许有些晦涩。
因此,雷锋网特地找来 AI 博主 Adit Deshpande 的阐明,更加清楚直白:

“GANs 的基本事理是它有两个模型:一个天生器,一个判别器。
判别器的任务是判断给定图像是否看起来‘自然’,换句话说,是否像是人为(机器)天生的。
而天生器的任务是,顾名思义,天生看起来‘自然’的图像,哀求与原始数据分布尽可能同等。

GANs 的运作办法可被看作是两名玩家之间的零和游戏。
原论文的类比是,天生器就像一支造假币的团伙,试图用假币蒙混过关。
而判别器就像是警察,目标是检讨出假币。
天生器想要骗过判别器,判别器想要不上当。
当两组模型不断演习,天生器不断天生新的结果进行考试测验,它们的能力相互提高,直到天生器天生的人造样本看起来与原始样本没有差异。

更多“什么是 GANs ?”的详细讲授,请参考雷锋网整理的 Ian Goodfellow NIPS 大会 ppt 演讲,Yan Lecun 演讲,以及喷鼻香港理工大学博士生李嫣然的“GANs 最新进展”特约稿。

早期的 GANs 模型有许多问题。
Yan Lecun 指出,个中一项紧张毛病是:GANs 不稳定,有时候它永久不会开始学习,或者天生我们认为合格的输出。
这须要之后的研究一步步办理。

2. 拉普拉斯金字塔(Laplacian Pyrami)的运用

GANs 最主要的运用之一,是天生看起来‘自然’的图像,这哀求对天生器的充分演习。
以下是 Ian Goodfellow 等人的 2014 年论文中,天生器输出的样本:

可以看出,天生器在天生数字和人脸图像方面做得不错。
但是,利用 CIFAR-10 数据库天生的风景、动物图片十分模糊。
这是 GANs 早期的紧张局限之一。

2015 年 6 月 Emily Denton 等人揭橥的研究《Deep Generative Image Models using Lapalacian Pyramid of Adversarial Networks》(“深度图像天生模型:在对抗网络运用拉普拉斯金字塔”)改变了这一点。
研究职员提出,用一系列的卷积神经网络(CNN)连续天生清晰度不断提高的图像,能终极得到高分辨率图像。
该模型被称为 LAPGANs 。

个中的拉普拉斯金字塔,是指同一幅图像在不同分辨率下的一系列过滤图片。
与此前 GAN 架构的差异是:传统的 GAN 只有一个 天生器 CNN,卖力天生整幅图像;而在拉普拉斯金字塔构造中,金字塔的每一层(某特定分辨率),都有一个关联的 CNN。
每一个 CNN 都会天生比上一层 CNN 更加清晰的图像输出,然后把该输出作为下一层的输入。
这样连续对图片进行升采样,每一步图像的清晰度都有提升。

拉普拉斯金字塔构造图像天生示意

这产生了一个新观点:有条件天生对抗网络(conditional GAN,CGAN),指的是它有多个输入:低分辨率图片和噪音矢量。
该研究天生的高质量图片,在 40% 的情形下被真人裁判当做真实图像。

对该研究的意义,李嫣然评论道:它将 GAN 的学习过程变成了“序列式” 的——不要让 GAN 一次学完备部的数据,而是让 GAN 一步步完成这个学习过程。

3. 利用 GANs 把笔墨转化为图像

把笔墨转化为图像,比起把图像转为笔墨(让 AI 用笔墨概括、描述图像)要难得多。
一方面是近乎无限的像素排列办法;另一方面,目前没人知道如何把它分解,比如像(图像转为笔墨任务中)预测下一个词那样。

2016 年 6 月,论文《Generative Adversarial Text to Image Synthesis》(“GANs 笔墨到图像的合成”)问世。
它先容了如何通过 GANs 进行从笔墨到图像的转化。
比方说,若神经网络的输入是“粉色花瓣的花”,输出就会是一个包含了这些要素的图像。
该任务包含两个部分:1. 利用自然措辞处理来理解输入中的描述。
2. 天生网络输出一个准确、自然的图像,对笔墨进行表达。

为实现这些目标,天生器和判别器都利用了笔墨编码技能:通过循环笔墨编码器(recurrent text encoder)天生的笔墨属性,来作为条件对 GAN 进行演习(详情参考论文)。
这使得 GAN 能够在输入的笔墨描述和输出图像之间建立干系性联系。

事理示意

该任务中,GAN 实在完成了两件任务:1.天生自然、说得过去的图像;2.图像必须与笔墨描述有干系性。

利用 GAN, GAN-CLS, GAN-INT,GAN-INT-CLS 天生的结果示意。
GT 是真实图像,从左到右三组图像的任务分别是:1.全玄色的鸟,粗圆的鸟嘴;2.黄胸、棕冠、黑眉的小鸟;3. 蓝冠、蓝羽、黑颊的超小鸟,嘴小、踝骨小、爪小。

4. GANs 运用于超分辨率(Super Resolution)

这是推特 Cortex 研究团队进行的一项研究,在今年 9 月揭橥。
它的紧张贡献是开拓出全新的丢失函数(loss function),使得 GANs 能对大幅降采样后的图像,规复它的生动纹理和小颗粒细节。

对付不熟习超分辨率的雷锋网读者,它是一个能把低分辨率图像重修为高清图像的技能。
在机器学习中,实现超分辨率须要用成对样本对系统进行演习:一个是原始高清图像,一个是降采样后的低分辨率图像。
本研究中,低分图像被作为输入喂给天生器,它重修出高分辨率图像。
然后,重修图片和原始图片被一起交给判别器,来判断哪一幅是原始图像。

该研究中的丢失函数可分为两个部分:对抗丢失(adversarial loss )和内容丢失(content loss)。
在较高层面上,对抗丢失使图像看起来更自然;内容丢失则担保重修图像与低分辨率原始图像有相似的特点。
个中,对抗丢失和传统的 GANs 运用类似,创新的是内容丢失。
该研究中的内容丢失,可被看作为重修的高分辨率图像和原始高分图像之间特色图(feature map)的欧式间隔(Euclidean distance)丢失。
而 GAN 的丢失函数是对抗丢失和内容丢失的加权和。
对原文感兴趣的读者,请点这里。

左栏是原始图像,右三栏是 GANs 重修的高分图像。

以上是 GANs 2014-2016 发展期间的紧张里程碑。
但读者们把稳,2016 年以来,GANs 的研究运用层出不穷。
以上只是最具代表性的几个,不代表其他 GANs 研究就没有代价。

值得一说的是,今年 6 月一篇关于深度卷积 GANs (Deep Convolutional Generative Adversarial Networks, DCGAN)的论文在业内引发强烈反响:《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》(“利用深度卷积 GANs 进行无监督表征学习”)。
研究职员们创造,用大规模数据库演习出的 GANs 能学习一整套层级的特色 (a hierarchy of features),并具有比其他无监督学习模型更好的效果。
而此前利用 CNN 演习 GANs 的考试测验大多以失落败告终。
当研究职员修正架构创造出 DCGAN,他们能够看到神经网络在每一层级学习到的过滤器 。
Yan Lecun 评论道,这打开了 GANs 的“黑箱”。

末了,我们来看看在大神 Yan Lecun 眼里,GANs 为什么这么主要:

“它为创建无监督学习模型供应了强有力的算法框架,有望帮助我们为 AI 加入知识(common sense)。
我们认为,沿着这条路走下去,有不小的成功机会能开拓出更聪慧的 AI 。

via adeshpande3,facebook