两年前,蒙特利尔大学 Ian Goodfellow 等学者提出“天生对抗网络”(Generative Adversarial Networks,GANs)的观点,并逐渐引起 AI 业内人士的把稳。实在,直到 2015 年,天生对抗网络还称不上是炙手可热。但自今年(2016)以来,学界、业界对 GANs 的兴趣涌现“井喷”:
多篇重磅论文陆续揭橥;
Facebook、Open AI 等 AI 业界巨子也加入对 GANs 的研究;
它成为今年 12 月 NIPS 大会当之无愧的明星——在会议大纲中被提到逾 170 次;“
GANs之父” Ian Goodfellow 被公推为人工智能的顶级专家;
业内另一位大牛 Yan Lecun 也对它交口夸奖,称其为“20 年来机器学习领域最酷的想法”。
现在,雷锋网得到,就连苹果也跳上了 GANs 的彩车:苹果有史以来第一篇公开拓表的 AI 论文,讲的是如何更好地利用 GANs,来演习 AI 图像识别能力。这是继苹果本月初在 NIPS 大会上宣告“将对外公布 AI 研究成果”之后,为兑现诺言做出的行动。
那么,GANs 是如何从一个原来“不温不火”的技能,成为本日人工智能的紧张课题之一?
雷锋网对此进行了梳理,归纳了 GANs 从出身到现在如何一步步走向技能成熟。以下是它发展路线中的大事宜(紧张研究进展):
1. GANs 出身
Ian Goodfellow
2014 年 6 月,Ian Goodfellow 等学者揭橥了论文《Generative Adversarial Nets》,题目即“天生对抗网络”,这标志着 GANs 的出身。文中,Ian Goodfellow 等作者详细先容了 GANs 的事理,它的优点,以及在图像天生方面的运用。
那么,什么是 GANs?
用 Ian Goodfellow 自己的话来说:
“天生对抗网络是一种天生模型(Generative Model),其背后基本思想是从演习库里获取很多演习样本,从而学习这些演习案例天生的概率分布。
而实现的方法,是让两个网络相互竞争,‘玩一个游戏’。个中一个叫做天生器网络( Generator Network),它不断捕捉演习库里真实图片的概率分布,将输入的随机噪声(Random Noise)转变成新的样本(也便是假数据)。另一个叫做判别器网络(Discriminator Network),它可以同时不雅观察真实和假造的数据,判断这个数据到底是不是真的。”
对不熟习 GANs 的读者,这番阐明或许有些晦涩。因此,雷锋网特地找来 AI 博主 Adit Deshpande 的阐明,更加清楚直白:
“GANs 的基本事理是它有两个模型:一个天生器,一个判别器。判别器的任务是判断给定图像是否看起来‘自然’,换句话说,是否像是人为(机器)天生的。而天生器的任务是,顾名思义,天生看起来‘自然’的图像,哀求与原始数据分布尽可能同等。
GANs 的运作办法可被看作是两名玩家之间的零和游戏。原论文的类比是,天生器就像一支造假币的团伙,试图用假币蒙混过关。而判别器就像是警察,目标是检讨出假币。天生器想要骗过判别器,判别器想要不上当。当两组模型不断演习,天生器不断天生新的结果进行考试测验,它们的能力相互提高,直到天生器天生的人造样本看起来与原始样本没有差异。”
更多“什么是 GANs ?”的详细讲授,请参考雷锋网整理的 Ian Goodfellow NIPS 大会 ppt 演讲,Yan Lecun 演讲,以及喷鼻香港理工大学博士生李嫣然的“GANs 最新进展”特约稿。
早期的 GANs 模型有许多问题。Yan Lecun 指出,个中一项紧张毛病是:GANs 不稳定,有时候它永久不会开始学习,或者天生我们认为合格的输出。这须要之后的研究一步步办理。
2. 拉普拉斯金字塔(Laplacian Pyrami)的运用
GANs 最主要的运用之一,是天生看起来‘自然’的图像,这哀求对天生器的充分演习。以下是 Ian Goodfellow 等人的 2014 年论文中,天生器输出的样本:
可以看出,天生器在天生数字和人脸图像方面做得不错。但是,利用 CIFAR-10 数据库天生的风景、动物图片十分模糊。这是 GANs 早期的紧张局限之一。
2015 年 6 月 Emily Denton 等人揭橥的研究《Deep Generative Image Models using Lapalacian Pyramid of Adversarial Networks》(“深度图像天生模型:在对抗网络运用拉普拉斯金字塔”)改变了这一点。研究职员提出,用一系列的卷积神经网络(CNN)连续天生清晰度不断提高的图像,能终极得到高分辨率图像。该模型被称为 LAPGANs 。
个中的拉普拉斯金字塔,是指同一幅图像在不同分辨率下的一系列过滤图片。与此前 GAN 架构的差异是:传统的 GAN 只有一个 天生器 CNN,卖力天生整幅图像;而在拉普拉斯金字塔构造中,金字塔的每一层(某特定分辨率),都有一个关联的 CNN。每一个 CNN 都会天生比上一层 CNN 更加清晰的图像输出,然后把该输出作为下一层的输入。这样连续对图片进行升采样,每一步图像的清晰度都有提升。
拉普拉斯金字塔构造图像天生示意
这产生了一个新观点:有条件天生对抗网络(conditional GAN,CGAN),指的是它有多个输入:低分辨率图片和噪音矢量。该研究天生的高质量图片,在 40% 的情形下被真人裁判当做真实图像。
对该研究的意义,李嫣然评论道:它将 GAN 的学习过程变成了“序列式” 的——不要让 GAN 一次学完备部的数据,而是让 GAN 一步步完成这个学习过程。
3. 利用 GANs 把笔墨转化为图像
把笔墨转化为图像,比起把图像转为笔墨(让 AI 用笔墨概括、描述图像)要难得多。一方面是近乎无限的像素排列办法;另一方面,目前没人知道如何把它分解,比如像(图像转为笔墨任务中)预测下一个词那样。
2016 年 6 月,论文《Generative Adversarial Text to Image Synthesis》(“GANs 笔墨到图像的合成”)问世。它先容了如何通过 GANs 进行从笔墨到图像的转化。比方说,若神经网络的输入是“粉色花瓣的花”,输出就会是一个包含了这些要素的图像。该任务包含两个部分:1. 利用自然措辞处理来理解输入中的描述。2. 天生网络输出一个准确、自然的图像,对笔墨进行表达。
为实现这些目标,天生器和判别器都利用了笔墨编码技能:通过循环笔墨编码器(recurrent text encoder)天生的笔墨属性,来作为条件对 GAN 进行演习(详情参考论文)。这使得 GAN 能够在输入的笔墨描述和输出图像之间建立干系性联系。
事理示意
该任务中,GAN 实在完成了两件任务:1.天生自然、说得过去的图像;2.图像必须与笔墨描述有干系性。
利用 GAN, GAN-CLS, GAN-INT,GAN-INT-CLS 天生的结果示意。GT 是真实图像,从左到右三组图像的任务分别是:1.全玄色的鸟,粗圆的鸟嘴;2.黄胸、棕冠、黑眉的小鸟;3. 蓝冠、蓝羽、黑颊的超小鸟,嘴小、踝骨小、爪小。
4. GANs 运用于超分辨率(Super Resolution)
这是推特 Cortex 研究团队进行的一项研究,在今年 9 月揭橥。它的紧张贡献是开拓出全新的丢失函数(loss function),使得 GANs 能对大幅降采样后的图像,规复它的生动纹理和小颗粒细节。
对付不熟习超分辨率的雷锋网读者,它是一个能把低分辨率图像重修为高清图像的技能。在机器学习中,实现超分辨率须要用成对样本对系统进行演习:一个是原始高清图像,一个是降采样后的低分辨率图像。本研究中,低分图像被作为输入喂给天生器,它重修出高分辨率图像。然后,重修图片和原始图片被一起交给判别器,来判断哪一幅是原始图像。
该研究中的丢失函数可分为两个部分:对抗丢失(adversarial loss )和内容丢失(content loss)。在较高层面上,对抗丢失使图像看起来更自然;内容丢失则担保重修图像与低分辨率原始图像有相似的特点。个中,对抗丢失和传统的 GANs 运用类似,创新的是内容丢失。该研究中的内容丢失,可被看作为重修的高分辨率图像和原始高分图像之间特色图(feature map)的欧式间隔(Euclidean distance)丢失。而 GAN 的丢失函数是对抗丢失和内容丢失的加权和。对原文感兴趣的读者,请点这里。
左栏是原始图像,右三栏是 GANs 重修的高分图像。
以上是 GANs 2014-2016 发展期间的紧张里程碑。但读者们把稳,2016 年以来,GANs 的研究运用层出不穷。以上只是最具代表性的几个,不代表其他 GANs 研究就没有代价。
值得一说的是,今年 6 月一篇关于深度卷积 GANs (Deep Convolutional Generative Adversarial Networks, DCGAN)的论文在业内引发强烈反响:《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》(“利用深度卷积 GANs 进行无监督表征学习”)。研究职员们创造,用大规模数据库演习出的 GANs 能学习一整套层级的特色 (a hierarchy of features),并具有比其他无监督学习模型更好的效果。而此前利用 CNN 演习 GANs 的考试测验大多以失落败告终。当研究职员修正架构创造出 DCGAN,他们能够看到神经网络在每一层级学习到的过滤器 。Yan Lecun 评论道,这打开了 GANs 的“黑箱”。
末了,我们来看看在大神 Yan Lecun 眼里,GANs 为什么这么主要:
“它为创建无监督学习模型供应了强有力的算法框架,有望帮助我们为 AI 加入知识(common sense)。我们认为,沿着这条路走下去,有不小的成功机会能开拓出更聪慧的 AI 。”
via adeshpande3,facebook