单张人像生成视频中国团队提出3D人脸视频生成模型实现SOTA

编辑：好困

【新智元导读】稀疏人脸特色点天生的人脸图像视频常日会碰着图像质量丢失、图像失落真、身份改变，以及表情不匹配等问题。
为此作者利用重修出的三维人脸动态信息来辅导人脸视频的天生。
结果显示，FaceAnime从单张静止人脸图像天生的视频比其它方法效果更好。

如何用一张人脸可以天生一段有趣的视频？

当然不是指这种直接贴个人头就算了的粗糙gif

人脸视频的天生常日会利用人脸图像的稀疏特色点（landmarks）结合天生对抗网络（GAN）。

单张人像生成视频中国团队提出3D人脸视频生成模型实现SOTA

不过，这种由稀疏人脸特色点天生的人脸图像视频常日会碰着很多问题。

比如图像质量丢失、图像失落真、身份改变，以及表情不匹配等问题。

因此，为理解决这些问题，本文作者利用重修出的三维人脸动态信息来辅导人脸视频的天生。

论文地址：https://ieeexplore.ieee.org/abstract/document/9439899

arXiv版本：https://arxiv.org/pdf/2105.14678.pdf

三维人脸动态中，人的面部表情和动作更加细腻，可以作为有力的先验知识辅导天生高度逼真的人脸视频。

文中，作者设计了一套三维动态预测和人脸视频天生模型(FaceAnime)来预测单张人脸图像的3D动态序列。

通过稀疏纹理映射算法进一步渲染3D动态序列的皮肤细节，末了利用条件天生对抗网络勾引人脸视频的天生。

实验结果显示，FaceAnime能从单张静止的人脸图像天生高保真度、身份不变性的人脸视频，比其它方法效果更好。

背景和贡献

当前的人脸视频天生方法普遍采取人脸的稀疏特色点(landmarks)来勾引图片或视频的天生。

然而作者认为利用稀疏的二维特色点勾引人脸图像/视频天生有明显的不敷：

稀疏人脸特色点不能很好地表示人脸图像的几何形状，随意马虎导致人脸整体形状和面部构造细节的缺失落，进而导致合成图像的失落真和质量丢失；稀疏的二维特色点不携带源人脸图像的任何内容信息，这可能会导致天生的图像过拟合于只包含演习集的人脸图像中；在视频天生过程中应保留人脸身份信息，但稀疏的2D特色点没有身份信息，随意马虎导致合成结果的身份变革。

因此，文章针对这些方面做出了以下贡献：

不同于广泛利用2D稀疏人脸landmarks进行图像/视频的勾引天生，文章紧张探索包含人脸丰富信息的3D动态信息的人脸视频天生任务；设计了一个三维动态预测网络(3D Dynamic Prediction，3DDP)来预测时空连续的3D动态序列；提出了一个稀疏纹理映射算法来渲染预测的3D动态序列，并将其作为先验信息勾引人脸图像/视频的天生；文章利用随机和可控的两种办法进行视频的天生任务，验证提出方法的有效性。

方法描述

本文提出的FaceAnime包含一个3D动态预测网络（3D Dynamic Prediction, 3DDP）和一个先验勾引的人脸天生网络（Prior-Guided Face Generation, PGFG）。

首先，方法基于三维形变模型（3D Morphable Models, 3DMM）对单张人脸图像进行三维重修，3DDP网络随后预测该图像未来的3D动态序列，之后将动态序列进行稀疏纹理映射渲染，末了利用PGFG网络完成相应的人脸天生。

FaceAnime的整体框架图，3DDP网络部分

FaceAnime的整体框架图，PGFG网络部分

3D人脸重修和稀疏纹理映射

3D形变模型（3D Morphable Model, 3DMM）用来从2D人脸图像中预测相应的3D人脸。

个中，描述3D人脸的顶点（vertex）可由一系列2D人脸中的正交基线性加权得出：

个中，S bar是均匀脸, As是形状主身分基, as是相应的形状系数，Aexp是表情主身分基，aexp是对应的表情系数。

反过来，3D人脸顶点也可以通过变换映射到一个2维图像平面上，对应的公式可以表达为：

个中，V表示3D顶点在2维平面上的映射坐标，∏是固定的正交映射矩阵，Pr是对应的旋转矩阵，而t为偏移向量。

通过最小化映射landmarks和检测的landmarks之间的l2间隔，终极可以求得3DMM中的系数。

给定一张源人脸图像（Source Face），其3D形状可以通过改变重修的3DMM系数来进行任意的修正, 则目标人脸的稀疏纹理可以由修正后的3DMM系数得到。

在人脸重定向任务中，修正的3DMM系数可由参考人脸视频帧得到，而在人脸预测任务中，则由LSTM模块预测得到。

为了防止在纹理映命中，密集的纹理先验信息太强而导致目标动作中涌现不符合期望的结果，因此在纹理映射过程中本文采取间隔采样即稀疏纹理映射，以适应不同的人脸运动变革。

给定不同的3DMM系数所得到的不同三维人脸重修和稀疏映射的结果

不同于以往只针对某一种任务的视频天生，在本文中作者提出了三个不同的天生任务，即人脸视频重定向（Face video retargeting），视频预测（Video prediction）以及目标驱动的视频预测（Target-driven video prediction）。

对付retargeting任务，作者利用参考视频来供应序列的变革信息，而不该用3DDP来预测。

视频预测：

给定一个不雅观测到的动态序列（3DMM coefficients），LSTM对其进行编码：

为了预测出一个合理的动作，LSTM不得不首先学习大量的动作输入以识别在姿态序列中运动的种类以及随韶光的变革。

在演习过程中，未来动态序列可以由下式天生：

个中dt hat表示预测得到的3DMM系数，其表示在时候t的3D dynamic。

基于以上公式，模型可以从一个初始的dynamic d0学到一个合理的未来序列。

目标驱动的视频预测：

对付LSTM来讲，要实现目标勾引的运动天生，模型须要两个输入，即source dynamic和target dynamic。

不同于视频预测，作者利用了一个计时器来对target dynamic进行重新赋权。

整体的LSTM预测可以用公式表示为：

这里dT表示target dynamic，T为预测长度，即t=0表示序列开始韶光，t=T为序列结束。

丢失函数：

给一个source人脸图像，作者利用2DAL模型回归出相应的3DMM系数，用来表示初始的3D dynamic d0。
之后模型通过不雅观测d0来天生一个系数序列d1:T hat。

在演习过程中，作者利用3DMM coefficient loss和3D vertex loss两个丢失函数进行监督学习。

3DMM coefficient loss定义为预测3DMM 系数和ground truth 3DMM系数之间的欧式间隔：

而3D vertex loss定义为：

个中v1+t hat和v1+t分别为预测得到的系数和标准系数对应的人脸三维顶点信息。
则整体的丢失函数可以表述为：

先验勾引的人脸天生:基于提出的稀疏纹理映射，source人脸图像被用于渲染预测的3D dynamics。
在这里，稀疏纹理作为勾引人脸天生的先验信息。

文中提到的网络PGFG（Prior-Guided Face Generation Network）紧张由条件GANp网络来组成。

PGFG网络的构造：

PGFG天生器G有三个输入，分别是source人脸Is，Is对应的纹理先验ps和pt目标的纹理先验。

在这里，作者并没有直策应用目标的纹理先验pt作为先验勾引，而是利用了先验残差来勾引人脸天生，在特色空间可以得到运动残差：E(pt)-E(ps)。
由此可得终极人脸为：

为了进一步利用不同空间位置的特色信息，编码器和解码器均由Dense blocks组成。

判别器有两个输入，即目标人脸图像的纹理先验分别和天生人脸、目标人脸结合的输入[pt, It hat]，[pt, It]。

丢失函数：

网络PGFG由三个丢失函数进行监督，分别为图像像素间的丢失Limg，对抗丢失Ladv和身份信息丢失Lid。

须要把稳的是，在身份信息丢失中，R为预演习的人脸识别模型。
网络整体的丢失函数为：

结果和剖析

作者分别对人脸视频重定向、视频预测以及目标驱动的视频预测三个任务做了相应的大量实验。

人脸视频重定向：

在这个任务中，作者分别对人脸表情的重定向以及头部讲话重定向两个子任务进行了实验。

实验表明，所提出的FaceAnime模型可以很好的将source人脸图像中的表情和动作重定向到目标图像上，天生相对应的姿态和讲话表情。

FaceAnime的人脸表情重定向(a)和头部讲话重定向(b)实验结果

人脸视频预测：

这个任务中包含视频预测以及目标驱动的视频预测两个子任务。

对每一个预测任务，实验过程中作者随机选取一张从人脸图像测试集IJB-C中抽取的单张人脸图像。

对付视频测试，作者首先利用3DDP网络从source人脸中预测一个运动序列，然后用该序列勾引人脸视频的天生。

而对付目标勾引的人脸预测任务，则须要两个输入图像。
一个是source人脸，另一个为target人脸。

3DDP网络用于预测从source人脸到target人脸之间平滑的运动变革，从而勾引人脸视频的天生。

FaceAnime的视频天生结果

FaceAnime的目标驱动视频天生的结果

为了展示所提出方法的前辈性，作者还同其他类似任务的算法进行了效果比拟。

FaceAnime和其它方法的比拟结果

通过比较，FaceAnime不仅可以天生高质量且真实的人脸视频序列，同时天生的视频图像可以精确的还原参考视频中人脸表情和姿态变革，还能较好的保持人脸的身份信息。

大量实验表明，作者提出的方法可以将参考视频的姿态和表情变革重定位到source人脸上，并且对付一个随机的人脸图像，其可以天生合理的未来视频序列。

比拟其他最前辈的人脸天生方法，所提出的方法在天生高质量和身份信息保持的人脸方面具有更好的效果。

作者先容

涂晓光，2020年在中国电子科技大学得到博士学位。
2018年至2020年在新加坡国立大学学习与视觉实验室做访问学者，师从冯佳时博士。
研究兴趣包括凸优化，打算机视觉和深度学习。

邹应天，新加坡国立大学打算机学院在读博士。
2018年，他在中国武汉的华中科技大学得到打算机科学学士学位。
他的研究兴趣是打算机视觉、实用机器学习算法及其理论。

赵健，2012年得到北京航空航天算夜学学士学位，2014年得到国防科技大学硕士学位，2019年得到新加坡国立大学博士学位。
他的紧张研究兴趣包括深度学习、模式识别、打算机视觉和多媒体剖析。
曾获ACM MM 2018年最佳学生论文奖。
曾担当NSFC、T-PAMI、IJCV、NeurIPS（2018年NeurIPS最高分前30%的审稿人之一）、CVPR等的约请审稿人。

艾文杰，电子科技大学信息与通信工程学院在读硕士。
他感兴趣的研究领域紧张包括打算机视觉和深度学习，特殊是超级分辨率和去模糊。

董健，IEEE会员，在新加坡国立大学得到博士学位。
目前是Shopee公司的董事。
曾任360的高等总监和亚马逊的研究科学家。
他的研究兴趣包括机器学习和打算机视觉，并在PASCAL VOC和ILSVRC比赛中得到了良好奖。

迢遥，Pensees新加坡研究院的人工智能科学家。
2019年在新加坡国立大学得到电子和打算机工程硕士学位。
2019年在剑桥大学剑桥图像剖析组做访问学者。
他的研究兴趣包括天生式对抗网络、光流估计和人脸识别。

王智康，西安电子科技大学电子工程学院在读硕士。
2019年至2020年在新加坡国立大学学习与视觉实验室做访问学者。
他的研究兴趣包括打算机视觉、深度学习和多媒体数据处理。

李志锋，腾讯人工智能实验室的顶级首席研究员。
2006年在喷鼻香港中文大学得到博士学位。
之后在喷鼻香港中文大学和密歇根州立大学做博士后研究。
在加入腾讯人工智能实验室之前，他是中国科学院深圳前辈技能研究院的一名全职教授。
他的研究兴趣包括深度学习、打算机视觉和模式识别，以及人脸检测和识别。
目前在《神经打算》和《IEEE视频技能电路与系统》的编辑委员会任职，并且是英国打算机学会（FBCS）的研究员。

郭国栋，在美国威斯康星大学麦迪逊分校得到打算机科学博士学位。
目前是百度研究院深度学习研究所的副所长，同时也是美国西弗吉尼亚大学（WVU）打算机科学和电子工程系的副教授。
他的研究兴趣包括打算机视觉、生物统计学、机器学习和多媒体。
他在2008年得到北卡罗来纳州精良创新奖，在西弗吉尼亚大学CEMR得到精彩研究员（2017-2018），在西弗吉尼亚大学CEMR得到年度最佳新研究员（2010-2011）。

刘威，腾讯人工智能实验室打算机视觉中央的主任。
曾于2012年至2015年在美国纽约州约克敦高地的IBM T. J. Watson研究中央担当研究职员。
他致力于机器学习、打算机视觉、模式识别、信息检索、大数据等领域的研究和开拓。
目前在IEEE Transactions on Pattern Analysis and Machine Intelligence、IEEE Transactions on Neural Networks and Learning Systems、IEEE Transactions on Circuits and Systems for Video Technology、Pattern Recognition等刊物的编委会任职。
他是国际模式识别协会（IAPR）的会员和国际统计学会（ISI）的当选成员。

冯佳时，2007年在中国科技大学得到工学学士学位，2014年在新加坡国立大学得到博士学位。
2014年至2015年，他在美国加州大学担当博士后研究员。
目前是新加坡国立大学电子和打算机工程系的助理教授。
研究兴趣集中在大规模数据剖析的机器学习和打算机视觉技能。

参考资料：

https://arxiv.org/pdf/2105.14678.pdf

每期AI知识网

单张人像生成视频中国团队提出3D人脸视频生成模型实现SOTA

TC代码三种配置分析与应用

推开未来之门微软投入1150亿美元开拓AITCL电视开拓画质界线