以假乱真的AI换脸技能真的毫无破绽吗

制作：之遥科普

监制：中国科学院打算机网络信息中央

从在围棋界战无不胜的“阿尔法狗”，到铺天盖地的“人脸识别”，机器学习给人们的生活带来了翻天覆地的改变。
但随着AI技能的不断发展，以“智能换脸”为紧张展现结果的Deepfake技能，却给大家的生活带来了更多困扰。

2018年，加蓬总统Ali Bongo因中风在公共视野中消逝了数月。
政府为了安抚民心，在新年时公开了一段总统录制的新年致辞。
这段新年致辞利用了Deepfake技能进行天生，但这个视频非但没有起到安抚民心的浸染，反而让军方的资深大佬创造非常，终极导致了兵变。
在这个事宜中，“AI换脸”技能成为滋扰政治选举，降落政府公信力的一大推手。

以假乱真的AI换脸技能真的毫无破绽吗

在很多人的印象中，Deepfake技能除了能让有需求的人看到AI换脸的色情小视频外，彷佛都走在社会的阴影里。

图1 deepfake图片（图片来源：http://zkres1.myzaker.com/）

对普通人而言，Deepfake技能可谓因此假乱真，毫无马脚。
那面对网上流传的真假不一的视频，我们真的无法分辨吗？

不用担心，正所谓“魔高一尺，道高一丈”。
在专业人士手中，通过细致的打算机剖析，可以辨别出照片、视频的真假，让Deepfake技能处理过的内容“现出原形”。

Deepfake技能的事理便是学习学习再学习

要理解Deepfake技能如何被看破，首先就要理解什么是Deepfake技能。
Deepfake是利用深度机器学习（deep machine learning）和假照片（fake photo）组合而成的一个词，可以理解为机器进行深度学习而制造的假照片、假视频等虚假产物。
个中最常见的运用便是“AI换脸”，也便是将一个人的脸部移植到另一个人脸上。

在进行换脸时，机器首先须要识别出人脸的位置。
人脸的识别与校准在自动驾驶等领域也有着广泛的运用，目前的发展已经非常成熟，识别率在98%以上。

换脸用的素材，与待换脸的视频中的人脸，他们的面部朝向、面部表情每每不同。
因此，识别出人脸位置之后，机器要进一步对人脸进行校准。
通过探求面部具有光鲜特色的区域，机器可以确定每一帧中人脸的朝向、表情，进而将待换脸视频中须要插入的人脸与素材匹配起来。

匹配完成之后，换脸技能也不是大略地就把换脸素材贴在了待换脸的人脸上。
大略地贴图，可以轻松地被肉眼识别，难以达到“以假乱真”的效果。
Deepfake技能进一步地学习事理可以用人的行为来类比。

如果你盯A脸看上100小时，接着去看B脸的照片；接下来让你凭影象画出B的脸，那不管你的技能水平多高，终极都会画的跟A脸很像。
以是，当我们演习机器，让机器学习用A脸的元素画出B脸时，就可以将A脸逼真地“画到”B脸上。

图2 看B画A（图片来源：原创）

逼真的Deepfake技能也有小马脚

机器学习出的换脸视频、照片那么逼真，那Deepfake技能的马脚何在呢？

中国有句古话叫做“若想人不知，除非己莫为”。
换脸技能的马脚，就出在人脸素材的细节上。
Deepfake技能利用A脸的元向来画出B脸，这一过程是对A脸元素的风雅拼接。
而这一拼接的过程，势必不能完美地符合真实情形。

纽约州布法罗-布法罗大学的打算机科学家，就从“眼睛”——这一人脸上最精细的元素入手，实现了对Deepfake技能的甄别。

这一技能的核心事理基于眼球的反射。
当外界环境的光照射到眼睛上时，就会产生反射，在角膜上天生图像。
在真正的照片中，两只眼睛看同一物体，会具有非常相似的反射模式。
但在Deepfake合成的照片中，两只眼睛的反射内容每每并不折衷。
很可能涌现左眼“瞥见”一只小狗，右眼“瞥见”一辆卡车的情形。
检测机器首先提取两只眼睛反射的内容，然后检测旁边眼的反射内容、反射光强度等参数是否折衷统一，就可以识别出照片、视频是否经由了合成。
这一方法已被证明具有94%的实验有效性。

除此之外，常见的检测方法还包括：

（1）根据视频的2D图像估计三维姿势。
利用Deepfake技能合成的视频，三维姿势可能会溘然发生较大的突变。
比如视频中的人，如果在上一帧胸口还是鼓起正在吸气的状态，下一帧就迅速变成胸口下沉吐气的状态，那就解释这个视频铁定是合成出来的。

（2）捕捉Deepfake技能在处理视频时对图像进行扭曲而在环境中产生的“伪影”。

（3）捕捉旁边虹膜异色、光照与阴影不折衷、几何建模缺点等瑕疵。

（4）针对名人的行为习气，检测视频中是否有对应的特有行为特点（例如摸鼻子、歪嘴等）。

图3 deepfake视频中的虹膜异色（图片来源：知乎）

Deepfake检测中的“猫鼠游戏”

在不断发展的过程中，Deepfake的检测技能仍旧会面对不少寻衅。

第一点是有的技能本身须要一定的信息量。
例如前述的眼球反射检测技能，如果视频里没有同时存在两只眼睛，就无法运用。
针对虹膜颜色的检测，在视频画质较低时利用起来也较为困难。

第二点是，检测技能和换脸技能是一个“不断发展，彼此竞争”的过程。
例如前述的捕捉光照与阴影不折衷的问题，换脸者可以在换脸时利用更多的资源进行光照仿照、渲染，从而担保阴影的天生质量。
从这个角度讲，检测和换脸技能就像一场“猫鼠游戏”，二者不断迭代，你追我赶。
本日检测技能提出了用眼球的反射光进行检测，来日诰日换脸技能就可以把眼球的反射光仿照也放在学习内容之中。
检测技能必须不断更新，才能跟上Deepfake技能发展的步伐。

第三点是，检测技能距自动化还有一定间隔。
现有的检测技能耗费的韶光都比较长，难以做到在用户上传视频的同时，短韶光内自动完成检测和审核。
距实用的自动Deepfake检测软件，还有一段路要走。

第四点是，目前针对Deepfake技能还没有完善的法规。
各个视频平台对付什么样的Deepfake视频是恶意的、违规的，有着自己的界定规则。
同时，目前也没有关于Deepfake技能的干系法律。
这就给针对Deepfake视频的检测、管控事情带来了很多困难。

虽然Deepfake检测技能仍有诸多寻衅，但是我们要相信，随着AI技能的不断发展，干系法规会逐渐完善，针对Deepfake的检测技能也会变得越来越准确、高效。
终有一天，虚假的视频会在检测技能的“火眼金睛”下统统现出原形。
钻技能的漏洞，滥用Deepfake技能，迟早会受随处分。

参考文献

( Hu S , Li Y , Lyu S . Exposing GAN-generated Faces Using Inconsistent Corneal Specular Highlights[J]. 2020.）

每期AI知识网

以假乱真的AI换脸技能真的毫无破绽吗

AI视频对象又上新了120秒生成高清视频在线可玩

AI若何走向硬件化CES 2024给出了谜底