https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/91488236
编译 | 逐一、馨怡
出品 | AI科技大本营(ID:rgznai100)
导语:众所周知,利用 Deepfake 技能可以自动天生虚假图像,轻松达到以假乱真的结果。但这还不足,随着该技能的不断升级,它还有更多意想不到的运用正在被挖掘。现在,一个能更加方便快捷创建虚假视频和缺点信息的方法涌现了。
在最新的深度技能打破中,研究职员展示了一种新方法,该方法利用机器学习技能让用户编辑视频文本内容,来添加、删除或变动视频人物中的话语。
也便是说,如果你想对一段人物特写视频进行重新编辑,只须要对视频所对应的文本内容进行修正,随后人脸会根据修正的文本内容作出与之相配的动作表达。
研究职员在一段视频讲解中给出了一些例子,比如将电影《当代启迪录》中的一段人物特写镜头中的台词“我喜好清晨的汽油弹的气味”变动为“我喜好清晨的法国土司的味道。”随着台词的变革,系统自动会重新合成人物的脸部发声动作,给出编辑后的视频。
这项研究由斯坦福大学、马克斯普朗克信息学研究所、普林斯顿大学和 Adobe 研究所的科学家共同互助完成,它表明人们能够更轻松地编辑视频人物所说的内容并制作逼真的虚假视频。
研究职员认为,他们的方法完备朝着基于文本编辑和合成一样平常视听内容的目标迈出了主要一步。
不过,该方法目前正处于研究阶段,普通用户还不能利用,但市情上已经有类似的软件。Adobe 就发布了一个叫 VoCo 原型软件,该方法许可用户像编辑图片一样轻松编辑语音内容。
但该系统给出的结果要更加风雅。根据论文《基于文本的头部特写视频编辑》(https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf)先容,该系统的输入包括讲话的头部特写视频、讲话的文本和指定的编辑操作,他们的工具支持三种类型的编辑操作:
增加新单词:编辑器在视频中的某一点添加一个或多个连续的单词。重新排列现有的单词:编辑移动一个或多个存在于视频中的单词。删除现有单词:编辑从视频中删除一个或多个单词。为了做出虚假视频,研究者们紧张分为五个阶段来处理视频。在音位排列阶段,他们将转录文本与视频进行比对,然后在跟踪重修阶段,用视频天生了一个三维参数头部模型。每个输入视频完成这样的预处理步骤,然后实行视位搜索(viseme search),在编辑器中找到音素的子序列和输入视频中音素的子序列之间的最佳视觉匹配。研究者们还提取了编辑位置周围的区域作为背景序列,从中提取背景像素和姿态数据。对付每个子序列他们稠浊三维头部模型的参数,然后加上背景像素,终极呈现一个真实的全画幅视频(full-frame video)。
(注:视觉音素 / 视素(visual phoneme/viseme)是嘴唇和面部的姿势或表达,其对应于特定的语音(音素),是具备可理解度的基本视觉单元。在打算机动画中,我们可以利用视觉音向来制作虚拟角色的动作,令它们看起来像是在说话。)
当有人编辑视频的文本内容时,系统会将所有这些网络的数据(音素、视位和 3D 脸部模型)组合在一起,以构建与文本输入相匹配的新素材,然后将其粘贴到源视频上以创建终极的结果。
研究职员还将他们的方法与其他对讲视频合成技能进行了比较。他们分别用 5% 、10%、50% 和 100% 的演习数据来测试结果。利用 100% 的数据量,每幅图像的均匀 RMSE(标准偏差) 为 0.018,利用 50% 的数据量为 0.019,只利用 5%的数据量为 0.021 。
他们还用各种合成短语进行测试,创造短语长度与结果质量没有直接关系。而组成短语的视位和音素对齐质量等其他成分会影响终极结果。
他们还考试测验将 MorphCut 运用于单词的加法问题。MorphCut 在两帧图像之间产生一个大的头部跳跃。
将检索到的viseme序列与MorphCut拼起来天生一个新单词
同时,他们与 Face2Face[Thiesetal.2016]方法进行了比较,他们的方法天生了高质量结果,而基于检索的 Face2Face 方法显示出鬼影征象,并且不稳定。
与 Face2Face 进行比较
为了定量评估基于文本的编辑系统天生的视频质量,研究职员发起了一项基于 web 的用户测试研究,参与者有 138 名。
在向 138 名志愿者进行虚假视频的测试时,大约 60% 的参与者认为编辑过的视频是真实的,虽然这个数据听起来不怎么好,但另一数据显示,同一组内只有 80% 的参与者认为原始未经编辑的镜头才是合理的。(研究职员指出,这可能是由于一些人在测试前被奉告他们的答案会用于视频编辑研究,这意味着受试者已经准备好要找到虚假视频。)
以上评估表明,他们的方法展示了令人信服的结果,但该研究也存在一定的局限性,还有进一步优化的空间。
例如,新的合成方法须要重新计时(re-timed)的背景视频作为输入,但重新计时会改变动作的速率,因此眨眼和手势可能不再与讲话动作完备同等,为了减少这种影响,他们利用了比实际编辑更长的重新计时区间以修正更多原始视频片段。
这里的算法只能用于对特写风格的视频施加影响,并且这须要 40 分钟的输入数据。编辑过的语音彷佛与源材料的差别不大,并且在最优质的虚假视频中,研究职员哀求拍摄工具录制新的音频以匹配这种变革,然后用 AI 天生视频。
研究职员还指出,他们还不能改变人物说话声音的感情或语调,由于这样做会产生“不可思议的结果”,例如,如果人物在说话时挥手对脸部进行遮挡会让算法完备失落效。
在未来,研究职员指出,端到端学习可以用来学习一种从文本到视听内容的直接映射。
这些局限性始终存在于早期研究中,不过研究职员可以担保它们能够及时得到战胜,这意味着任何人都可以在没有技能培训的情形下利用系统来编辑人们在视频中所说的内容。
这项技能的潜在危害非常令人担忧,该领域的研究职员常常因未能考虑可能滥用其研究而受到批评。但参与这一特定项目的科学家表示,他们已经考虑过这些问题。
在这篇论文附带的博客文章中,他们写道:“虽然图像和视频处理的方法与媒介本身一样久远,但当其运用于思想和意图等威信证据的互换办法时,滥用的风险会更高。“他们也承认,不法分子可能会利用此类技能假造个人陈述并用于诋毁有名人士。
为了防止人们稠浊原始视频和虚假视频,他们给出的办理方案是人工智能编辑的视频该当通过利用水印或通过高下文直接清楚地呈现(例如不雅观众理解他们正在不雅观看的是虚构电影)。
但显然,The Verge 指出,水印很随意马虎被肃清,而且网络媒体在传播会去掉高下文场景描述,虚假事物并不须要完美无瑕。很多虚假的新闻文章很随意马虎被揭破,但这并不能阻挡它们的传播,尤其是对付那些想要相信这种符合他们先入之见的谎话的社区。
当然,这样的技能也有许多有益的用场,比如对电影和电视行业有很大的帮助,可以让他们在不重新录制镜头的情形下修复读错的台词,并帮助不同措辞的演员进行无缝配音。不过,与潜在的滥用等威胁比较,这些益处彷佛并不敷以使人们信赖这项技能,反而,它在技能上的打破更大,人们会更加感到不安。