SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis
论文链接:
https://arxiv.org/abs/2311.17590
项目主页:
https://ziqiaopeng.github.io/synctalk
代码链接:https://github.com/ZiqiaoPeng/SyncTalk
图1 SyncTalk通过利用5分钟的演习视频即可输出高真实感的说话人视频
一、 动机
合成由语音驱动的高真实感的说话人物视频面临着许多寻衅。传统的基于GAN的方法难以保持同等的面部 身份,而基于NeRF方法虽然能够办理这个问题,但常日会产生不匹配的唇部动作、不具表现力的面部表情和不稳定的头部姿势。一个逼真的说话人物须要同步 骤和人物身份、唇部动作、面部表情和头部姿势。缺少这些同步效果是一个根本性毛病,导致天生的效果不真实。 为理解决同步这一关键问题,作者引入了SyncTalk。这种基于NeRF的方法有效地保持了人物身份,增强了说话人物合成中的同步性和真实感。SyncTalk采取面部同步掌握器(Face-Sync Controller)来使唇部动作与语音对齐,并创新性地利用3D面部稠浊形状模型来捕捉准确的面部表情。利用头部同步稳定器(Head-Sync Stabilizer)优化头部姿势,实现更自然的头部动作。利用动态肖像渲染(Dynamic Portrait Renderer)来天生高质量图像并规复头发细节,供应更好的视觉体验。
二、方法在本节中,将先容作者提出的SyncTalk的三个关键模块,如图2所示,分别是:1)利用Face-Sync Controller掌握嘴唇动作和面部表情,2)利用Head-Sync Stabilizer供应稳定的头部姿势,以及利用Dynamic Portrait Renderer渲染高同步面部视频,以下将进行详细先容。 图2 SyncTalk概述:给定一个剪裁后的说话人参考视频和相应的语音,SyncTalk可以通过两个同步模块(a)和(b)提取唇部特色 fi、表情特色fe和头部姿态(R,T)。然后利用三平面哈希表示建模头部,输出一个语音驱动视频。人像同步天生器进一步规复了头发和背景等细节,最终生成高分辨率的说话人视频。 现有的基于NeRF的方法紧张利用Deepspeech、Wav2Vec 2.0或HuBERT等方法提取音频特色,但是这些专为自动语音识别(ASR)任务设计的音频编码器并不能准确反响嘴唇运动。这是由于预演习模型基于从音频到文本的特色分布,而该任务须要从音频到嘴唇运动的特色分布。作者选择利用在2D视听同步数据集LRS2上进行预演习的视听同步音频编码器。这确保了通过该方法提取的音频特色和嘴唇运动具有相同的特色分布,从而供应更精准的唇部运动。 Facial Animation Capturer 先前基于NeRF的方法只能掌握眨眼,不能准确地掌握面部表情。如果用于演习的角色有大幅度的面部动作,如眯眼、扬眉或皱眉,会导致面部表情僵硬和面部细节禁绝确等问题。考虑到对更加同步和逼真的面部表情的需求,本文增加了一个表情同步掌握模块。详细来说,通过利用 B 表示的52个面部稠浊形状系数,引入3D面部先验来对面部进行建模,如图3所示。由于3D人脸模型可以保留人脸运动的构造信息,因此可以很好地反响面部的运动,而不会造成人脸构造失落真。在演习过程中,首先利用来自EmoTalk的面部稠浊形状捕获模块将面部表情捕获为E(B) ,并选择七个核心面部表情掌握系数来掌握眉毛、额头和眼睛区域。它们与表情高度干系,与嘴唇运动无关。 为了获取头部姿态,本文首先利用头部运动跟踪器来将3D可变形模型(3DMM)中的投影Landmark与视频帧中的实际Landmark之间的偏差降到最低,从而得到较为稳定的头部旋转
和平移
。考虑到基于NeRF的方法对付头部运动的稳定性哀求较高,如果运动参数不准确会涌现较为明显的头部忽大忽小的情形。之前的方法仅利用稀疏的面部关键点来得到不稳定的头部姿态。 本文通过引入稠密点面部运动的追踪算法,并利用SLAM中的Bundle Adjustment来提高关键点和头部姿态估计的准确性,并引入了一个两阶段的优化框架。在第一阶段,随机初始化
个关键点的3D坐标,并优化它们的位置,使其与图像平面上跟踪的关键点对齐。此过程涉及最小化丢失函数
,该函数捕获投影关键点
和跟踪关键点
之间的差异,如下所示: 在第二阶段,进行更全面的优化,以细化3D关键点和干系的头部联合姿态参数。通过Adam优化器调度了空间坐标、旋转角度
和平移
,使偏差
最小化,表示为: 终极得到准确且稳定的头部姿态。
2.3 Dynamic Portrait Renderer
Tri-Plane Hash Representation先前的方法如RAD-NeRF利用Instant-NGP实现了说话人的快速推理,但在音频驱动的3D动态头部建模中,哈希冲突影响了渲染质量和收敛性。为办理此问题,本文参考ER-NeRF利用三平面哈希表示,通过NeRF的三平面分解将3D空间分解为三个正交平面。在因子分解过程中,所有空间区域都被压缩到2D平面上,并修剪相应的特色网格,从而减少低维子空间中的散列冲突。在较少噪声的情形下,网络可以更专注于音频特色的处理,因此能够更准确地重修头部构造和更风雅地捕捉动态运动。在建模过程中,对付给定的坐标
,通过三个2D哈希编码器对其投影坐标进行编码:
个中输出
,
表示层级数,
表示每个条款标特色维度,表示与投影坐标
相对应的平面几何特色,
表示平面
的多分辨率哈希编码器。通过合并结果,得到终极的几何特色
:
个中特色的串联由
表示,结果为一个
通道的向量。利用
、不雅观察方向
、嘴唇特色
和表情特色
,三平面哈希的隐式函数定义为:
在演习过程中,为理解决NeRF在捕捉头发细节和动态背景等细节方面的局限性,作者引入了一个具有两个关键部分的人像同步天生器。首先,NeRF渲染面部区域 (
),通过高斯模糊创建
作为面部的遮罩,然后利用同步的头部姿态,能够将面部渲染结果与原始图像 (
) 贴合以增强头发细节的保真度。 其次,当头部和躯干结合在一起时,如果源视频中的角色说话而天生的面部保持沉默,可能会涌现下巴上的伪影,我们利用均匀颈部颜色 (
) 来添补这些区域,从而实现了更加逼真的细节和改进的视觉质量。 首先作者比较了在自驱动情形下不同方法的结果,SyncTalk在图像质量上均优于其他方法,在同步性方面结果超过了大部分的方法。 表1 自驱动头部重修的定量结果
SyncTalk具有两种输出模式,分别是利用人像同步天生器,和不该用人像同步天生器。通过利用人像同步天生器后,头发细节得到规复,图像质量也得到提高。由于唇部、表情和姿势的同步,在图像质量方面也优于基于NeRF的方法,特殊是在LPIPS度量方面。其次比较了利用异源音频驱动的效果(利用其他人说话的音频驱动当古人物)。
表2 嘴唇同步的定量结果
本文引入唇形同步偏差间隔(LSE-D)和置信度(LSE-C)用于唇形音频同步评估。SyncTalk展示了最前辈的唇形同步效果,通过结合预演习的视听编码器进行唇形建模,战胜了小样本NeRF的局限性。
为了更直不雅观地评估图像质量,不才图中展示了SyncTalk与其他方法之间的比较。从这张图中可以看出,SyncTalk展示了更高质量、更准确的面部细节。
为了对所提出的模型进行更全面的评估,作者设计了一个用户研究问卷,并哀求参与者从五个角度对天生的视频进行评分:口型同步准确性、表情同步准确性、姿势同步准确性、图像质量、视频真实度。用户研究的结果见下表。SyncTalk在所有评估中都超越了以前的方法。此外,SyncTalk在视频真实性方面取得了最高分,比第二名的IP-LAP赶过20%。可以看出该方法可以产生人类感知的视觉质量,从而实现高真实感。
本文详细先容了一种高度同步的基于NeRF的逼真语音驱动说话人合成方法 - SyncTalk。该框架包括面部同步掌握器、头部同步稳定器和人像同步天生器,它们可以保持人物身份并天生同步的嘴唇运动、面部表情和稳定的头部姿势。通过广泛的评估,与现有方法比较,SyncTalk 在创建逼真和同步的说话人视频方面表现出卓越的性能。随着说话人任务的快速发展,在不久后大家都可以拥有属于自己的虚拟人物。Illustration From IconScout By 22
-The End-
“AI技能流”原创投稿操持
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技能干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上互换活动,不定期举办技能人线下聚会互换活动。我们正在努力成为AI人才喜好的高质量、知识型互换平台,希望为AI人才打造更专业的做事和体验,加速并陪伴其发展。
投稿内容
// 最新技能解读/系统性知识分享 //
// 前沿资讯讲授/心得经历讲述 //
投稿须知
稿件须要为原创文章,并标明作者信息。
我们会选择部分在深度技能解析及科研心得方向,对用户启示更大的文章,做原创性内容褒奖
投稿办法
发送邮件到
chenhongyuan@thejiangmen.com
或添加事情职员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众年夜众号,后台回答“投稿”二字,得到投稿解释。
将门是一家以专注于数智核心科技领域的新型创投契构,也是北京市标杆型孵化器。公司致力于通过连接技能与商业,发掘和造就具有环球影响力的科技创新企业,推动企业创新发展与家当升级。 将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技能型创业公司。 如果您是技能领域的初创企业,不仅想得到投资,还希望得到一系列持续性、有代价的投后做事,欢迎发送或者推举项目给我“门”: