【新智元导读】浙江大学和网易伏羲AI实验室的研究职员开拓出一个端到真个机器学习系统Audio2Face,可以从音频中单独天生实时面部动画,同时考虑到音高和说话风格。
我们都知道动画里的人物说话声音都是由后期配音演员合成的。
但纵然利用CrazyTalk这样的软件,也很难将电脑天生的嘴唇、嘴型等与配音演员进行很好地匹配,尤其是当对话时长在数十乃至数百小时的情形下。
但不要气馁,动画师的福音来了——Audio2Face问世!
Audio2Face是一款端到真个机器学习系统,由浙江大学与网易伏羲AI实验室共同打造。
它可以从音频中单独天生实时的面部动画,更厉害的是,它还能调节腔调和说话风格。该成果已经发布至arXiv:
arXiv地址:
https://arxiv.org/pdf/1905.11142.pdf
团队试图构建一个别系,既要逼真又要低延迟“我们的方法完备是基于音轨设计的,没有任何其他赞助输入(例如图像),这就使得当我们试图从声音序列中回归视觉空间的过程将会越来越具有寻衅。”论文共同作者阐明道,“另一个寻衅是面部活动涉及脸部几何表面上干系区域的多重激活,这使得很难产生逼真且同等的面部变形。”
该团队试图构建一个同时知足“逼真”(天生的动画必须反响可见语音运动中的说话模式)和低延迟(系统必须能够进行近乎实时的动画)哀求的系统。他们还考试测验将其推广,以便可以将天生的动画重新定位到其他3D角色。
他们的方法包括从原始输入音频中提取手工制作的高等声学特色,特殊是梅尔频率倒谱系数(MFC),或声音的短期功率谱的表示。然后深度相机与mocap工具Faceshift一起,捕捉配音演员的面部动作并体例演习集。
深度相机示意图
之后研究职员构建了带有51个参数的3D卡通人脸模型,掌握了脸部的不同部位(例如,眉毛,眼睛,嘴唇和下巴)。末了,他们利用上述AI系统将音频高下文映射到参数,产生唇部和面部动作。
1470个音频样本加持,机器学习模型的输出“相称可以”通过一个演习语料库,个中包含两个60分钟、每秒30帧的女性和男性演员逐行阅读剧本中台词的视频,以及每个相应视频帧的1470个音频样本(每帧统共2496个维度)。
团队报告说,与ground truth比较,机器学习模型的输出“相称可以”。它设法在测试音频上重现准确的面部形状,并且它一贯“很好地”重新定位到不同的角色。此外,AI系统均匀只需0.68毫秒即可从给定的音频窗口中提取特色。
该团队指出,AI无法跟随演员的眨眼模式,紧张是由于眨眼与言语的干系性非常弱。不过从广义上讲,该框架可能为适应性强、可扩展的音频到面部动画技能奠定根本,这些技能险些适用于所有说话人和措辞。
“评估结果显示,我们的方法不仅可以从音频中产生准确的唇部运动,还可以成功地肃清说话人随韶光变革的面部动作,”他们写道。
参考链接:
https://venturebeat.com/2019/05/28/researchers-detail-ai-that-generates-character-animations-from-recorded-speech/