史上最快3D数字人生成器半小时完成演习衬着仅需16毫秒

量子位 | 公众号 QbitAI

之前要两天才能演习好的数字人，现在只用半小时就能完成了！

到了推理阶段，更是只要16毫秒，就能得到动作流畅、细节到位的场景视频。

而且无需繁芜的采样和建模，只要随便拍一段50-100帧的视频就足够了，换算成韶光不过几秒钟。

史上最快3D数字人生成器半小时完成演习衬着仅需16毫秒

这正是由苹果联合德国马普所推出的，基于高斯函数的3D数字人合成工具HUGS。

它可以从一段大略的视频当中提取出人物骨骼，从而合成数字分身并驱动它做出任意动作。

这个数字人可以丝滑地领悟到其他场景，乃至帧率还能超越原始素材，达到60FPS。

Hugging Face的“首席羊驼官”Omar Sanseviero看到后，也给HUGS送上了hug。

那么，HUGS可以实现若何的效果呢？

100倍速天生60FPS视频

从下面这张动图可以看出，新天生的数字人可以在不同于演习素材的场景中做出不同的动作。

而新合成的画面也比原始素材更加流畅——只管原素材只有24FPS，但HUGS合成的视频帧率达到了60FPS。

同时，HUGS也支持把多个人物领悟进同一个场景。

细节刻画上，HUGS也比Neuman和Vid2Avatar这两个前SOTA更清晰细腻，也更加真实。

如果放到规范空间中，Neuman和HUGS的细节比拟将变得更加明显。

测试数据上看，HUGS在NeuMan数据集的五个场景中的PSNR和SSIM评分都达到了SOTA水平，LPIPS偏差则处于最低位。

在ZJU Mocap数据集上，针对5个不同受试者，HUGS也都超越了NerualBody、HumanNeRF等Baseline方法。

速率方面，HUGS的演习只需半小时就能完成，而此前最快的VidAvtar也要48小时，速率提升了近百倍。

渲染速率也是如此，用Baseline方法进行渲染须要2-4分钟，但HUGS只用16.6毫秒就能完成，比人眨眼的速率还快。
（下图为对数坐标系）

那么，HUGS是如何实现既迅速又细腻地天生3D数字人的呢？

像搭积木一样渲染

HUGS首先将人物和场景分别转化为3D高斯斑点。

个中，人物部分的高斯斑点由三个多层感知机（MLP）来预测，并通过SMPL（一种人体形状模型）进行初始化。

SMPL可以用极少的参数建立实体人物到三维网格的映射，只须要10个紧张参数就可以表示99%的人体形状变革。

同时，为了刻画头发和衣服等细节，HUGS大概可高斯函数在一定程度上偏离SMPL。

场景的高斯斑点通过特色三平面供应的位置编码，由多个MLP预测得到。

得到人体和场景模型的高斯斑点后，研究者对它们进行告终合优化。

得到的高斯斑点还会被进行克隆和拆分，从而增大斑点密度，不断靠近真实的目标几何表面，这一过程称为Densify。

此外，研究职员还引入了线性稠浊动画（LBS）技能，在运动过程中对高斯斑点进行驱动。

转换为高斯斑点形式后，研究职员演习了神经网络对高斯函数的属性进行预测，形成真实的人体形状。

同时，神经网络还定义了高斯函数与人体骨骼的绑定关系，从而实现人物的运动。

这样，HUGS的渲染过程就像搭积木一样，不须要重新调用神经网络，从而实现了高速渲染。

溶解实验结果表明，LBS、Densify和三平面MLP都是HUGS中的主要环节，短缺任何一个都会对合成效果造成影响。

而人物与场景的联合优化，同样是实现刚好领悟效果的关键成分。

One More Thing

苹果产生研究数字人的想法已经有一段韶光了。

在苹果MR头显Apple Vision Pro中，就涌现过高细节版本的数字分身观点——

在FaceTime通话时，头显可以创建一个“数字人”，并用它来代表用户。

那么，对苹果的这个“数字人天生器”，你怎么看呢？

论文地址：https://arxiv.org/abs/2311.17910参考链接：[1]https://appleinsider.com/articles/23/12/19/apple-isnt-standing-still-on-generative-ai-and-making-human-models-dance-is-proof[2]https://twitter.com/anuragranj/status/1737173861756485875/

— 完 —

量子位 QbitAI · 头条号签

关注我们，第一韶光获知前沿科技动态约

每期AI知识网

史上最快3D数字人生成器半小时完成演习衬着仅需16毫秒

916发卡网,引领信用卡行业，打造个性化金融体验

AI x Crypto 申报案例研究成长瓶颈技能寻衅