作者|陶然 编辑|魏晓

开年第一周,蓝媒君请马爸爸跳了一段舞。

视频加载中...

阿里舞王,果真名不虚传……怎么回事呢?

这一次马云跳起了甜妹舞

阿里云通义千问APP上线了一项让照片一键“舞起来”的功能,名叫“全民舞王”——还真便是字面意义上的舞蹈。

不论是马云或者马斯克,兵马俑还是机器人,一张全身照,便是一段科目三、一段甜妹舞。

视频加载中...

办公室里充满了快活的气息。

一键起舞

如何打造自己的舞王?

打开通义千问APP,点击顶部提示栏中的“一张照片来舞蹈”,底部输入栏会自动填入“全民舞王”(也可以不点提示栏,直接手敲这四个字),提交指令。

OK,一道零门槛通向舞王的门,开了。

接下来,从阿里目前供应的十二个舞蹈模板中任选其一,然后上传一张无遮挡全身照,比如马斯克,或者马斯克的机器人。

当然,像上午的微博热搜那样用兵马俑,也是可以的。

这部分操作涉及到AI识图及图转视频等一系列略显黑箱的操作,以是传图存在一定的失落败可能,缘故原由包括不仅限于图片没过审,AI认为这照片不是“全身”,或者人物不敷够清晰。

然后,悄悄等待约15分钟。

一段由天下首富带来的极乐净土(模板名为“极乐劲舞”)便可天生在通义千问APP中。

视频加载中...

省时,省力,关键还免费,舞蹈区大约已经感想熏染到了小小的AI震荡。

这项免费功能名为“通义舞王”,用户按照上述流程选模板、传照片后,十几分钟即可天生神形兼备的舞蹈视频。
只管部分细节(如衣领、手臂)AI处理的仍不完善,但终极呈现的效果已是瑕不掩瑜。

图/服装飞舞和手部动作仍是AIGC难点

而该功能背后的AI算法,正是基于此前阿里通义实验室发布的自研视频天生模型Animate Anyone。

岁末年初,阿里整了个技能门槛相称高的AI花活儿。

Animate Anyone

从静态到动态

一个月前,由阿里巴巴集团智能打算研究院研发的“Animate Anyone”技能框架对外公布,这是一种能够将静态图像转换为高拟真度动态视频的天生式AI运用。

此技能被概括为三个步骤:编码建模/提取模型特色/解码成视频,官方阐明如下:

(图片的)姿势序列首先利用 Pose Guider 进行编码,并与多帧噪声领悟,然后由 Denoising UNet 进行视频降噪。
Denoising UNet 的打算模块由 Spatial-Attention、Cross-Attention 和 Temporal-Attention 组成,如右侧虚线框所示。

参考图像的集成涉及两个方面。
首先,通过ReferenceNet提取详细特色并用于Spatial-Attention。
其次,通过CLIP图像编码器提取语义特色进行Cross-Attention。
Temporal-Attention在韶光维度上运作。
末了,VAE解码器将结果解码为视频剪辑。

简而言之,阿里自研了一套算法,大幅度提升了AIGC视频与原图像的同等性,和动作姿态(包括人物姿势和服装图案等)细节在视频中的稳定性,相较于传统算法更为风雅、更为还原。

并且适用各种人物(人形物体就可以):

越繁芜的服装细节,越能表示该算法的上风(最右为阿里算法)

当然,花费资源研讨这套算法,并不但是为让马斯克或者马云跳两段舞,阿里给出了面前触手可及的运用,比如电商——在线试衣/换衣。

算法将人物模型和服装模型组合后,天生了肉眼完备无法分别的AI图片。
可以预见,这类图像技能在诸多线上办公、消费乃至医疗领域,都有极为充分的想象空间。

唯一有压力的,恐怕还是将AI接入大规模运用处景后,用户跑图带来的做事器本钱,此前如Mid Journey等AIGC社区大多采取付费订阅模式。
现在更多的案例、更成熟的技能都已落地,就看下一步运用环节能否跑通。

来源|AI蓝媒汇 作者|陶然