作者|陶然 编辑|魏晓
开年第一周,蓝媒君请马爸爸跳了一段舞。
视频加载中...
阿里舞王,果真名不虚传……怎么回事呢?
阿里云通义千问APP上线了一项让照片一键“舞起来”的功能,名叫“全民舞王”——还真便是字面意义上的舞蹈。
不论是马云或者马斯克,兵马俑还是机器人,一张全身照,便是一段科目三、一段甜妹舞。
视频加载中...
办公室里充满了快活的气息。
一键起舞
如何打造自己的舞王?
打开通义千问APP,点击顶部提示栏中的“一张照片来舞蹈”,底部输入栏会自动填入“全民舞王”(也可以不点提示栏,直接手敲这四个字),提交指令。
OK,一道零门槛通向舞王的门,开了。
接下来,从阿里目前供应的十二个舞蹈模板中任选其一,然后上传一张无遮挡全身照,比如马斯克,或者马斯克的机器人。
当然,像上午的微博热搜那样用兵马俑,也是可以的。
这部分操作涉及到AI识图及图转视频等一系列略显黑箱的操作,以是传图存在一定的失落败可能,缘故原由包括不仅限于图片没过审,AI认为这照片不是“全身”,或者人物不敷够清晰。
然后,悄悄等待约15分钟。
一段由天下首富带来的极乐净土(模板名为“极乐劲舞”)便可天生在通义千问APP中。
视频加载中...
省时,省力,关键还免费,舞蹈区大约已经感想熏染到了小小的AI震荡。
这项免费功能名为“通义舞王”,用户按照上述流程选模板、传照片后,十几分钟即可天生神形兼备的舞蹈视频。只管部分细节(如衣领、手臂)AI处理的仍不完善,但终极呈现的效果已是瑕不掩瑜。
图/服装飞舞和手部动作仍是AIGC难点
而该功能背后的AI算法,正是基于此前阿里通义实验室发布的自研视频天生模型Animate Anyone。
岁末年初,阿里整了个技能门槛相称高的AI花活儿。
Animate Anyone
从静态到动态
一个月前,由阿里巴巴集团智能打算研究院研发的“Animate Anyone”技能框架对外公布,这是一种能够将静态图像转换为高拟真度动态视频的天生式AI运用。
此技能被概括为三个步骤:编码建模/提取模型特色/解码成视频,官方阐明如下:
(图片的)姿势序列首先利用 Pose Guider 进行编码,并与多帧噪声领悟,然后由 Denoising UNet 进行视频降噪。Denoising UNet 的打算模块由 Spatial-Attention、Cross-Attention 和 Temporal-Attention 组成,如右侧虚线框所示。
参考图像的集成涉及两个方面。首先,通过ReferenceNet提取详细特色并用于Spatial-Attention。其次,通过CLIP图像编码器提取语义特色进行Cross-Attention。Temporal-Attention在韶光维度上运作。末了,VAE解码器将结果解码为视频剪辑。
简而言之,阿里自研了一套算法,大幅度提升了AIGC视频与原图像的同等性,和动作姿态(包括人物姿势和服装图案等)细节在视频中的稳定性,相较于传统算法更为风雅、更为还原。
并且适用各种人物(人形物体就可以):
越繁芜的服装细节,越能表示该算法的上风(最右为阿里算法)
当然,花费资源研讨这套算法,并不但是为让马斯克或者马云跳两段舞,阿里给出了面前触手可及的运用,比如电商——在线试衣/换衣。
算法将人物模型和服装模型组合后,天生了肉眼完备无法分别的AI图片。可以预见,这类图像技能在诸多线上办公、消费乃至医疗领域,都有极为充分的想象空间。
唯一有压力的,恐怕还是将AI接入大规模运用处景后,用户跑图带来的做事器本钱,此前如Mid Journey等AIGC社区大多采取付费订阅模式。现在更多的案例、更成熟的技能都已落地,就看下一步运用环节能否跑通。
来源|AI蓝媒汇 作者|陶然