它的意思便是让天下有光。我要讲的是若何在数字天下带来这样一个光明。
毋庸置疑,我们都处一个从物理天下向数字天下这样一个转换的过程,这个数字天下里面最难以复现的是什么呢——便是我们人本身。怎么样能够把“人”作为一个个体来数字化,便是我本日演讲的主题。
拥有“分身”是一种若何的体验?“重修”图灵讲到这个主题,首先就要讲讲我们这个开山鼻祖阿兰·图灵,大家可能看过这个本尼迪克特·康伯巴奇演的《模拟游戏》,我们轻微看一个《模拟游戏》的一个片段。
图灵不但是人工智能的鼻祖也是打算机的鼻祖。他创始了全体把物理向数字天下转换的这样一个过程。
今年的年初,在上海举办了一届天下图灵大会,当时的主理者来问我说,虞老师你是很善于把人物进行三维数字化的,你能不能帮我把图灵三维数字化呢?
这个难度非常的高,为什么呢?图灵早在1954年就已经由世了,我怎么能够三维数字化他呢?以是我们想了一个办法。
我们找了一个学生,他长得瘦瘦高高的,非常像图灵,当然他的脸不是很像图灵。那么我们就用三维数字化的方法,把他全体三维几何数字化了,我们直接用“卷福”的脸对他的脸做了一个三维的移植。
末了我会给大家秀这样一个demo,怎么样把真的和假的领悟在一起,形成一个虚拟的人物。
小提琴演奏者那我给大家看一些我们最近做的很故意思的项目。第一个项目是我们和美国朱莉亚音乐学院拍摄的音乐传授教化。
这个人手里拿了一个小提琴,然后我们在这样一个Dome System里面,用75个相机进行拍摄。我们能够重修它非常高清的三维几何,大家可以看到,它的小提琴对付人身体的遮挡是非常严重的,很多相机都看不到被小提琴隐瞒住的人的手臂。
但是用深度学习的方法,能估算出人的手臂大约是在什么地方。然后再用几何的方法把它添补过去,就能产生这样一个靠近完美的、三维360度不雅观看的这样一个体验。
健身教练我们再来看一个很故意思的demo,这个demo大家都会用keep或者是用fit time。大家常常看到的健身的demo,无非便是一个2D的图片,实在你并不能看到你的演习者他到底是怎么来进走运动的。
这是我们做的,这是我的学生,他练得非常好。以是我们拍了一个他的三维健身的片段。由于我们是用360度3D拍摄的,以是你可以从任意角度进行不雅观看。
更故意思的是,你可以把虚拟的肌肉绑定在一个模型身上,然后再把它进行分离。这样当你演习的时候,你就知道哪一块肌肉是发力精确的,哪一块肌肉是发力缺点的。这个相信大家会在新的健身平台上看到这个demo。
“三维重修”——感知、行为、认知回过分来讲图灵,在图灵逝世两年之后开了一个全天下最主要的大会,叫达特茅斯大会。启动了AI人工智能,大家确定了研究人工智能的一个方法,这个方法便是大家中学的时候学到的笛卡儿的方法。
它是把全体人工智能的问题分解为三个不同的部分,第一个是Sensing,便是怎么样来对三维天下进行感知;第二部分是Action,怎么样通过感知的数据进行行动,今后就会发展成机器人等等;末了一部分是Cognition,认知,如何把采集到的数据,像人一样进行思考和剖析。
在经由了整整60年之后,由于深度学习的高速发展,使得这三个问题又重新整合在一起了。这个方法论是亚里士多德的方法论,叫做Holism。把这个三维一体重新整合在一起来进行这样一个剖析。
我们本日要讲的便是把人数字化,这样一个办理方案实在就大大地借鉴了Holism的方法。
感知,眼睛的启迪我们一步一步来看,感知、认知和行为分别是若何影响到新一代的数字化的技能。
这里就要讲到人的眼睛了。人的眼睛是一看到“我”,你就知道“我”是三维的,你不须要通过移动等等。以是人的眼睛该当是最好的一个三维剖析器。人的眼睛很神奇,它有几大功能。
第一,称之为Stereo或者叫Stereo Parallax(立体视差)。人有两只眼睛,两只眼睛分别看到不同的物体,你在不同的角度可以看到我。
第二,叫做Refocusing(再次对焦)。闭上一只眼睛,你仍旧能够判断出,我站在了这样一个屏幕的前面,由于你的焦距发生了变革。当你对焦到我身上的时候,我的脸是清晰的,当你对焦到后面的时候,你会创造后面的图像是清晰的。
第三,人的眼睛是跟人的大脑相连接的。那就确定了人的大脑可以通过剖析数据,产生语义的剖析。它可以剖析我这个图像,知道我是一个人而不是一个兔子,对不对?以是它可以根据这三个功能产生一个三维的剖析。
而我们现在的人工智能核心算法也正是借鉴人眼这样一个核心技能。
我们一步一步来,先说说Sensing,便是感知。在过去的10年里,感知取得了巨大的变革。我不知道在座多少人在家里玩过Microsoft Kinect,你可以在里面舞蹈,进行三维的这样一个skeleton,叫骨骼抓取。
通过这样的技能,你可以产生比较高清的三维的几何。这个几何并不是非常的精确,它没有纹理,它只能产生一个几何的这样一种信息。
最近VIVO推出了一款新手机,实在iPhoneX也提出了这样用构造光的方法,一张就能拍出三维的效果,这样的三维感知技能会越来越会深入到大家的生活之中。
今后大家可以通过手机拍摄自己三维的几何构造。当然,这样的几何构造仍旧不足高清,怎么样能够把它做得更高清?
我们做过一个拍摄,五张图片就能够产生超高清的三维的人脸。由于各位太关心自己的人脸了,如果人脸拍得不好怎么发朋友圈,对不对?我们通过这五张照片能够把脸上所有的皱纹、胡茬全都呈现出来。
有了这样一个技能,你可以做3D美颜,你可以把这个皱纹去掉等等。可以通过这样一个多视角的拍摄系统,加上构造光的拍摄系统,产生一个高清的三维的几何,完成第一步感知。
重修—虚拟三维天下的建立第二部分是重修,重修的意思是说,你如果没有构造光这样的三维感知器,可以用自己的眼睛围着一个物体看。
比如说,当你看一样东西的时候,你常日会围着它看,以获取它的三维的构造。我在十年以前在美国做的一个项目,为这个脚进行一个三维高清的一个建模。当时是由于很多老兵的脚受了很多的伤,以是想建造出一个非常高清的三维的骨骼的固定器来修复脚的损伤。
通过这个技能我们可以创造,如果我能够从不同的角度进行拍摄,就可以把一个三维的物体进行重构。
这是由于人的大脑通过不雅观看三维的这样一个物体,产生了Correspondence。你知道这个点对应那个点,然后通过移动就产生一个三维的估量的感知。
在上海科技大学只要30分钟就可以了,我们搭建了一个用75个相机组成的对内环拍系统,它可以360度无去世角地对一个动态的人进行拍摄,然后像人眼睛一样Correspondence,把全体的三维的人体进行一个高清的重修。
这样一个高清的重修本身实在还是有很大的难度的,为什么呢?人是移动的,人的手、身体的遮挡的关系能产生非常繁芜的变革。
当我的手遮住我的身体的时候,在座的不雅观众仍旧能够知道我的手是在身体的前面还是后面。你不会由于有这样的遮挡而无法判断身体的三维几何。那么人是怎么做到的呢?
人是通过大量的三维演习的数据得到的。从小到大我们来日诰日都在看人,以是我们知道人是若何做这个移动的,若何做这个行为的。
通过这样的演习的数据,你可以在非常强的遮挡下仍旧获取非常高清的几何,这便是深度学习的魅力了。
深度学习采集到了大数据,用这些数据来补充了很多繁芜的问题。
认知,统统从认识天下开始当我们在网上逛淘宝看到一个杯子的时候,我一看就知道这是一个三维的杯子,我不须要360度进行不雅观看;当看到一个人脸的时候,我只要看一张图片,就能够瞬间把这个三维的2D的人脸转化为3D的人脸。
这是为什么呢?是由于人看了大量的3D处理的数据,根据大量数据可以从2D的图片直接推算出大概它3D的样子是什么样的。
这便是认知。
全体的技能核心,便是把这三个技能,用亚里士多德Holism的方法三维一体地结合在一起,进行一个高清的人体的三维重修。
全息通话、在线试衣离我们有多远?刚刚讲的所有的重建都离线重修,须要大量的韶光进行三维的重修,由于须要深度学习的过程。
我们展示的一个最新的技能是和中国移动互助的,实时进行三维转播。
大家可能看过《星球大战》,《星球大战》里最酷的一个便是叫hologram,对不对?叫做全息通话。
这个全息通话离大家非常非常近了。我们用十相机的系统拍摄,这个人拍摄出来便是一个3D人物。然后通过和华为的5G互助,和中国移动互助,把这样一个人物维妙维肖地直接展现在你的平台上面。
如果你有一个全息投影系统的话,你就会看到这个人实时地跟你在进行全息通话,是无延时的一个实时重修。
最近我们做的是如何试衣服,对付人体来说,试衣服几何的重修是大略的,衣服的重修也是大略的,但是衣服有一点比较难。
由于衣服是具有光泽的,传统的这些衣服有丝织的、有棉布的,不同的材质有不同的光泽。那如何进行这样一个光泽的一个重现呢?
这就须要在采取了一个多视角拍摄往后,根据多个视角采样得到的图片,用机器学习的方法识别出不同的物体的材质。
这是早期我们采取了机器学习的方法,重修唐三彩这样一个非常繁芜的马。这样的材质是半金属半陶瓷的一个构造,进行材质的剖析和三维的复现。
那现在我们用同样的技能把它转换到人的试衣服上,我们看一下人试衣服,这可能是大家可以看到的最靠近真实的试衣服效果。
我们看一段视频,这是我们用系统产生的一个高清的三维的人体模型。然后我可以选择不同的衣服套在她身上,我可以实时地进行试衣、换衣。
我给大家做一个demo,这是用无限网络传播的,可能速率轻微慢一点。
第一个demo是我们拍摄的一个女明星的三维的效果,这个女明星是吉克隽逸,我想很多人粉吉克隽逸,但是可能从来没有人这么近间隔地看过她。
你还可以看到她非常高清的三维的人脸,而且她的遮挡都是精确的。我想今后的娱乐体验是大家在看《我是歌手》等等节目的时候,这个明星就会在你面提高行演出了。
第二个demo是我们最近拍摄的一个极限运动。这个自行车的复现,我们当时非常担心拍不出来,由于它非常繁芜,又有人,又有车。
自行车很常见,但是大家没有看到过慢速的,那我想今后不雅观看娱乐节目,都会通过VR和AR看到一个人冲进去的效果。
末了一个demo,我想大家也是会很感兴趣。这是我自己,大家看了半天,第一想到的便是,这个技能能不能复现一个我自己,对不对?用这个技能,每个人都可以复现一个自己,然后放在一个虚拟的天下里面,放在一个聪慧的城市里面,放在一个聪慧的未来里面。
实在“他”是在说话的,他说To see is to believe,to believe is to see。
由于瞥见,以是相信,由于相信,以是瞥见。
编辑:王锐
校正:其奇
造就:剧院式演讲,创造创造力更多精彩内容,敬请点击文末蓝字“理解更多”。