从物理世界进入数字世界的时刻人若何创建一个自己的分身

它的意思便是让天下有光。
我要讲的是若何在数字天下带来这样一个光明。

毋庸置疑，我们都处一个从物理天下向数字天下这样一个转换的过程，这个数字天下里面最难以复现的是什么呢——便是我们人本身。
怎么样能够把“人”作为一个个体来数字化，便是我本日演讲的主题。

拥有“分身”是一种若何的体验？“重修”图灵

讲到这个主题，首先就要讲讲我们这个开山鼻祖阿兰·图灵，大家可能看过这个本尼迪克特·康伯巴奇演的《模拟游戏》，我们轻微看一个《模拟游戏》的一个片段。

图灵不但是人工智能的鼻祖也是打算机的鼻祖。
他创始了全体把物理向数字天下转换的这样一个过程。

从物理世界进入数字世界的时刻人若何创建一个自己的分身

今年的年初，在上海举办了一届天下图灵大会，当时的主理者来问我说，虞老师你是很善于把人物进行三维数字化的，你能不能帮我把图灵三维数字化呢？

这个难度非常的高，为什么呢？图灵早在1954年就已经由世了，我怎么能够三维数字化他呢？以是我们想了一个办法。

我们找了一个学生，他长得瘦瘦高高的，非常像图灵，当然他的脸不是很像图灵。
那么我们就用三维数字化的方法，把他全体三维几何数字化了，我们直接用“卷福”的脸对他的脸做了一个三维的移植。

末了我会给大家秀这样一个demo，怎么样把真的和假的领悟在一起，形成一个虚拟的人物。

小提琴演奏者

那我给大家看一些我们最近做的很故意思的项目。
第一个项目是我们和美国朱莉亚音乐学院拍摄的音乐传授教化。

这个人手里拿了一个小提琴，然后我们在这样一个Dome System里面，用75个相机进行拍摄。
我们能够重修它非常高清的三维几何，大家可以看到，它的小提琴对付人身体的遮挡是非常严重的,很多相机都看不到被小提琴隐瞒住的人的手臂。

但是用深度学习的方法，能估算出人的手臂大约是在什么地方。
然后再用几何的方法把它添补过去，就能产生这样一个靠近完美的、三维360度不雅观看的这样一个体验。

健身教练

我们再来看一个很故意思的demo，这个demo大家都会用keep或者是用fit time。
大家常常看到的健身的demo，无非便是一个2D的图片，实在你并不能看到你的演习者他到底是怎么来进走运动的。

这是我们做的，这是我的学生，他练得非常好。
以是我们拍了一个他的三维健身的片段。
由于我们是用360度3D拍摄的，以是你可以从任意角度进行不雅观看。

更故意思的是，你可以把虚拟的肌肉绑定在一个模型身上，然后再把它进行分离。
这样当你演习的时候，你就知道哪一块肌肉是发力精确的，哪一块肌肉是发力缺点的。
这个相信大家会在新的健身平台上看到这个demo。

“三维重修”——感知、行为、认知

回过分来讲图灵，在图灵逝世两年之后开了一个全天下最主要的大会，叫达特茅斯大会。
启动了AI人工智能，大家确定了研究人工智能的一个方法，这个方法便是大家中学的时候学到的笛卡儿的方法。

它是把全体人工智能的问题分解为三个不同的部分，第一个是Sensing，便是怎么样来对三维天下进行感知；第二部分是Action，怎么样通过感知的数据进行行动，今后就会发展成机器人等等；末了一部分是Cognition，认知，如何把采集到的数据，像人一样进行思考和剖析。

在经由了整整60年之后，由于深度学习的高速发展，使得这三个问题又重新整合在一起了。
这个方法论是亚里士多德的方法论，叫做Holism。
把这个三维一体重新整合在一起来进行这样一个剖析。

我们本日要讲的便是把人数字化，这样一个办理方案实在就大大地借鉴了Holism的方法。

感知，眼睛的启迪

我们一步一步来看，感知、认知和行为分别是若何影响到新一代的数字化的技能。

这里就要讲到人的眼睛了。
人的眼睛是一看到“我”，你就知道“我”是三维的，你不须要通过移动等等。
以是人的眼睛该当是最好的一个三维剖析器。
人的眼睛很神奇，它有几大功能。

第一，称之为Stereo或者叫Stereo Parallax（立体视差）。
人有两只眼睛，两只眼睛分别看到不同的物体，你在不同的角度可以看到我。

第二，叫做Refocusing（再次对焦）。
闭上一只眼睛，你仍旧能够判断出，我站在了这样一个屏幕的前面，由于你的焦距发生了变革。
当你对焦到我身上的时候，我的脸是清晰的，当你对焦到后面的时候，你会创造后面的图像是清晰的。

第三，人的眼睛是跟人的大脑相连接的。
那就确定了人的大脑可以通过剖析数据，产生语义的剖析。
它可以剖析我这个图像，知道我是一个人而不是一个兔子，对不对？以是它可以根据这三个功能产生一个三维的剖析。

而我们现在的人工智能核心算法也正是借鉴人眼这样一个核心技能。

我们一步一步来，先说说Sensing，便是感知。
在过去的10年里，感知取得了巨大的变革。
我不知道在座多少人在家里玩过Microsoft Kinect，你可以在里面舞蹈，进行三维的这样一个skeleton，叫骨骼抓取。

通过这样的技能，你可以产生比较高清的三维的几何。
这个几何并不是非常的精确，它没有纹理，它只能产生一个几何的这样一种信息。

最近VIVO推出了一款新手机，实在iPhoneX也提出了这样用构造光的方法，一张就能拍出三维的效果，这样的三维感知技能会越来越会深入到大家的生活之中。

今后大家可以通过手机拍摄自己三维的几何构造。
当然，这样的几何构造仍旧不足高清，怎么样能够把它做得更高清？

我们做过一个拍摄，五张图片就能够产生超高清的三维的人脸。
由于各位太关心自己的人脸了，如果人脸拍得不好怎么发朋友圈，对不对？我们通过这五张照片能够把脸上所有的皱纹、胡茬全都呈现出来。

有了这样一个技能，你可以做3D美颜，你可以把这个皱纹去掉等等。
可以通过这样一个多视角的拍摄系统，加上构造光的拍摄系统，产生一个高清的三维的几何，完成第一步感知。

重修—虚拟三维天下的建立

第二部分是重修，重修的意思是说，你如果没有构造光这样的三维感知器，可以用自己的眼睛围着一个物体看。

比如说，当你看一样东西的时候，你常日会围着它看，以获取它的三维的构造。
我在十年以前在美国做的一个项目，为这个脚进行一个三维高清的一个建模。
当时是由于很多老兵的脚受了很多的伤，以是想建造出一个非常高清的三维的骨骼的固定器来修复脚的损伤。

通过这个技能我们可以创造，如果我能够从不同的角度进行拍摄，就可以把一个三维的物体进行重构。

这是由于人的大脑通过不雅观看三维的这样一个物体，产生了Correspondence。
你知道这个点对应那个点，然后通过移动就产生一个三维的估量的感知。

在上海科技大学只要30分钟就可以了，我们搭建了一个用75个相机组成的对内环拍系统，它可以360度无去世角地对一个动态的人进行拍摄，然后像人眼睛一样Correspondence，把全体的三维的人体进行一个高清的重修。

这样一个高清的重修本身实在还是有很大的难度的，为什么呢？人是移动的，人的手、身体的遮挡的关系能产生非常繁芜的变革。

当我的手遮住我的身体的时候，在座的不雅观众仍旧能够知道我的手是在身体的前面还是后面。
你不会由于有这样的遮挡而无法判断身体的三维几何。
那么人是怎么做到的呢？

人是通过大量的三维演习的数据得到的。
从小到大我们来日诰日都在看人，以是我们知道人是若何做这个移动的，若何做这个行为的。

通过这样的演习的数据，你可以在非常强的遮挡下仍旧获取非常高清的几何，这便是深度学习的魅力了。

深度学习采集到了大数据，用这些数据来补充了很多繁芜的问题。

认知，统统从认识天下开始

当我们在网上逛淘宝看到一个杯子的时候，我一看就知道这是一个三维的杯子，我不须要360度进行不雅观看；当看到一个人脸的时候，我只要看一张图片，就能够瞬间把这个三维的2D的人脸转化为3D的人脸。

这是为什么呢？是由于人看了大量的3D处理的数据，根据大量数据可以从2D的图片直接推算出大概它3D的样子是什么样的。

这便是认知。

全体的技能核心，便是把这三个技能，用亚里士多德Holism的方法三维一体地结合在一起，进行一个高清的人体的三维重修。

全息通话、在线试衣离我们有多远？

刚刚讲的所有的重建都离线重修，须要大量的韶光进行三维的重修，由于须要深度学习的过程。

我们展示的一个最新的技能是和中国移动互助的，实时进行三维转播。

大家可能看过《星球大战》，《星球大战》里最酷的一个便是叫hologram，对不对？叫做全息通话。

这个全息通话离大家非常非常近了。
我们用十相机的系统拍摄,这个人拍摄出来便是一个3D人物。
然后通过和华为的5G互助，和中国移动互助，把这样一个人物维妙维肖地直接展现在你的平台上面。

如果你有一个全息投影系统的话，你就会看到这个人实时地跟你在进行全息通话，是无延时的一个实时重修。

最近我们做的是如何试衣服，对付人体来说，试衣服几何的重修是大略的，衣服的重修也是大略的，但是衣服有一点比较难。

由于衣服是具有光泽的，传统的这些衣服有丝织的、有棉布的，不同的材质有不同的光泽。
那如何进行这样一个光泽的一个重现呢？

这就须要在采取了一个多视角拍摄往后，根据多个视角采样得到的图片，用机器学习的方法识别出不同的物体的材质。

这是早期我们采取了机器学习的方法，重修唐三彩这样一个非常繁芜的马。
这样的材质是半金属半陶瓷的一个构造，进行材质的剖析和三维的复现。

那现在我们用同样的技能把它转换到人的试衣服上，我们看一下人试衣服，这可能是大家可以看到的最靠近真实的试衣服效果。

我们看一段视频，这是我们用系统产生的一个高清的三维的人体模型。
然后我可以选择不同的衣服套在她身上，我可以实时地进行试衣、换衣。

我给大家做一个demo，这是用无限网络传播的，可能速率轻微慢一点。

第一个demo是我们拍摄的一个女明星的三维的效果，这个女明星是吉克隽逸，我想很多人粉吉克隽逸，但是可能从来没有人这么近间隔地看过她。

你还可以看到她非常高清的三维的人脸，而且她的遮挡都是精确的。
我想今后的娱乐体验是大家在看《我是歌手》等等节目的时候，这个明星就会在你面提高行演出了。

第二个demo是我们最近拍摄的一个极限运动。
这个自行车的复现，我们当时非常担心拍不出来，由于它非常繁芜，又有人，又有车。

自行车很常见，但是大家没有看到过慢速的，那我想今后不雅观看娱乐节目，都会通过VR和AR看到一个人冲进去的效果。

末了一个demo，我想大家也是会很感兴趣。
这是我自己，大家看了半天，第一想到的便是，这个技能能不能复现一个我自己，对不对？用这个技能，每个人都可以复现一个自己，然后放在一个虚拟的天下里面，放在一个聪慧的城市里面，放在一个聪慧的未来里面。

实在“他”是在说话的，他说To see is to believe，to believe is to see。

由于瞥见，以是相信，由于相信，以是瞥见。

编辑：王锐

校正：其奇

造就：剧院式演讲，创造创造力

更多精彩内容，敬请点击文末蓝字“理解更多”。

每期AI知识网

从物理世界进入数字世界的时刻人若何创建一个自己的分身

AI成热门专业背后不懂AI将被替代人才培养若何破局

擦亮足球之城新咭片咪咕欧洲杯呼叫我的球搭子淄博站举行

每期AI知识网

从物理世界进入数字世界的时刻人若何创建一个自己的分身

AI成热门专业背后不懂AI将被替代人才培养若何破局

擦亮足球之城新咭片 咪咕欧洲杯呼叫我的球搭子淄博站举行

擦亮足球之城新咭片咪咕欧洲杯呼叫我的球搭子淄博站举行