智东西("大众年夜众号:zhidxcom)编 | 王颖
导语:最近,迪士尼正在研究用AI自动天生动画,这次他们新开拓的系统不须要进行大量数据演习,能使艺术家事情更有效率。
近日,迪士尼研究所和罗格斯大学的科学家共同揭橥了关于AI文本天生动画模型的论文。
研究职员表示,这种算法只要在输入的文本中描述某些活动即可,不须要注释数据和进行大量演习就能产生动画。
这篇论文中,研究职员进一步提出了端到端模型,这种模型可以创建一个粗略的故事版和电影剧本的视频,用来描述电影剧本中的笔墨。此外,这个别系还可用于天生演习端到端神经系统的演习数据。
▲迪士尼罗格斯大学关于AI文本天生动画模型的论文
迪士尼一贯十分关注AI领域的进展,多年来一贯考试测验将AI技能融入自己的各项家当当中,也曾多次与大学或其他研究机构互助,开拓了一系列演习模型。这次,迪士尼又将文本转换视频的技能进一步加强,使模型自动天生动画。
一、更繁芜的文本如何转换成动画?▲迪士尼的笔墨转换为动画AI系统图解
将文本转换为动画并不是一项大略的任务,大多数将文本转换为视频的工具不能处理繁芜句子,由于输入的句子和输出的动画都没有固定的构造。为了战胜这种问题,两位论文作者共同构建了一个包含多个组件模块的神经网络。
这个网络由几个部分组成: 一个可以自动将文本与剧本场景描述隔离开的脚本解析模块、一个自然措辞处理模块(利用一套措辞规则简化繁芜句子,并从简化句子中提取信息,转化为预定义的动作表示),以及一个将所述表示转换为动画序列的天生模型。
▲迪士尼AI系统的文本简化阶段
简化后的方法能更随意马虎的提取脚本中的关键信息,新研发的系统能够自主地将繁芜句子拆分,并组装成更大略的句子,对其进行递归处理,直到不可能进一步简化。
接下来,系统将“折衷”句法关系相同、功能相同的句子。末了,词汇简化器将简化后句子中的动作,与预定义库中的52个动画匹配(通过同义词词典扩展到92个)。
然后,在一个名为Cardinal的管道中将动作输入,并在一个盛行的视频游戏引擎Unreal中创建预可视化。利用预定义的动画库、预加载的工具以及可用于创建角色的模型,终极,这个别系可以天生一个3D动画视频。
为了演习这个别系,研究职员从IMSDb、SimplyScripts和ScriptORama5等可自由获取资源的电影剧本数据库中,搜集了超过1000个剧本,从中选取了996个,编写了场景描述语料库。 这个语料库由525,708个描述组成,包含1,402,864个句子,个中920,817个(超过40%)至少有一个动作动词。
二、动画合理性达68%,研究职员将进一步优化系统在一项定性测试中,22名参与者以5分制标准,来评估系统天生的20个动画(例如,如果所显示的视频对文本来说是合理的动画,则视频中描述了多少文本信息,以及视频中有多少信息存在于文本中),68%的参与者认为系统通过输入剧本天生了“合理”的动画。
研究职员认为,除了系统本身的局限性之外,天生动画的“不合理”身分也与文本中关于行动的模糊性有关。他们承认这个别系并不完美,它的动作和工具列表并不是详尽无遗的。有时候,词汇简化不能将动词(如“watch”)映射到相似的动画(“look”)中,或者只能为原句中有很多主语的动词创建几个简化的句子。
内部评价和外部评价显示了该系统性能的合理性。研究职员操持在今后的事情中,重点关注如何能使系统更充分的利用文本中描述的话语信息,来办理文本中关于行动模糊性的问题。
三、迪士尼的AI研究进程从技能的角度来看,迪士尼彷佛很重视在AI方面的研究,也有过诸多考试测验。
2017年8月,迪士尼与苏黎世联邦理工学院互助,开拓了将画面与声音连接起来的机器学习系统,这种系统可以将语音与画面结合起来,使视频内容看起来更加连贯。
研究职员将一系列含有杂音和背景音不纯的视频输入系统,用来演习模型。演习后的系统能够把画面信息和声音信息做出关联。比如,随着关门的动作进行,人们会“想象”特定的关门声音。实质上,实在是人们把关门干系的视觉信息跟声音信息做了连接。
这项研究想要做的,便是培养AI系统的这种关联性,他们演习的AI系统成功的将关门、杯子碰撞和汽车在马路上行驶画面于声音进行了配对。这也将帮助视频剪辑师更好地事情。
▲迪士尼发布AR形象与实际物体互动图片
2018年1月,迪士尼的研究职员发布了一项可以使动画AR角色与实际的物体互动的黑科技。
比如,当一个3D卡通角色映射在家里的客厅地板上时,这个虚拟的形象会跳过台阶或绕开障碍物行走,乃至当宠物狗冲过来的时候还可能一下把它撞到。
这项研究做到了AR体验与现实的互动,给动画带来了更多乐趣。说不定往后我们自己也可以和动画里的人物进行互动了。
2018年9月,迪士尼AI研究中央还考试测验了让机器人完成像超级英雄一样的绝技动作。迪士尼的绝技实验包括演习机器人的神经网络来掌握机器人,以此完成上天入地、爬行、划船等动作,人类能做的它可以,人类不能做的,它也可以。
四、文本转换视频技能早已运用实在,从文本片段创建原始剪辑的AI并不是最新的研究创造。
2016年4月,台湾创企GliaCloud就利用AI技能,将文本信息的紧张内容以视频的形式展示了出来。这家AI视频制作公司在2015年,由环球48位Google云技能专家之一David Chen和在广告领域有着20年业务拓展经历的Dominique Tu在台湾共同创建。GliaStudio对指定文本的内容进行剖析和总结之后,根据所提取的内容从自有资料库或是公共资源中探求干系的照片、视频片段乃至画外音来天生影片。
去年,也有研究职员详细先容了一个利用神经网络模拟生物神经元的系统,这种系统能够天生32帧长、6464像素的视频。研究职员表示,这种系统天生视频分两个阶段进行,第一阶段利用文本创建视频的要点,一样平常是背景颜色和工具布局的模糊图像。第二阶段同时考虑到要点和文本的其他内容,然后要点与文本内容结合,天生一段视频。
比如,将“在草地上打高尔夫球”这句话,天生一个人们在草地上打高尔夫球的视频。
从自然措辞文本自动天生动画在很多领域都有运用,比如电影脚本编写、传授教化视频和公共安全等内容。
这些AI算法系统,可以为内容创作者供应更快的迭代、原型设计和观点验证,有助于提高剧本编写效率。
结语:AI天生动画或有更广阔的市场研究职员表示,迪士尼进行AI自动天生动画的研究不是为了取代编剧和艺术家的事情,而是为了提高繁琐事情程序的效率。
虽然目前研究结果还不完善,天生动画的系统还不能百分之百将文本内容转换成动画,但是这项研究对付文本转换视频技能也是一次故意义的考试测验。
迪士尼动画在全天下都有十分广泛的影响,塑造了一个又一个经典的动画形象。如今,他们在AI自动天生动画方面的研究也很可能影响全体动画电影制作市场,AI天生的办法大概将成为未来动画电影制作的新方向。
论文链接:https://arxiv.org/pdf/1904.05440.pdf
原文来自:VentureBeat