原创:HyperAI超神经

关键词:漫画天生系统 CNN 情绪剖析

如今,电影、电视剧以及各种视频,已经成为我们生活中不可短缺的一部分。
据报告,每天上传到 YouTube 的视频总时长,就须要一个人花费超过 82 年的韶光才能看完。

为了节省追剧韶光,2 倍速播放已经成为刷剧标配。
除了倍速、跳跃式不雅观看,以及看影评人讲解,还有一种快速追剧的办法,便是——把影视剧改成漫画。

没时间看片子追剧AI 一键让影视变漫画

近日,大连理工大学和喷鼻香港城市大学的研究职员,发布了一个有趣的研究,可以自动将电视剧、电影或其他视频的画面天生为漫画形式,并配上笔墨气泡

《泰坦尼克号》、《风声》、《老友记》和《在云端》的漫画版本

《泰坦尼克号》、《风声》、《老友记》和《在云端》的漫画版本

研究职员在论文中表示:「与最新的漫画天生系统比较,我们的系统可以合成更具表现力和吸引力的漫画。
未来会将这一技能扩展到,利用文本信息天生漫画。

看过漫改,但你看过「改漫」吗?

此前,业内已有一些类似的研究成果,提出将影片转换为漫画的自动化系统,但其在自动化和视觉效果、可读性等方面还有待提高,因此,这一研究方向仍旧充满寻衅。

来自大连理工大学和喷鼻香港城市大学的团队,则在最近揭橥的论文《Automatic Comic Generation with Stylistic Multi-page Layouts and Emotion-driven Text Balloon Generation》中,提出了更优的方法。

论文地址:https://arxiv.org/abs/2101.11111

论文中提出了一个全自动漫画天生系统,无需用户任何手动调度,就可以将任意类型的视频(电视连续剧、电影、卡通),天生高质量的漫画页面,将角色对话转化为气泡笔墨。
而且该系统天生的漫画具有丰富的视觉效果,且可读性强。

三大模块,让影视剧变漫画书

该论文中提出的关键思想是,在没有任何手动指定的参数或约束的情形下,以全自动的办法设计系统。
同时,团队有选择地引入用户交互,使设计更加个性化和多样化。

总体来看,该系统紧张有三个模块,分别是:关键帧选择和漫画风格化、多页面布局天生、笔墨气泡天生和放置。

系统整体的事情流程示意图

模块一:关键帧的提取和风格化

系统的输入是一段视频及其字幕,个中包含对话和相应的开始和结束韶光戳信息。

他们首先每 0.5 秒钟从原始视频中选择一帧,然后,利用字幕中的韶光信息和两个连续帧之间的相似性,来选择信息关键帧。
末了对关键帧进行风格化,也便是将普通图像转换为漫画风格的图像。

关键帧提取

关键帧的选择是尤为主要且难度比较高的一项任务,该团队紧张利用韶光信息来进行选择。

关键帧选择流程

如上图所示,团队首先利用每个字幕的开始和结束韶光将视频分割成多个镜头,这些镜头分两种:对话镜头(有字幕的镜头)和非对话镜头(无字幕的镜头)。

对付对话镜头:系统司帐算之前得到的两个连续帧之间的 GIST 相似度(如果 GIST 相似度较小,则两帧之间差异较大)。

在实行过程中,如果相似度小于预先设置的阈值 1,那么后一帧将当选为关键帧。
如果一组字幕对应的帧都没有当选中,就选取中间一帧作为关键帧。

考虑到一个连续的对话和同一个场景可能对应多个字幕,因此团队司帐算之前得到的连续关键帧之间的 GIST 相似度。
如果相似度大于设置的阈值 2,就认为它们属于同一个场景。
那么,就只保留个中一个关键帧,然后合并字幕。

其余,在同一组字幕中,系统有可能选择多个关键帧,由于打算之后,可能创造这些关键帧具有语义关系,这些关键帧将用于多页布局。

对付非对话的镜头:系统会首先选择与当前镜头中的帧最不相同的帧。
为了减少选取帧的冗余,系统司帐算这个镜头与之前选择的关键帧的 GIST 相似度,只有小于之前设定的阈值,才会当选为关键帧。

末了,通过比较开始韶光戳和关键帧的韶光戳,将字幕集分组。
在关键帧的开始和结束韶光戳范围内的任何字幕,都将被网络在一起。

画面风格化

团队采取了扩展的高斯差法,将源图像转换为黑白图像。
饭后实行 128 级颜色量化,得到量化后的图像,实现彩色风格化。
便是这样,一组组真人电影镜头,变成了漫画风格。

模块二:多页面布局

团队提出了一个多页布局框架,用来自动分配和组织页面的布局,同时能够呈现出更加丰富的视觉效果。

在这一模块中,首先须要打算出四个用于辅导多页面布局天生的关键成分,包括:关键帧的兴趣区域(ROI)、关键帧的主要性等级、关键帧之间的语义关系和一个页面上的面板数量。

然后,团队提出了一种基于优化的面板分配方法,将关键帧分配到一个页面序列中,并利用数据驱动的漫画式布局合成方法,来天生每个页面的布局。

追漫的小伙伴都知道,漫画书中每一页的分格数量都是不固定的,为了让读者有更好的阅读体验,漫画家都会根据剧情来安排分格数量。

在此项研究中,团队将这一问题作为全局的优化问题,来完成每个镜头在漫画页面中的分配。

关键帧之间的关系剖析:同一颜色虚线框内的关键帧具有语义关系,反之则不具有

模块三:笔墨气泡的天生和放置

笔墨气泡的天生

常日在漫画中,对付不同情境与情绪下的对话,作者也会选择不同的气泡形状,这对付漫画内容的表达非常主要。
而现有的干系研究一样平常都是只利用基本的椭圆式气泡形状,这对付情绪表达来说显得不足丰富。

本文则提出的一项主要成果,即一种基于情绪感知的气泡天生方法,可利用含有情绪的视频音频和字幕信息,天生与之相适应的笔墨气泡形状。

系统根据输入视频对应音频和字幕,剖析个中包含的情绪,然后天生对应气泡形状

在该系统中,作者采取了三种常见的气泡形状:椭圆形气泡、思想气泡和锯齿状气泡。
这三种气泡适用的感情分别为:感情沉着、想法(不说出来)、感情强烈。

对付气泡分类器的演习,团队紧张利用一些动漫视频和相应的漫画书,来网络音频情绪、字幕情绪和气泡类型的数据。

气泡定位与放置

与之前方法类似,本文也采取了发言人检测和唇动检测,来获取说话的人在一帧中的位置,然后将气球放置在其所属的人物附近。

嘴部检测+唇动检测,定位讲话者

详细实行流程为:

首先利用「Dlib」人脸检测 Python 库,来检测一帧中每个人物的嘴部;然后利用唇动剖析,打算连续两帧帧间嘴部区域像素值的均方差,该差值是在当前帧中嘴巴区域周围的搜索区域上打算的,以确定其嘴唇是否有动作;末了,设置一个阈值来确定某角色是否在说话。

在得到发言者的位置后,将笔墨气泡放在其附近,并将气泡的尾部指向讲话者的嘴巴。

用四部经典影片,评估系统效果

为测试模型效果,团队输入了 4 部门歧影片的共 16 个片段,包括:《泰坦尼克号》、《风声》、《老友记》和《在云端》。

输入视频的持续韶光从 2 分钟到 6 分钟不等,每一段剪辑都包含有台词的部分。

对付每个剪辑,团队记录利用该系统天生一本漫画书所花费的韶光,并打算均匀花费的韶光,来评估系统性能。

每段视频天生漫画韶光不超过 10 分钟

作者总结道,与之前方法比较,本研究的方法优于其它方法。
紧张表示在以下三个方面:

首先,该系统可以为对话天生更丰富的气泡形状,而现有的方法只利用纯挚的椭圆词气球;其次,利用文本总结的方法,将一些干系的字幕进行合并,这样可确保笔墨气泡中的句子不会太长,增强可读性;第三,通过自动获取四个主要参数,来实现全自动多页布局(此前方法多为半自动,需人工干预),且布局结果合理、丰富。

效果展示与比拟。
个中,(a)-(d) 为该团队的系统天生效果;(e)-(h) 为另一团队在 2015 年揭橥的成果

对应电影依次为:《泰坦尼克号》、《风声》、《老友记》和《在云端》

为了避免主不雅观成分滋扰,团队还通过 Amazon Mechanical Turk 招募了 40 名志愿者,对团队的天生结果和其他同类系统天生的结果进行比较。

志愿者首先会不雅观看原视频,然后阅读各种不同方法天生的漫画,给出效果评级。
为了避免主不雅观偏见,视频和相应的漫画都是随机排列的。

终极结果是,无论志愿者之前是否看过视频,该系统得到的评价都比其他方法更好。

一键天生漫画,还能怎么玩?

虽然已经取得用户好评,但该系统当然称不上完美,仍有一些问题待办理。

比如,对付关键帧的选择,仍旧可能有相似度过高的情形涌现,这会带来画面的冗余。

其余,如果输入的视频没有字幕,那么在天生漫画之前,系统还要首先通过语音识别来提取台词,但是语音识别的结果每每随意马虎涌现缺点,因此这也是该系统面临的一个寻衅。
不过,团队表示,相信随着语音识别技能的不断进步,这一问题未来也将迎刃而解。

未来,当这一技能足够成熟,很多视频作品都会多一种打开办法,用漫画的形式来「不雅观看」一部影片,对付读者来说,或许会带来更丰富的想象空间。

不同于视频,漫画的画面都为静态,且笔墨较少,但正因如此,读者得以加入更多个人情绪与想象

此外,对付普通人来说,不需具备绘画功底,就能轻松将视频转换为漫画,这或许也会像此前能将照片转换为绘画风格图像的 Prisma App 一样,成为新的大众娱乐工具。

而团队还操持,下一步将这一方法扩展到利用文本信息来天生漫画。
也便是说,只要给出漫画剧本,系统就能够自动天生漫画,为漫画师节省大量韶光。

漫画追剧,岂止是 2 倍速