出处 | AI前哨

编辑 | Vincent

作为 4G、5G 时期最丰富的信息承载媒介,视频可以传达出的信息量远远超过声音、图像等单一渠道,浩如烟海的视频资源中蕴含的大量信息也还远未被充分挖掘。
对付视频公司来说,如何将 AI 技能与海量视频资源结合,将成为一个潜力巨大的研发方向,带来的代价不可估量。
在海内 AI 领域,多模态技能的研发历史虽然不久,但其带来的代价早已得到了充分验证。

本文中,来自优酷算法中央卖力人王晓博将为我们解析,优酷是如何利用多模态技能,最大限度地挖掘视频信息,创造更大的代价。
剪电影又快又好、还能制作鬼畜视频的 AI 视频剪辑师到底是如何做到的呢?让我们来一探究竟。

视频剪辑师饭碗恐不保AI剪片又快又好

优酷作为一家超过 12 年的视频网站,其最大的数字资产便是存量数亿的视频,这不仅包括平台购买的版权 OGC 视频,更多的是用户上传的 UGC 视频。
视频作为 4G、5G 时期信息最便捷的载体,给用户带来极大便利的同时也给各个互联网厂商带去了更大的寻衅,富媒体信息的存储、打算以及分发比拟单一的笔墨信息要困难很多。

图 1 视频处理流程

如图 1 所示,不论是优爱腾这样的长视频网站还是抖音、快手、西瓜这样的短视频 APP,其视频内容的处理都要经历类似的几个阶段。
如何让机器理解视频内容信息是各个厂商都要面对的技能问题,内容理解并没有标准定义,但将视频本身作为处理单元的能力已经无法知足用户日益增长的内容需求。

优酷在多媒体信息处理方面积累了多年,为了更好的支持视频内容理解及智能生产的须要,我们在 2018 年从算法中央抽调核心骨干力量组建认知实验室,紧张聚焦在打算机视觉、视频构造剖析与智能天生、智能影像处理以及视频质量四个方向。
这篇文章将从优酷这一企业级运用的视角来先容多模态内容理解在我们实际线上系统中的运用,文章构造如下:首先先容简要多模态剖析技能,然后结合优酷给出多少紧张运用处景,接下来对多模态技能中一些难点做些阐发,末了是对未来的展望。

1 多模态剖析技能简介

模态是个专有名词,在打算机信息处理的场景下,专指人接管信息的办法,包括视频、图像、笔墨、语音平分歧的手段。
多模态学习按照其所研究的问题大致分为如下几个方向:

表达学习:实际用场很广,紧张将多个模态的信息转换为实值的向量,多用于召回、干系性打算以及预估特色模态映射:影视剧中的剧情详细描述如何能与视频切片对应起来,在跨模态检索中运用较多模态对齐:将图像中的实体与笔墨中的实体对应起来,这在视频语义检索中十分有用协同学习:每个模态的标注任务都很寻衅且本钱高企,相对而言,笔墨模态的标注本钱是比较低的,而如何能够在缺少标注信息的模态数据上利用其它模态的数据进行演习对付节省本钱共享信息非常有帮助2 范例运用处景问题及寻衅

2.1 视频搜索

信息检索的技能发展已经走过了几十年,而视频内容检索在企业里之前一贯勾留在关键字层面,紧张检索的信息来源是视频的标题和描述,与文章、网页的检索架构差异不大,其缘故原由除了技能上的寻衅外,还有用户的需求通过关键字检索基本能够知足。

图 2 呈现了目前优酷的紧张业务模块构成以及其搜索索引库的内容类型及品类,纯挚的基于标题和描述作为被检索文本会碰着如下困难:

用户在上传 UGC 内容时,常会写“test“、”呵呵“这类无明确表意的词,或者笔墨信息与视频内容不符合用户查询词意图呈现出多元化,纵然是版权视频的搜索也不再集中于节目名字的搜索,社交与互动的需求逐渐增长内容二次创作型的的用户对付视频内容语义检索的诉求显著增加,独立检索词数量近两年增长迅速

图 3 是一个比较范例的视频素材探求类的查询词,图中给出的搜索结果是基于笔墨模态来进行的,明显可以看出这与用户的预期之间的差异,索引的内容并没有表示出对视频内容本身的理解。

图 3 语义搜索示例

图 4 中展示了多模态搜素问题的定义,被检索的工具是视频凑集及其附属的 meta 信息,而输入的模态可以是文本、图像、音频或者视频,乃至哼唱影视剧中的主题曲片段或者讲出经典的台词都可以用于做检索 query。

图 4 多模态搜索示意图

图 5 展示了更多的搜索示例,从搜索结果中我们可以看出,更深入的用机器去理解视频内容信息可以显著的提升用户搜索的满意度。
图 6 是多模态搜索在影响的 query 凑集上对搜索命中率以及点击率 CTR 的提升效果,数字结果也证明了在视频搜索中运用内容理解干系技能能够带来的浸染。

图 5 多模态检索示例

图 6 多模态搜索实验效果

近两年深度学习在搜索推举领域中得到了广泛的运用,我们不禁问自己一个问题,深度模型加向量化检索是否可以办理掉多模态 / 跨模态的检索问题呢?这里做过多年搜索的老兵都有一个清晰的认知,搜索不单是一个技能,更是一个业务,用户对付每一次搜索都有比较清晰的预期。
学术界比较喜好端到真个办理方案,但受制于可阐明性和可控性的问题,企业级视频搜索引擎很少采取单一方案,比较可行的做法是将其它模态的信息通过降维转换到文本模态。

图 7 是优酷视频搜索引擎的主体架构,紧张包括以下几个关键部分:

视频理解与剖析,对视频内容做细颗粒度拆解,将图像、视频动作、人物、声音、背景音乐等信息通过检测和识别等手段做标签化,通过上述手段完成对视频内容降维到笔墨模态的转换视频内容逐帧向量化,为担保召回兜底,采取 query、视频向量化处理,作为笔墨模态召回的有益补充搜索查询意图识别,用户在利用搜索时是有状态的,不同高下文环境下同一个查询词表达的意图不尽相同搜索排序, 排序对付搜索引擎是个至关主要的模块,既有算法技能的一壁,更有业务属性的一壁,这里要兼顾平台视角和用户视角,纯挚的 CTR 优先或者业务干预优先都是不可取的,须要排序的设计者能够从机制设计的视角来思考

图 7 视频搜索引擎

2.2 视频推举

视频网站对标国际一线厂商的话,诸如 Netflix 和 YouTube 这些网站,推举在个中都扮演着至关主要的浸染,以 Netflix 为例,推举系统贡献了超过 70% 的视频播放量,而在海内的三家长视频网站却不尽然,推举的占比都在三分之一以下。
中国大陆的用户和欧美的用户不同,海内的不雅观众在电视剧上呈现出头部过于集中的征象,这与内容的供给方工业化程度低以及电视剧粗制滥造征象泛滥有直接关系,同时还受到紧张电视台、视频网站的排播和宣推策略的影响。
推举和搜索类似,最善于的是在信息爆炸的情境中办理信息过载的问题,如果视频节目候选凑集比较小的情形下,推举是否就失落去了用武之地呢?回答是否定的,如抖音、快手这样的短视频 APP,因每天上传量都超过百万,乃至千万,人力所不能及,只能采取机器算法分发;但一部电视剧的宣发要面对的用户也是超过亿的量级,从货找人的维度,人力也无法处理,如何高效的利用数据产生生产力对付长视频网站也是一项核心竞争力。

图 8 是目前优酷推举的算法架构,在视频推举的问题上如何提升用户和推举系统之间的信赖度是我们面临的核心问题,因此推举系统的智能化在去年被提到很高的优先级。
从图中我们可以看出,目前的紧张召回办法分为如下几种:

行为协同过滤,目前最紧张的召回办法,由于版权视频的头部效应,这会导致更为严重的哈利波特征象向量召回,也是一种被视频网站广泛运用的算法,不论是深度网络模型还是图嵌入方法都能够有效的缓解推举冷启动的问题,但模型的可阐明性以及有监督学习 label 的热度集中效应仍旧是很有寻衅性的问题标签召回,以前用场比较广泛,但受制于准确性的问题,目前多家厂商都在弱化这一起匹配;Netflix 对付版权长视频雇佣专业内容运营来标注 content codes,在候选集不大的情形下比较好的办理了标签准确性的问题

图 8 视频推举架构

视频推举系统由于其基于统计机器学习算法的局限性,不可避免的涌现头部过热乃至明显违背知识的推举结果,推举情由和交互式推举都是缓解这一征象的有效方法。
而运营的履历知识与数据算法间的有机结合将是海内视频网站推举系统的主要蜕变方向,纯挚的效率优先与头部新热剧集中的情形会形成较大的冲突,而推举系统的智能化对付视频内容的理解提出了明确的需求;由于每个人喜好同一个视频或者同一部电视剧的缘故原由不尽相同,或者是某流量明星的粉丝、或者是喜好某种题材、乃至是某种场景氛围。

图 9 给出了基于多模态剖析技能的视频打标签示例,从这个例子我们可以看出,基于视频、音频、笔墨多个模态可以显著的提升标签分类的准确率,其缺陷便是打算量较大,多个模态端到真个领悟学习是一个技能难点。

图 9 多模态视频打标签

2.3 视频数字资产化

目前各个视频网站处理视频数据的颗粒度多数情形下都是 video 本身,能通过深度模型、图模型等方法学习出一个 video vector 来刻画视频特色空间是近年来新兴起的一种向量化方法。
然而这对付视频媒资库的智能化需求而言是远远不足的,内容的二次创作、三次创为难刁难于视频内容的解构有很高的哀求,内容理解和拆解的颗粒度决定了智能媒资库对付视频业务的新代价。

图 10 视频解构剖析及再生产

上图给出了智能媒资系统的两个紧张技能运用,分别是视频多维解构剖析和视频智能生产。

2.3.1 元素级解构

这里推举大家阅读《STORY 故事:材质 构造 风格和银幕剧作的事理》这本书,好的视频内容,无论形式是长还是短,其拍摄的时候都是有逻辑洞现的。
而视频内容解构在一定程度上可以看做是拍摄过程的逆过程,即逆向工程(Reverse Engineering)。
从一个完全的视频且分出不同的片段,进而到镜头、关键帧、关键元素,这些能够形成一个树形构造(或者网状构造),每个图中的元素都是一个节点。
针对视频形式、题材的差异,内容运营产品会构建不同的领域模型来辅导解构,常用的模式如韶光、地点、场景、任务、动作等等。

图 11 元素级解构剖析

图 12 接吻动作剖析

图 11 和图 12 分别给出了元素构造剖析的框架示意图以及动作识别的例子,以表情识别为例,纯挚的依赖图像这个模态是很难将准确率提升上去的,这也是人维度干系识别算法的一个难点,而引入声音这个模态就可以比较有效的帮助算法模型提升精度。

2.3.2 视频自动天生

当视频内容被拆解为细颗粒度的要素之后,智能媒资库才可能赋能视频生产,乃至视频原生广告。
视频的全自动天生是一件很有寻衅的事情,而内容的剪辑创作是机器目前比较难于胜任的事情,但是素材的搜索和推举却是提效视频创作的有效手段。
我们很多 PGC 互助伙伴在进行影剧综漫周边视频制作时都苦于视频元素的探求和剪辑,而视频解构技能恰好可以赋能这一过程。

Netflix 于 2018 年公布了一项很故意思的事情,即电影个性化海报推举,其事理便是针对不同的用户、不同的高下文选择不同的海报素材来呈现同一部电影的推举结果,他们利用了强化学习干系的策略来做分发提效,目的是提升视频的点击率。
而优酷这边碰到的缺是新的问题,全站有上万部存量电视剧、电影,为它们专门制作海报投入太大,网上能够抓取到的海报图每每比较迂腐,对用户的吸引力也大幅度减弱。
因此,能否自动给这些视频天生海报图变成为了一项很有业务和技能寻衅的课题,优酷算法中央的工程师和达摩院的科学家一起进行了深入研究,初步拿到了一些结果。

图 13 产生封面图的方法

图 14 自动天生封面图问题约束

图 13、图 14 都来自于优酷和达摩院在 NeurIPS 2018 Workshop of Video Understanding in Youku 的分享,封面图的天生来源于对内容的准确剖析和解构。

3 对未来的展望

优酷未来在多模态方面的方案

视频内容的理解对付采、制、宣、发、播这五个核心业务环节,视频的搜索交互形态也会呈现出多元化的模态,且视频本身的元素化构造将会极大的助力内容再次创作,赋能给 PGC 生态。
我们将在如下几个方向上持续加大投入:

视频解构剖析与智能生产交互式动态视频技能端到真个多模态视频理解与分发算法基于视频理解的内容评估技能多模态对话式搜索技能

多模态技能未来发展

好的视频内容是能够引发不雅观众的情绪共鸣的,而很多用户追剧、看电影的动力之一便是分享冲动和快乐,如何能够在移动时期捉住用户的碎片化韶光和整块娱乐韶光是各个视频网站争夺的焦点之一。
近年来深度学习在多媒体数据上的打破性进展给多模态内容理解带来了新的机会,如何能够让机器“看懂“视频内容将会是视频网站核心技能的制高点之一。

多模态搜索推举会成为视频信息获取的主要趋势,而向单一的笔墨模态做降维仅仅是开始,探索更为通用的端到端检索模型仍是须要办理的难题随着互联网电视走入越来越多的家庭,环绕电视这个共享屏幕,更自然的多媒体交互办法将会极大的促进跨模态信息检索的研究基于多模态内容剖析解构技能的智能媒资库逐渐会成为视频网站、电视台、乃至企业内部平台的标配,这将会是一个很大的 to B 市场空间目前短视频网站中占比较高的 PGC 二创视频生产逐渐会被 AI 取代,乃至智能算法可以生产出类似鬼畜类这样的视频,极大地提高生产效率

多模态内容理解作为一项逐渐走出学术象牙塔的技能,未来会在视频业务中扮演着越来越主要的角色。

作者先容

王晓博,阿里大文娱集团资深算法专家,优酷算法中央卖力人。
2010 年博士毕业于北京航空航天算夜学打算机学院数据挖掘方向,先后在百度、搜狗商务搜索部门从事算法策略研发事情。
2015 年加入阿里组建猜你喜好算法团队,将猜你喜好打造为手淘第一大导购场景,成为淘宝平台导购流量分发的核心入口。
2018 年起卖力优酷算法中央,组建认知实验室,推出了多模态搜索推举引擎、视频理解与智能天生平台等系列产品。
紧张研究方向为大规模分布式机器学习算法、多模态交互搜索推举系统、算法博弈论。