「 Target 系列论坛」正式上线!

精准聚焦细分领域核心议题,

汇聚机构、专家、媒体上风资源,

基于专业深度调研,

Target 系列论坛  多模态AI视频分析技能及应用线上直播回忆

呈现威信趋势判断,

以家当链高下游深一步的对接,

匆匆成多一次的思想碰撞与灵感激发!

6 月 8 日,机器之心特殊策划出品的「 Target 系列论坛」首期活动以「多模态 AI 视频剖析:技能及运用」为主题,在机器之心机动组视频号上以直播办法成功举办。

回放链接:https://jmq.h5.xeknow.com/s/4A2ujw

首期活动约请到来自中科院自动化研究所、优酷、OPPO、腾讯等企业的代表,互换磋商多模态 AI 视频剖析技能在实际场景中的现状与寻衅,还就多模态技能趋势、市场规模、家当前景等话题进行了充分互换。

精彩内容回顾

王金桥 线上直播图片

分享高朋:王金桥,中国科学院自动化研究所研究员

分享主题:《“紫东太初”多模态大模型,让机器具有理解和想象力》

丁飞 线上直播图片

分享高朋:丁飞,优酷技能中央高等算法专家,卖力 AI 智能生产

分享主题:《优酷 AI 视频智能生产系统》

郭彦东 线上直播图片

分享高朋:郭彦东,OPPO 公司智能感知首席科学家

OPPO 研究院部分技能骨干与实验室卖力人

分享主题:《 Vision+:An Effective Way of Environmental Perception and Human Understanding 》

特邀主持人:赵行,清华大学交叉信息院助理教授、博士生导师

特邀高朋:文镇,腾讯信息平台与做事线 AI 算法卖力人

末了,以「多模态 AI 视频剖析:进展与寻衅」为圆桌主题,清华大学交叉信息院助理教授赵行作为特邀主持人,与王金桥、郭彦东以及特邀高朋腾讯信息平台与做事业务线 AI 算法卖力人文镇展开对话,从各自视角出发谈论了多模态内容感知和理解技能在实际场景中的现状与寻衅。

以下为圆桌谈论内容,我们进行了不改变原意的编辑、整理:

Q:多模态内容剖析技能在高朋所在领域有哪些进展?

文镇:工业界是非常看重性价比的,腾讯有大量视频须要分类打标签,以是多模态处理从一开始就有。
一开始视频处理以文本为主,后续加入其它模态以提升性能。
随着模型能力不断提升、算力价格不断低落,腾讯开始加入全体视频的帧时序特色、音频等特色建模,真正做成多模态,用于对视频分类,分类的种别达到上千类。
作为短视频推举的核心要素,分类性能终极能够达到 95% 以上,多模态浸染非常明显。
之前利用人工运营审核的海量标签进行端到真个监督演习较多,最近一两年预演习利用增多,通过大规模预演习模型能够显著降落 数据标注的哀求,用 30%、40% 的小样本数据就能够得到较好运用成果。

郭彦东:我想跟大家分享 OPPO 比较有特色的是,手机是作为一个智能硬件终端,搭载的传感器较多,这些不同模态传感器结合起来,可以做很多情景感知干系事情。
比如,把腕表的 imu 跟手机的 imu 结合就能够对人所处状态有一个好的判断,把麦克风数据和环境感知数据结合就能对用户语义高下文比较精准理解判断。
这也是一种对付多模态技能的运用,当然很多运算都只是在用户设备端侧内部发生,不涉及陵犯用户隐私。

作为一个通讯设备,手机的 imu、无线射频、无线传导等传感器等都可以更多地融入多模态运用。
摄影机、麦克风等传感器能够捕获的信息,一定程度上已经超过了人眼、耳能够看到和听到的范畴,只是在后续的智能认知部分做得还不充分,不能像人一样聪明地把各种传感器信息凑集利用,这些旗子暗记的有效利用也是很故意思的研究课题。

Q:多模态剖析技能有很多运用领域,如视频推举、搜索、安防、自动驾驶等,有哪些共通的值得关注或者研究的问题?

王金桥:第一个难题,图像、声音等多模态信息如何进行空间和韶光的对齐和领悟;第二个难题,如何利用多模态信息进行协同领悟,充分发挥其跨域特性;末了一个共性问题,场景、话题都在不断刷新,各种数据都存在长尾问题,如何使预演习大模型进行自动聚类、打通所有信息会是一个研究方向。
无论是学术界、工业界,从多传感领悟、从数据剖析、从长尾问题等方向出发还有很多路要走,须要产学研一起研究。

文镇:不同模态的关联可以产生更多的预演习任务,比如很难通过视频 CV 模态来获取高层次语义,像视频中的爱国激情亲切从 CV 模态就很难检测到,须要通过用户评论、标题等文本模态以及弹幕等用户交互旗子暗记来获取,帮助演习大模型具有更强能力。
对付家当界来说,一个通用大模型能做非常多事情,但落地本钱比较高,业界会去探索若何针对实际业务需求,做数量级更小、繁芜度更低的模型,这是业界一个很通用也很主要的方向。

Q:过去对付视频这类繁芜场景内容会进行风雅标注,近两年涌现了弱标注后进行大模型演习等方案,该如何在不同方案间做到平衡?

文镇:从工业界角度来讲,风雅标注是一件非常昂贵的事。
大数据预演习模型可以作为一个弱标注员,利用它蕴藏的海量知识,预先在数据上打上一些弱标记,以帮助做风雅标注的员工减少事情量,一方面可以减少须要标注样本数量,另一方面可以给出可选范围减小人类标注员标注难度。
这是大模型一个非常好的运用处景。

郭彦东:手工标注的精度在很多方面已经比不上打算机识别的精度,如果还是希望从标注数据里面学习新知识以提升模型性能,就须要模型演习方面的创新和技巧,比如演习很重的大模型,再用蒸馏或者 teacher - student 办法把大模型的知识通报到小模型上,既能学到标注的知识,也能一定程度上起到去噪效果。
总体而言,企业在标注上的预算是约束条件,在此条件下应对标注的数量、质量联合优化,以取得最好成效。

王金桥:人工智能当前阶段还是依赖于大量的标注数据,有了大量的标注数据,才能担保模型在场景中运用得好。
然而在一个开放环境,模型运用的过程中新的数据还在不断结合,样本空间实际是不可控的。
场景领悟的情形下,如何对根本模型定义算法边界?可以通过预演习让模型学习的特色空间不至于占比特殊小,这样模型健壮性更强,不随意马虎误报。
其余,大模型加微调的模式较为常见,通过其他模态的辅导、人不断在运用处景中的反馈和不断调度库的规模,使模型能够不断进行在线更新,既担保模型泛化能力,又担保对付新样本的接管能力。

Q:未来三五年,在多模态领域有哪些值得关注的技能发展?

王金桥:大模型会发展成为平台性技能,可能是当代人工智能更加遍及的高效路径。
大模型演习速率提升性能增强、模型性能评价标准、知识嵌入、模型小型化会是我们重点发展方向。

文镇:产品上线后常日会基于不雅观察标注一些小样本数据,也会基于用户行为产生各种弱关联数据,如何将这些数据用到大模型演习,通过多任务办法增强模型能力,会是一个有希望的方向。

郭彦东:在前领悟的大背景下,通过将多模态数据放入具有领悟浸染的神经网络,推出不同模态的数据,并有效地在某些层次实现深度领悟,这一方向值得深入挖掘。

此外,对付不雅观众关注的 “动态视频剖析在各大视频网站发展现状”、“现有多模态大模型特点”、“低资源条件下的研究方向” 等问题,高朋们也分享了一手信息,给出了可行建议。
更多详细内容可以通过直播回放理解。

后续机器之心「Target 系列论坛」将持续推出形式多样的活动,每期聚焦一个人工智能特定领域或主题,高质量、高浓度呈现垂直领域关键信息和专业洞见,欢迎大家持续关注机器之心"大众号动态。