机器之心编辑部
Vista-LLaMA 在处理长视频内容方面的显著上风,为视频剖析领域带来了新的办理框架。
近年来,大型措辞模型如 GPT、GLM 和 LLaMA 等在自然措辞处理领域取得了显著进展,基于深度学习技能能够理解和天生繁芜的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的寻衅 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态变革,这使得大措辞模型从视频中提取信息变得更为繁芜。
面对这一寻衅,字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大措辞模型 Vista-LLaMA。Vista-LLaMA 专门针对视频内容的繁芜性设计,能够有效地将视频帧转换为准确的措辞描述,从而极大地提高了视频内容剖析和天生的质量。
论文主页:https://jinxxian.github.io/Vista-LLaMA/
图 1
技能创新路径
现有多模态视觉与措辞模型在处理视频内容时,常日将视频帧转化为一系列的视觉 token,并与措辞 token 结合以天生文本。然而,随着天生文本长度的增加,视频内容的影响每每逐渐减弱,导致天生的文本越来越多地偏离原视频内容,产生所谓的 “幻觉” 征象。
Vista-LLaMA 通过创新的办法处理视频和文本间的繁芜互动,打破了传统视频措辞模型的限定。Vista-LLaMA 的核心创新在于其独特的视觉与措辞 token 处理办法。不同于其他模型,它通过坚持视觉和措辞 token 间的均等间隔,有效避免了文本天生中的偏差,尤其是在长文本中更为显著。这种方法大幅提高了模型对视频内容的理解深度和准确性。
图 2
Vista-LLaMA 采取了一种改良的把稳力机制 —— 视觉等间隔 token 把稳力(EDVT),它在处理视觉与文本 token 时去除了传统的相对位置编码,同时保留了文本与文本之间的相对位置编码。EDVT 机制通过特定的函数处理隐蔽层输入,有效区分视觉 token 来源。
详细而言,它首先对输入进行查询、键和值的映射转换,接着对查询和键输入运用旋转位置编码(RoPE),分别打算带 RoPE 和不带 RoPE 的把稳力权重。随后,根据视觉 token 的存在与否合并这两种把稳力权重,通过 softmax 函数实现把稳力的归一化,并终极通过基于把稳力权重的线性映射更新表示,天生输出结果。这种创新使得多模态大措辞模型能够更加关注视频的内容,尤其在繁芜的视频场景中,能够有效地捕捉关键视觉元素,提升了文本天生的质量和干系性。
图 3
同时,该模型引入的序列化视觉投影器为视频中的韶光序列剖析供应了新的视角,它不仅能够处理当前视频帧,还能利用前一帧的信息,从而增强视频内容的连贯性和时序逻辑。
视觉投影器的浸染是将视频特色映射到措辞嵌入空间,以便大型措辞模型领悟和处理视觉与文本输入。如图 4 所示,早期的视觉投影器常日利用线性层或查询转换器(Q-Former)直接将帧特色转换为措辞 token。然而,这些方法忽略了韶光关系,限定了措辞模型对视频的全面理解。Vista-LLaMA 中引入了序列化视觉投影器,它通过线性投影层编码视觉 token 的韶光高下文,增强了模型对视频动态变革的理解能力,这对付提升视频内容剖析的质量至关主要。
图 4
基准测试结果
Vista-LLaMA 在多个开放式视频问答基准测试中展现了卓越性能。它在 NExT-QA 和 MSRVTT-QA 测试中取得了打破性成绩,这两个测试是衡量视频理解和措辞天生能力的关键标准。在零样本 NExT-QA 测试中,Vista-LLaMA 实现了 60.7% 的准确率。而在 MSRVTT-QA 测试中达到了 60.5% 的准确率,超过了目前所有的 SOTA 方法。这些成绩在行业中属于前辈水平,显著超越了其他 SOTA 模型,如 Video-ChatGPT 和 MovieChat。
图 5
这些测试结果证明了 Vista-LLaMA 在视频内容理解和描述天生方面的高效性和精准性,Vista-LLaMA 能够准确理解和描述视频内容,显示了其强大的泛化能力。这些成绩不仅展示了 Vista-LLaMA 在理解繁芜视频内容方面的能力,还证明了其在多模态措辞处理领域的领先地位。
数据集:CineClipQA
图 6
与 Vista-LLaMA 一同提出的还有 CineClipQA 新数据集。
CineClipQA 包含了 153 个精选视频片段,这些片段来自五部风格和叙事手腕互异的电影。每个片段代表电影情节的一个或多个独特部分,并附有 16 个量身定制的问题,共计 2448 个问题。问题分为系统提示和问题两部分:
系统提示供应了当前视频片段中关键角色的基本信息,并在必要时为角色的初始行动供应提示。问题紧张分为五类:识别、韶光性(预测)、空间性(互动)、意图和感知。详细来说,识别包括地点和行动的问题;韶光性涉及下一个行动、之前的行动、同时发生的行动和预测行动的问题;空间性涉及物体与人之间的空间信息问题;意图涉及行动目的地三种相似问题;末了,感知检说情绪识别和讯问 “如何”(办法、态度等)。该研究还供应了所有 16 种类型的详细阐明和相应案例。在 CineClipQA 数据集中,Vista-LLaMA 也表现出了卓越的性能。
图 7
简言之,Vista-LLaMA 在处理长视频内容方面的显著上风,为视频剖析领域带来了新的办理框架,推动人工智能在视频处理和内容创作方面的发展,预示着未来多模态交互和自动化内容天生领域的广泛机遇。
更多详情,请访问项目页面 [https://jinxxian.github.io/Vista-LLaMA]。
关于字节跳动智能创作团队
智能创作团队是字节跳动音视频创新技能和业务中台,覆盖了打算机视觉、图形学、语音、拍摄编辑、殊效、客户端、做事端工程等技能领域,借助字节跳动丰富的业务场景、根本举动步伐资源和良好的技能协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式向公司内部各业务线以及外部互助客户供应业界前沿的内容理解、内容创作、互动体验与消费的能力和行业办理方案。
目前,智能创作团队已通过字节跳动旗下的云做事平台火山引擎向企业开放技能能力和做事。