目前,AI电影剪辑还处于一个低级的阶段,还存在着很多的问题和寻衅,比如如何准确地理解电影的内容,如何有效地天生得当的讲授文案,如何精确地匹合营适的视频片段,如何优雅地制作出流畅的电影短视频等。
本日我将给大家先容另一个取巧的思路,通过字幕批量剪辑电影短视频。
由于文章较长,代码很多,本日是全文的第一个部分-设计思路。
设计构思我们的目标是希望能做一款批量电影视频讲授短视频的AI工具,目前来看从视频->画面->文案->讲授,对付token耗费很大,并且对模型的视觉哀求高。
基于以上难点构思了其余一种方案,目前来看视频讲授的核心要点是讲授内容与截取视频片段的匹配度。如果走视觉方案难度较大,可以考虑通过大模型完成讲授文案与电影字幕来进行关联,基于字幕来锚定时间节点,从而获取某段(讲授文案)以及与其(原始电影干系视频片段的起止韶光点)之间的关系。
详细步骤
我们的AI工具的设计思路,是基于电影的字幕信息,来赞助AI剖析电影的内容,天生讲授文案,匹配视频片段,制作电影短视频。 原始输入的材料如下:
1.电影全片2.匹配的电影字幕3.电影名称终极输出如下:
电影讲授文案(便于二次配音)已完成理解说文案配音的电影短视频详细的步骤如下:
第一步:利用LLM(Large Language Model,大型措辞模型)天生讲授文案。我们首先根据电影的名称,从互联网上拉取电影的干系信息,比如简介,评价,类型,主题,风格等,然后结合电影的字幕信息,利用LLM天生一篇适宜的讲授文案。我们的目标是天生一篇能够概括电影的紧张内容,突出电影的特点,吸引读者的兴趣,勾引读者的思考的讲授文案。我们须要为LLM供应一个得当的prompt(提示),来辅导它的天生过程。我们的prompt的格式如下:电影名称:{电影名称}电影信息:{电影信息}电影字幕:{电影字幕}讲授文案:
个中,电影名称是电影的标题,电影信息是电影的干系信息,电影字幕是电影的字幕信息,讲授文案是LLM要天生的输出。我们将这个prompt作为LLM的输入,让它自动地完成讲授文案的天生。
第二步:利用LLM分解讲授文案为多个讲授单元。我们将上一步天生的讲授文案,作为LLM的输入,利用LLM基于故事情节的发展,电影场景的变革,将讲授文案分解为多个讲授单元。每个讲授单元是一个完全的语句,能够描述电影的一个片段,一个细节,一个主题,一个不雅观点等。我们须要为LLM供应一个得当的prompt,来辅导它的分解过程。我们的prompt的格式如下:讲授文案:{讲授文案}讲授单元:- {讲授单元1}- {讲授单元2}- {讲授单元3}- ...
个中,讲授文案是上一步天生的讲授文案,讲授单元是LLM要天生的输出。我们将这个prompt作为LLM的输入,让它自动地完成讲授单元的分解。
第三步:利用LLM匹配讲授单元和电影字幕,锚定时间节点。我们将上一步天生的讲授单元和电影的字幕信息,作为LLM的输入,利用LLM完成讲授单元和电影字幕的匹配,基于字幕来锚定时间节点,从而获取某个讲授单元以及与其对应的原始电影干系视频片段的起止韶光点之间的关系。我们的目标是找到最得当的视频片段,来合营讲授单元的内容,形成一个完全的电影短视频单元。我们须要为LLM供应一个得当的prompt,来辅导它的匹配过程。我们的prompt的格式如下:
讲授单元:{讲授单元}电影字幕:{电影字幕}韶光节点:{开始韶光}-{结束韶光}
个中,讲授单元是上一步天生的讲授单元,电影字幕是电影的字幕信息,韶光节点是LLM要天生的输出。我们将这个prompt作为LLM的输入,让它自动地完成韶光节点的锚定。
第四步:如果某个讲授单元文案内容较长,还须要递归将讲授单元进行拆分,实行与视频片段的匹配,一样平常一个讲授单元该当是一个完全的语句但不超过30s。我们将上一步天生的讲授单元和韶光节点,作为LLM的输入,利用LLM判断讲授单元的长度是否超过30s,如果超过,就将讲授单元进一步拆分为更小的讲授单元,并重新实行与视频片段的匹配,直到所有的讲授单元都不超过30s。我们须要为LLM供应一个得当的prompt,来辅导它的拆分过程。我们的prompt的格式如下:讲授单元:{讲授单元}韶光节点:{开始韶光}-{结束韶光}讲授单元拆分:- {讲授单元1},韶光节点:{开始韶光1}-{结束韶光1}- {讲授单元2},韶光节点:{开始韶光2}-{结束韶光2}- {讲授单元3},韶光节点:{开始韶光3}-{结束韶光3}- ...
个中,讲授单元是上一步天生的讲授单元,韶光节点是上一步天生的韶光节点,讲授单元拆分是LLM要天生的输出。我们将这个prompt作为LLM的输入,让它自动地完成讲授单元的拆分。
第五步:基于韶光节点分段将讲授文案单元tts转化为讲授音频,基于音频的长度及讲授文案匹配的视频韶光节点截取原始视频,并整合成视频后配音。我们将上一步天生的讲授单元和韶光节点,作为tts(Text-to-Speech,文本转语音)的输入,利用tts将讲授文案单元转化为讲授音频,然后根据讲授音频的长度和解说文案匹配的视频韶光节点,从原始电影中截取相应的视频片段,并将讲授音频和视频片段整合成一个电影短视频单元。我们可以利用一些现有的tts和视频处理的工具,来完成这一步的操作。第六步:循环剪辑每个讲授单元,并在剪辑时,在每个单元间增加转场效果,并终极将所有单元整合到一起形成完成电影视频讲授短视频输出。我们将上一步天生的电影短视频单元,按照讲授文案的顺序,依次进行剪辑,同时在每个单元之间增加一些转场效果,比如淡入淡出,切换,缩放等,来增加电影短视频的流畅性和都雅性。末了,我们将所有的电影短视频单元整合到一起,形成一个完全的电影视频讲授短视频输出。我们可以利用一些现有的视频编辑的工具,来完成这一步的操作。通过这六个步骤,我们就可以实现基于字幕的AI电影剪辑的功能,从而制作出精彩的电影短视频。下篇文章,我们将先容我们的AI工具的实现过程,包括利用的技能,模型,数据,算法,代码等细节,以及碰着的问题和解决方案。
总结在本文中,我们先容了一种基于字幕的AI电影剪辑的方法的设计思路,它可以利用电影的字幕信息,来赞助AI剖析电影的内容,天生讲授文案,匹配视频片段,制作电影短视频。
觉得写的不错的可以点击AI电影剪辑-巧用字幕批量剪辑电影短视频(一)关注我,我会持续为你更新精彩内容。
在后续内容中我们将连续详细地先容我们的AI工具的实现过程(包含详细代码示例),效果展示,以及未来展望和改进方向。我们希望通过这种方法,能够为AI电影剪辑的发展,供应一种新的思路和方案,也能够为电影的不雅观看,学习,分享,欣赏,供应一种新的办法和体验。