一种基于多模态的影视剧剧情分割算法的制作方法

文档序号:37471332发布日期:2024-03-28 18:54阅读:10来源:国知局
一种基于多模态的影视剧剧情分割算法的制作方法

本发明涉及多模态识别领域,更具体的说是涉及一种基于多模态的影视剧剧情分割算法。


背景技术:

1、得益于目前ai领域的突飞猛进,在自然语言nlp、视觉cv、ocr、aigc等关键技术都取得了大的突破,使得对视频的理解成为可能。

2、视频本质上是由:文字、声音、图像加上时间组成的,对视频的理解可以分别从文字、声音、图像等多个维度开始。

3、文字的理解底层是nlp自然语言技术的应用,通过提取视频中的台词,对台词进行语义理解和上下文分析,最终可以完成从文字维度对视频的理解。

4、声音的理解底层是aigc的声音转文字、声纹特征识别、声音情绪的应用,通过提取视频中的人物对话和背景音乐等,将人物对话还原为人物对话台词,通过声纹特征识别,得到台词对应的角色,并结合语义理解和上下文分析,便可以推理出有人物、有对话、有细节的简单剧本。

5、图像的理解底层是图像识别的应用。一部视频是由很多帧图像构成的,将视频按照特定的帧进行分割,得到很多的图片,对分割出来的图片进行人物的识别,情绪的识别、场景的识别等,可以更精准的感知视频的更多要素和特征。

6、基于以上对视频的多模态的理解,可以得到带时间序列的台词,结合上下文和语义分析以及对应的台词密度,可以得到台词维度的剧情开始和结束时间。

7、通过对背景音响度和说话人响度的识别,可以得到声音维度的剧情开始和结束时间。

8、通过对不同帧照片的场景识别,可以得到图像维度的场景开始和结束时间。

9、结合台词维度、声音维度、图像维度的数据,通过取交集和差集的方式,可以得到置信度最高的剧情的开始和结束时间。

10、现有技术可以准确且有效的解决无背景音乐场景的分割,对于有背景音乐或者环境吵杂的场景,会存在分割不精准的情况。


技术实现思路

1、有鉴于此,本发明提供了一种基于多模态的影视剧剧情分割算法。

2、为了实现上述目的,本发明采用如下技术方案:

3、一种基于多模态的影视剧剧情分割算法,包括以下步骤:

4、获取到原始的影视剧原始视频后,使用ffmpeg工具对视频帧率进行解析;

5、根据原始帧率,计算需要切分的帧数,将每秒的视频切分为静止图片,使用ffmpeg工具对视频的静止图片进行图片序列提取;

6、使用ocr识别技术,对图片序列识别,得到图片和识别出来的台词映射表;

7、根据图片的名称,计算出图片所处的时间戳,进而得出每句台词的开始时间a和结束时间b;

8、使用ffmpeg工具提取原始视频中的音频信息,使用音频转文字的大模型whisper,将音频转为带有时间序列的台词,进而得出每句台词的开始时间a和结束时间b;

9、将开始时间a与开始时间a、结束时间b和结束时间b校对,并根据校对结果使用ffmpeg进行视频的切割,得到最终切割后的视频列表。

10、优选的,ocr技术的具体步骤包括:预处理、分割、特征提取和字符识别。

11、优选的,对比开始时间a、结束时间b和开始时间a、结束时间b,误差在300ms之内的,以开始时间a、结束时间b时间为准,误差超过300ms的,人工进行校对。

12、优选的,基于图片序列采用滑动窗口算法,以固定的时间为窗口大小,计算每个窗口内的台词数量,进而得到该窗口的台词密度,对相对台词密度低的地方打上标记,记录对应的时间。

13、优选的,对于音频信号使用基于rms能量检测的滑动窗口算法对音频进行分割处理,将音频信号等分成固定长度时间窗口,计算每个窗口的rms能量值,通过滑动窗口判断相邻窗口rms能量变化幅度,根据幅度变化确定音频转场的位置,对音频转场位置打上标记,记录对应的时间。

14、优选的,还包括使用场景检测库pyscenedetect,按顺序比较每个帧以查找内容的更改。

15、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多模态的影视剧剧情分割算法,采用多模态的视频理解技术,从文字、音频、图像等多个维度,对影视剧类的视频的剧情进行理解,并可以准确的标记出剧情的开始和结束,从而有效的对影视剧的剧情进行分割。



技术特征:

1.一种基于多模态的影视剧剧情分割算法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态的影视剧剧情分割算法,其特征在于,ocr技术的具体步骤包括:预处理、分割、特征提取和字符识别。

3.根据权利要求1所述的一种基于多模态的影视剧剧情分割算法,其特征在于,对比开始时间a、结束时间b和开始时间a、结束时间b,误差在300ms之内的,以开始时间a、结束时间b时间为准,误差超过300ms的,人工进行校对。

4.根据权利要求1所述的一种基于多模态的影视剧情分割算法,其特征在于,基于图片序列采用滑动窗口算法,以固定的时间为窗口大小,计算每个窗口内的台词数量,进而得到该窗口的台词密度,对相对台词密度低的地方打上标记,记录对应的时间。

5.根据权利要求1所述的一种基于多模态的影视剧情分割算法,其特征在于,对于音频信号使用基于rms能量检测的滑动窗口算法对音频进行分割处理,将音频信号等分成固定长度时间窗口,计算每个窗口的rms能量值,通过滑动窗口判断相邻窗口rms能量变化幅度,根据幅度变化确定音频转场的位置,对音频转场位置打上标记,记录对应的时间。

6.根据权利要求1所述的一种基于多模态的影视剧情分割算法,其特征在于,还包括使用场景检测库pyscenedetect,按顺序比较每个帧以查找内容的更改。


技术总结
本发明公开了一种基于多模态的影视剧剧情分割算法,涉及多模态识别领域。包括:获取到原始的影视剧原始视频后,使用ffmpeg工具对视频帧率进行解析;根据图片的名称,计算出图片所处的时间戳,进而得出每句台词的开始时间a和结束时间b;使用ffmpeg工具提取原始视频中的音频信息,使用音频转文字的大模型whisper,将音频转为带有时间序列的台词,进而得出每句台词的开始时间A和结束时间B;将开始时间a与开始时间A、结束时间b和结束时间B校对,并根据校对结果使用ffmpeg进行视频的切割,得到最终切割后的视频列表。本发明可以准确的标记出剧情的开始和结束,从而有效的对影视剧的剧情进行分割。

技术研发人员:徒旺
受保护的技术使用者:上海德莫微聚网络科技有限公司
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1