一种基于多模态的影视剧剧情分割算法的制作方法

文档序号：37471332发布日期：2024-03-28 18:54阅读：10来源：国知局

本发明涉及多模态识别领域，更具体的说是涉及一种基于多模态的影视剧剧情分割算法。

背景技术：

1、得益于目前ai领域的突飞猛进，在自然语言nlp、视觉cv、ocr、aigc等关键技术都取得了大的突破，使得对视频的理解成为可能。

2、视频本质上是由：文字、声音、图像加上时间组成的，对视频的理解可以分别从文字、声音、图像等多个维度开始。

3、文字的理解底层是nlp自然语言技术的应用，通过提取视频中的台词，对台词进行语义理解和上下文分析，最终可以完成从文字维度对视频的理解。

4、声音的理解底层是aigc的声音转文字、声纹特征识别、声音情绪的应用，通过提取视频中的人物对话和背景音乐等，将人物对话还原为人物对话台词，通过声纹特征识别，得到台词对应的角色，并结合语义理解和上下文分析，便可以推理出有人物、有对话、有细节的简单剧本。

5、图像的理解底层是图像识别的应用。一部视频是由很多帧图像构成的，将视频按照特定的帧进行分割，得到很多的图片，对分割出来的图片进行人物的识别，情绪的识别、场景的识别等，可以更精准的感知视频的更多要素和特征。

6、基于以上对视频的多模态的理解，可以得到带时间序列的台词，结合上下文和语义分析以及对应的台词密度，可以得到台词维度的剧情开始和结束时间。

7、通过对背景音响度和说话人响度的识别，可以得到声音维度的剧情开始和结束时间。

8、通过对不同帧照片的场景识别，可以得到图像维度的场景开始和结束时间。

9、结合台词维度、声音维度、图像维度的数据，通过取交集和差集的方式，可以得到置信度最高的剧情的开始和结束时间。

10、现有技术可以准确且有效的解决无背景音乐场景的分割，对于有背景音乐或者环境吵杂的场景，会存在分割不精准的情况。

技术实现思路

1、有鉴于此，本发明提供了一种基于多模态的影视剧剧情分割算法。

2、为了实现上述目的，本发明采用如下技术方案：

3、一种基于多模态的影视剧剧情分割算法，包括以下步骤：

4、获取到原始的影视剧原始视频后，使用ffmpeg工具对视频帧率进行解析；

5、根据原始帧率，计算需要切分的帧数，将每秒的视频切分为静止图片，使用ffmpeg工具对视频的静止图片进行图片序列提取；

6、使用ocr识别技术，对图片序列识别，得到图片和识别出来的台词映射表；

7、根据图片的名称，计算出图片所处的时间戳，进而得出每句台词的开始时间a和结束时间b；

8、使用ffmpeg工具提取原始视频中的音频信息，使用音频转文字的大模型whisper，将音频转为带有时间序列的台词，进而得出每句台词的开始时间a和结束时间b；

9、将开始时间a与开始时间a、结束时间b和结束时间b校对，并根据校对结果使用ffmpeg进行视频的切割，得到最终切割后的视频列表。

10、优选的，ocr技术的具体步骤包括：预处理、分割、特征提取和字符识别。

11、优选的，对比开始时间a、结束时间b和开始时间a、结束时间b，误差在300ms之内的，以开始时间a、结束时间b时间为准，误差超过300ms的，人工进行校对。

12、优选的，基于图片序列采用滑动窗口算法，以固定的时间为窗口大小，计算每个窗口内的台词数量，进而得到该窗口的台词密度，对相对台词密度低的地方打上标记，记录对应的时间。

13、优选的，对于音频信号使用基于rms能量检测的滑动窗口算法对音频进行分割处理，将音频信号等分成固定长度时间窗口，计算每个窗口的rms能量值，通过滑动窗口判断相邻窗口rms能量变化幅度，根据幅度变化确定音频转场的位置，对音频转场位置打上标记，记录对应的时间。

14、优选的，还包括使用场景检测库pyscenedetect，按顺序比较每个帧以查找内容的更改。

15、经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于多模态的影视剧剧情分割算法，采用多模态的视频理解技术，从文字、音频、图像等多个维度，对影视剧类的视频的剧情进行理解，并可以准确的标记出剧情的开始和结束，从而有效的对影视剧的剧情进行分割。

技术特征：

1.一种基于多模态的影视剧剧情分割算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态的影视剧剧情分割算法，其特征在于，ocr技术的具体步骤包括：预处理、分割、特征提取和字符识别。

3.根据权利要求1所述的一种基于多模态的影视剧剧情分割算法，其特征在于，对比开始时间a、结束时间b和开始时间a、结束时间b，误差在300ms之内的，以开始时间a、结束时间b时间为准，误差超过300ms的，人工进行校对。

4.根据权利要求1所述的一种基于多模态的影视剧情分割算法，其特征在于，基于图片序列采用滑动窗口算法，以固定的时间为窗口大小，计算每个窗口内的台词数量，进而得到该窗口的台词密度，对相对台词密度低的地方打上标记，记录对应的时间。

5.根据权利要求1所述的一种基于多模态的影视剧情分割算法，其特征在于，对于音频信号使用基于rms能量检测的滑动窗口算法对音频进行分割处理，将音频信号等分成固定长度时间窗口，计算每个窗口的rms能量值，通过滑动窗口判断相邻窗口rms能量变化幅度，根据幅度变化确定音频转场的位置，对音频转场位置打上标记，记录对应的时间。

6.根据权利要求1所述的一种基于多模态的影视剧情分割算法，其特征在于，还包括使用场景检测库pyscenedetect，按顺序比较每个帧以查找内容的更改。

技术总结
本发明公开了一种基于多模态的影视剧剧情分割算法，涉及多模态识别领域。包括：获取到原始的影视剧原始视频后，使用ffmpeg工具对视频帧率进行解析；根据图片的名称，计算出图片所处的时间戳，进而得出每句台词的开始时间a和结束时间b；使用ffmpeg工具提取原始视频中的音频信息，使用音频转文字的大模型whisper，将音频转为带有时间序列的台词，进而得出每句台词的开始时间A和结束时间B；将开始时间a与开始时间A、结束时间b和结束时间B校对，并根据校对结果使用ffmpeg进行视频的切割，得到最终切割后的视频列表。本发明可以准确的标记出剧情的开始和结束，从而有效的对影视剧的剧情进行分割。

技术研发人员：徒旺
受保护的技术使用者：上海德莫微聚网络科技有限公司
技术研发日：
技术公布日：2024/3/27

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徒旺
技术所有人：上海德莫微聚网络科技有限公司
我是此专利的发明人

上一篇：一种碳点联合电膜强化污泥甲烷转化和抗膜污染的系统
上一篇：一种排水渠水体金属含量监测装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。