视频处理方法、装置、电子设备及存储介质与流程

文档序号：35929680发布日期：2023-11-05 02:22阅读：30来源：国知局

本技术实施例涉及计算机，具体涉及一种视频处理方法、装置、电子设备及存储介质，其中，存储介质包括计算机可读存储介质。

背景技术：

1、实体是具有特殊意义的文本，每个实体通常对应有一个实体类型，例如，“南京市”是一个实体，而该“南京市”对应的“地名”是一个实体类型，如地点实体类型，即“南京市”是一个表示地点类型的实体。

2、随着信息的爆炸式增长，媒体平台中存在大量的视频片段，但是，这些视频片段往往缺乏实体类型或者实体标签的标注，不便于对视频片段进行编目或编辑，以至于用户难以通过针对实体和实体类型的标签对视频片段进行理解，而部分存在实体类型或者实体标签标注的视频片段也大多是人工识别标注的结果。因此，存在识别效率较低的问题。

3、而随着人工智能的发展，通过对视频中文本进行识别，进而分类出相应的实体类型或者实体标签逐渐得到实现，但是，该种方式仍存在准确性较低，效果不佳的情况。

技术实现思路

1、本技术实施例提供一种视频处理方法、装置、电子设备及存储介质，可以提升视频标签识别的准确性。

2、第一方面，本技术实施例提供了一种视频处理方法，包括：

3、对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息；

4、融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息；

5、根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果；

6、根据所述词关联关系结果确定所述文本信息包含的待识别短语；

7、确定所述待识别短语对应的目标实体类型；

8、根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

9、第二方面，本技术实施例还提供了一种视频处理装置，包括：

10、特征提取模块，用于对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息；

11、特征融合模块，用于融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息；

12、关系确定模块，用于根据所述字符多模态特征信息确定所述文本信息对应的词关联关系结果；

13、短语确定模块，用于根据所述词关联关系结果确定所述文本信息包含的待识别短语；

14、类型确定模块，用于确定所述待识别短语对应的目标实体类型；

15、标签确定模块，用于根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

16、其中，在本技术的一些实施例中，关系确定模块包括：

17、特征获取单元，用于将所述文本信息中每个字符对应的字符多模态特征信息输入到多层感知机中，得到任意两个字符之间的关联关系特征信息，所述任意两个字符包含所述文本信息中相邻的两个字符以及不相邻的两个字符；

18、关系分类单元，用于基于所述关联关系特征信息对所述任意两个字符之间的关联关系进行分类，得到词关联关系结果。

19、其中，在本技术的一些实施例中，类型确定模块包括：

20、第一类型确定单元，用于将任意两个字符的字符多模态特征信息输入到多层感知机中，得到以所述两个字符为首字符和尾字符的参考短语的参考实体类型；

21、第二类型确定单元，用于根据所述首字符、所述尾字符和所述参考实体类型，以及所述待识别短语的首字符和尾字符，确定所述待识别短语的目标实体类型。

22、其中，在本技术的一些实施例中，所述待识别短语是由所述文本信息中连续的字符构成的第一实体且包含由所述文本信息中连续的字符构成的第二实体，所述第一实体与所述第二实体不同；

23、或待识别短语包含由所述文本信息中非连续的字符构成的实体。

24、其中，在本技术的一些实施例中，特征融合模块包括：

25、第一处理单元，用于根据所述音频特征信息和所述图像特征信息对所述文本特征信息进行增强处理，得到增强后文本特征信息；

26、第二处理单元，用于根据所述文本特征信息和所述图像特征信息对所述音频特征信息进行增强处理，得到增强后音频特征信息；

27、第三处理单元，用于根据所述音频特征信息和所述音频特征信息对所述图像特征信息进行增强处理，得到增强后图像特征信息；

28、融合单元，用于融合所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息。

29、其中，在本技术的一些实施例中，第一处理单元包括：

30、计算子单元，用于计算所述文本特征信息与所述音频特征信息之间的特征相似度；

31、权重确定子单元，用于根据所述特征相似度确定参考权重；

32、运算子单元，用于将所述参考权重和所述图像特征信息进行相乘运算，得到增强后文本特征信息。

33、其中，在本技术的一些实施例中，融合单元包括：

34、拼接子单元，用于将所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息进行拼接，得到拼接后综合特征信息；

35、融合单元，用于根据乘性参数和加性参数对所述拼接后综合特征信息进行激活处理，得到所述文本信息中每个字符对应的字符多模态特征信息。

36、第三方面，本技术实施例还提供了一种电子设备，电子设备包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面中的视频处理方法中的步骤或者实现上述第三方面中的视频处理方法中的步骤。

37、第四方面，本技术实施例还提供了一种存储介质，该存储介质包括计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的视频处理方法中的步骤。

38、第五方面，本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术实施例所述的各种可选实现方式中提供的方法。

39、其中，本技术实施例对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息，并对文本特征信息、音频特征信息和图像特征信息进行融合，得到文本信息中每个字符对应的字符多模态特征信息，根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果，根据所述词关联关系结果确定所述文本信息包含的待识别短语，确定所述待识别短语对应的目标实体类型，根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。其中，通过对视频中音频特征信息和图像特征信息的提取以及与文本特征信息的融合，达到以多模态的方式对文本模态特征信息进行补充，相较于相关技术中仅分析视频中的文本特征，本方案可以提升特征信息的准确性，进而提升后续标签识别的准确性。其中，通过多模态特征信息确定文本信息中各个字符之间的词关联关系结果，可以利用该词关联关系实现对连续文本和非连续文本对应的短语的识别，相较于现有技术中仅能识别出连续文本短语的方案，本方案可以提升短语识别的全面性和准确性，进而提升实体类型识别的全面性和准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林晨
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：图像标签校正模型的训练方法和装置与流程
上一篇：三维模型显示方法、装置、计算机设备和存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。