视频标注方法、装置、计算机设备及计算机可读存储介质与流程

文档序号：37338312发布日期：2024-03-18 18:05阅读：8来源：国知局

本技术涉及人工智能，具体涉及一种视频标注方法、装置、计算机设备及计算机可读存储介质。

背景技术：

1、视频技术对视频的处理发挥重要的作用。视频技术可以包括视频分割技术、视频分类技术、视频信息提取技术、以及视频总结技术等。

2、其中，针对视频分割技术与视频分类技术，在对视频处理神经网络模型进行训练过程中，视频分割技术可以以视频分割训练任务对视频处理神经网络模型进行训练，视频分类技术可以以作为视频分类训练任务对视频处理神经网络模型进行训练。但是，采用视频分割训练任务和视频分类训练任务在对视频处理神经网络模型进行训练的过程中，会导致训练误差的累积，或导致视频处理神经网络模型的模型参数难以收敛到最优的参数，从而导致训练后的视频处理神经网络模型预测不准确。

3、综上，现有存在训练后的视频处理神经网络模型预测不准确的问题。

技术实现思路

1、本技术实施例提供一种视频标注方法、装置、计算机设备及计算机可读存储介质，能够提高训练后视频标注模型预测的准确性和训练后视频标注模型的预测效率。

2、一种视频标注方法，包括：

3、获取视频样本，以及获取标签体系对应的视频标注模型，标签体系包括原始标签的多个扩展标签，多个扩展标签之间在视频属性上具有关联关系，扩展标签为对原始标签进行扩展得到的标签，视频样本包括多个视频基本片段；

4、利用视频标注模型对视频基本片段进行多模态视频属性特征的特征提取，得到多模态视频属性特征序列，多模态视频特征序列包括每一视频基本片段对应的多模态视频属性特征；

5、利用视频标注模型根据多模态视频属性特征，对视频基本片段进行视频属性标注信息的预测，得到视频基本片段的视频属性标注信息；

6、根据视频属性标注信息和扩展标签，对视频标注模型的模型参数进行收敛，得到训练后视频标注模型，以通过训练后视频标注模型对待标注视频进行标注。

7、相应地，本技术实施例提供一种视频标注装置，包括：

8、获取单元，用于获取视频样本，以及获取标签体系对应的视频标注模型，标签体系包括原始标签的多个扩展标签，多个扩展标签之间在视频属性上具有关联关系，扩展标签为对原始标签进行扩展得到的标签，视频样本包括多个视频基本片段；

9、提取单元，用于利用视频标注模型对视频基本片段进行多模态视频属性特征的特征提取，得到多模态视频属性特征序列，多模态视频特征序列包括每一视频基本片段对应的多模态视频属性特征；

10、预测单元，用于利用视频标注模型根据多模态视频属性特征，对视频基本片段进行视频属性标注信息的预测，得到视频基本片段的视频属性标注信息；

11、标注单元，用于根据视频属性标注信息和扩展标签，对视频标注模型的模型参数进行收敛，得到训练后视频标注模型，以通过训练后视频标注模型对待标注视频进行标注。

12、在一些申请实施例中，预测单元，可以用于利用视频标注模型根据多模态视频属性特征，对视频基本片段进行扩展类别的分类处理，得到视频基本片段的扩展类别，扩展类别为对视频标注模型的原始分类类别进行扩展得到的类别；根据扩展类别，确定视频基本片段的视频内容信息和视频基本片段的视频位置信息；根据视频内容信息和视频位置信息，生成视频基本片段的视频属性标注信息。

13、在一些申请实施例中，标注单元，还可以用于利用视频标注模型根据多模态视频属性特征，对视频基本片段进行原始分类类别的分类处理，得到视频基本片段的原始分类类别；根据扩展标签对原始分类类别进行扩展处理，得到视频标注模型的扩展类别。

14、在一些申请实施例中，扩展标签包括携带视频位置信息的视频内容信息标签；标注单元，还可以用于根据原始分类类别，获取视频基本片段的原始视频内容信息；根据携带视频位置信息的视频内容信息标签和原始视频内容信息，对视频标注模型进行训练，以得到视频标注模型的扩展类别。

15、在一些申请实施例中，提取单元，可以用于利用视频标注模型中的第一特征提取层对视频基本片段进行视频帧属性特征提取，得到视频基本片段的视频帧属性特征；利用视频标注模型中的第二特征提取层对视频基本片段进行语音属性特征提取，得到视频基本片段的语音属性特征；利用视频标注模型中的第三特征提取层对视频基本片段进行文本属性特征提取，得到视频基本片段的文本属性特征；根据视频帧属性特征、语音属性特征和文本属性特征，生成多模态视频属性特征序列。

16、在一些申请实施例中，提取单元，可以用于对视频帧属性特征、语音属性特征和文本属性特征进行融合处理，以得到多模态视频属性特征；根据多模态视频属性特征，构建多模态视频属性特征序列。

17、在一些申请实施例中，获取单元，可以用于获取待处理视频，并获取待处理视频中视频帧的目标像素值；根据视频帧的目标像素值，对待处理视频进行分割处理，得到待处理视频的视频基本片段；根据视频基本片段，生成视频样本。

18、在一些申请实施例中，获取单元，可以用于获取视频帧中每相邻的两个目标视频帧；若两个目标视频帧分别对应的目标像素值之间的差异值小于预设像素值阈值，则生成第一分割信息，第一分割信息为表征两个目标视频帧属于相同视频基本片段的信息；根据第一分割信息，生成待处理视频的视频基本片段。

19、在一些申请实施例中，标注单元，可以用于获取待标注视频；利用训练后视频标注模型对待标注视频进行扩展类别的分类处理，得到待标注视频的目标扩展类别；根据目标扩展类别，对待标注视频进行标注，得到标注后视频。

20、此外，本技术实施例还提供一种计算机设备，包括存储器和处理器；存储器存储有计算机程序，处理器用于运行存储器内的计算机程序，以执行本技术实施例提供的任一种视频标注方法。

21、此外，本技术实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本技术实施例提供的任一种视频标注方法。

22、此外，本技术实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本技术实施例所提供的任一种视频标注方法。

23、此外，本技术实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本技术实施例所提供的任一种视频标注方法。

24、本技术实施例可以获取视频样本，以及获取标签体系对应的视频标注模型，标签体系包括原始标签的多个扩展标签，多个扩展标签之间在视频属性上具有关联关系，扩展标签为对原始标签进行扩展得到的标签，视频样本包括多个视频基本片段；利用视频标注模型对视频基本片段进行多模态视频属性特征的特征提取，得到多模态视频属性特征序列，多模态视频特征序列包括每一视频基本片段对应的多模态视频属性特征；利用视频标注模型根据多模态视频属性特征，对视频基本片段进行视频属性标注信息的预测，得到视频基本片段的视频属性标注信息；根据视频属性标注信息和扩展标签，对视频标注模型的模型参数进行收敛，得到训练后视频标注模型，以通过训练后视频标注模型对待标注视频进行标注；由于本技术实施例可以利用视频标注模型对视频基本片段进行多模态视频属性特征的特征提取，得到多模态视频属性特征序列，如此可以基于多模态视频属性特征序列中的模态视频属性特征更准确地对视频属性标注信息进行预测，进而可以基于视频属性标注信息以及在视频属性上具有关联关系的扩展标签对视频标注模型进行训练，将视频分割训练任务与视频分类训练任务两个任务统一为一个序列标注任务，从而一阶段地解决视频分割训练任务与视频分类训练任务，提高对视频标注模型的训练速度并减少损失误差的累积；同时可以让视频分割训练任务与视频分类训练任务有同一个优化目标，提高训练后视频标注模型预测的准确性和训练后视频标注模型的预测效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔凌峰,刘烨,尹迪
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：半导体结构及其形成方法、存储器与流程
上一篇：数据处理方法、装置、网络设备和存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。