视频标签预测模型的处理方法、视频标签预测方法和装置与流程

文档序号:29615353发布日期:2022-04-13 11:20阅读:103来源:国知局
视频标签预测模型的处理方法、视频标签预测方法和装置与流程

1.本技术涉及计算机技术领域,特别是涉及一种视频标签预测模型的处理方法、视频标签预测方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着计算机技术和互联网技术的发展,视频成为人们获取信息的重要渠道之一,例如直播视频可以为人们提供实时的信息,电商视频可以为人们提供商品的信息,自媒体视频可以为人们提供生活中多方面的信息,等等。
3.在一些场景中,需要识别视频所属的视频标签,以基于视频标签对视频进行分类,或基于视频标签向用户推荐视频等。例如,对于《猫和老鼠》动画视频,识别其所属的标签为“动画”、“猫和老鼠”、“汤姆”等。目前,通常采用的视频标签识别方式为:提取目标视频的视频帧特征,融合视频帧特征获得固定维度的视频特征,基于视频特征预测视频标签。但是这种视频标签预测方式识别得到的视频标签不够准确。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提升视频标签识别准确性的视频标签预测模型的处理方法、视频标签预测方法、装置、计算机设备、存储介质和计算机程序产品。
5.本技术提供了一种视频标签预测模型的处理方法。所述方法包括:
6.获取样本视频及所述样本视频的至少一个标注标签,所述至少一个标注标签属于视频标签集合;
7.将所述样本视频划分为多个等长的视频片段;
8.通过视频标签预测模型分别对各所述视频片段进行标签预测,获得各所述视频片段分别对应的片段标签预测结果;所述片段标签预测结果包括视频片段属于所述视频标签集合中各标注标签的概率;
9.将各所述视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得所述样本视频对应的视频标签预测结果;所述视频标签预测结果包括所述样本视频属于所述视频标签集合中各标注标签的概率;
10.根据基于所述样本视频的至少一个标注标签与所述样本视频属于各标注标签的概率所构建的预测损失更新所述视频标签预测模型的模型参数,得到训练好的视频标签预测模型。
11.本技术还提供了一种视频标签预测模型的处理装置。所述装置包括:
12.获取模块,用于获取样本视频及所述样本视频的至少一个标注标签,所述至少一个标注标签属于视频标签集合;
13.划分模块,用于将所述样本视频划分为多个等长的视频片段;
14.预测模块,用于通过视频标签预测模型分别对各所述视频片段进行标签预测,获
得各所述视频片段分别对应的片段标签预测结果;所述片段标签预测结果包括视频片段属于所述视频标签集合中各标注标签的概率;
15.融合模块,用于将各所述视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得所述样本视频对应的视频标签预测结果;所述视频标签预测结果包括所述样本视频属于所述视频标签集合中各标注标签的概率;
16.更新模块,用于根据基于所述样本视频的至少一个标注标签与所述样本视频属于各标注标签的概率所构建的预测损失更新所述视频标签预测模型的模型参数,得到训练好的视频标签预测模型。
17.在一个实施例中,所述划分模块,还用于:确定所述样本视频的视频长度;根据视频长度与片段长度之间的正相关关系,确定所述样本视频的视频长度对应的片段长度;按照确定的所述片段长度,将所述样本视频划分为多个等长的视频片段。
18.在一个实施例中,所述划分模块,还用于:获取片段长度集合;从所述片段长度集合中随机选取片段长度;按照选取的所述片段长度,将所述样本视频划分为多个等长的视频片段。
19.在一个实施例中,所述划分模块,还用于:获取指定的片段长度;按照所述指定的片段长度,将所述样本视频划分为多个等长的视频片段。
20.在一个实施例中,所述融合模块,还用于:从各所述视频片段对应的片段标签预测结果中,确定对应相同标注标签的概率中的最大值;将对应每个标注标签的概率中的最大值,作为所述样本视频属于每个标注标签的概率;依据所述样本视频属于每个标注标签的概率,获得所述样本视频对应的视频标签预测结果。
21.在一个实施例中,所述预测模块,还用于:对于每个所述视频片段,通过所述视频标签预测模型中的特征提取网络,对所述视频片段的视频帧进行特征提取,获得各所述视频帧分别对应的特征向量;通过所述视频标签预测模型中的特征融合网络,融合各所述视频帧分别对应的特征向量,获得所述视频片段对应的特征向量;通过所述视频标签预测模型中的标签识别网络,对所述视频片段对应的特征向量进行标签预测,获得所述视频片段对应的片段标签预测结果。
22.在一个实施例中,所述预测模块,还用于:通过所述视频标签预测模型中的特征融合网络,在各所述视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,作为所述视频片段对应每个所述特征维度的向量值;根据所述视频片段对应每个所述特征维度的向量值,生成所述视频片段对应的特征向量。
23.在一个实施例中,所述预测模块,还用于:通过所述视频标签预测模型中的特征融合网络,在各所述视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,作为所述视频片段对应每个所述特征维度的向量值;根据所述视频片段对应每个所述特征维度的向量值,生成所述视频片段对应的特征向量。
24.本技术提供了一种视频标签预测方法。所述方法包括:
25.获取目标视频;
26.将所述目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型对各所述视频片段进行标签预测,获得各所述视频片段分别对应的片段标签预测结果;所述片段标签预测结果包括视频片段属于各视频标签的概率;
27.将各所述视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得所述目标视频对应的视频标签预测结果;所述视频标签预测结果包括所述目标视频属于各视频标签的概率;
28.根据所述目标视频属于各视频标签的概率,为所述目标视频添加视频标签。
29.本技术还提供了一种视频标签预测装置。所述装置包括:
30.获取模块,用于获取目标视频;
31.预测模块,用于将所述目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型对各所述视频片段进行标签预测,获得各所述视频片段分别对应的片段标签预测结果;所述片段标签预测结果包括视频片段属于各视频标签的概率;
32.融合模块,用于将各所述视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得所述目标视频对应的视频标签预测结果;所述视频标签预测结果包括所述目标视频属于各视频标签的概率;
33.识别模块,用于根据所述目标视频属于各视频标签的概率,为所述目标视频添加视频标签。
34.在一个实施例中,所述预测模块,还用于:对于每个所述视频片段,通过所述视频标签预测模型中的特征提取网络,对所述视频片段的视频帧进行特征提取,获得各所述视频帧分别对应的特征向量;通过所述视频标签预测模型中的特征融合网络,融合各所述视频帧分别对应的特征向量,获得所述视频片段对应的特征向量;通过所述视频标签预测模型中的标签识别网络,对所述视频片段对应的特征向量进行标签预测,获得所述视频片段对应的片段标签预测结果。
35.在一个实施例中,所述预测模块,还用于:通过所述视频标签预测模型中的特征融合网络,在各所述视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,作为所述视频片段对应各所述特征维度的向量值;根据所述视频片段对应各所述特征维度的向量值,生成所述视频片段对应的特征向量。
36.在一个实施例中,所述预测模块,还用于:通过所述视频标签预测模型中的特征融合网络,在各所述视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,作为所述视频片段对应各所述特征维度的向量值;根据所述视频片段对应各所述特征维度的向量值,生成所述视频片段对应的特征向量。
37.在一个实施例中,所述融合模块,还用于:从各所述视频片段对应的片段标签预测结果中,确定对应相同标注标签的概率中的最大值;将对应每个标注标签的概率中的最大值,作为所述样本视频属于每个标注标签的概率;依据所述样本视频属于每个标注标签的概率,获得所述样本视频对应的视频标签预测结果。
38.在一个实施例中,所述视频标签预测装置还包括推送模块,所述推送模块,用于:确定与目标账号对应的兴趣标签;当所述兴趣标签包括为所述目标视频添加的至少一个视频标签时,将所述目标视频推送至所述目标账号对应的终端。
39.在一个实施例中,所述视频标签预测装置还包括推送模块,所述推送模块,用于:根据所述视频片段属于各视频标签的概率,为所述视频片段添加视频标签;确定与目标账号对应的兴趣标签;当所述兴趣标签包括为所述视频片段添加的至少一个视频标签时,将所述视频片段推送至所述目标账号对应的终端。
40.本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述视频标签预测模型的处理方法和/或视频标签预测方法的步骤。
41.本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频标签预测模型的处理方法和/或视频标签预测方法的步骤。
42.本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频标签预测模型的处理方法和/或视频标签预测方法的步骤。
43.上述视频标签预测模型的处理方法、视频标签预测方法、装置、计算机设备、存储介质和计算机程序产品,先将样本视频划分为多个等长的视频片段,接着通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,由于将样本视频划分再基于视频片段提取特征,缩短了标签预测所基于的视频长度,能够在降低视频内容信息损失的情况下进行标签预测,提升了训练过程中对各视频片段标签预测的准确性,而且不同的样本视频长度不一,那么不同样本视频的视频片段的长度也不等,使得视频标签预测模型适应不同的视频长度的变化;接着将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果,使得视频标签预测结果能够贴近样本视频整体上所对应的标注标签;再基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失训练视频标签预测模型,能够提升模型的训练性能,从而提升训练后的视频标签预测模型对视频标签预测的准确性。
附图说明
44.图1为一个实施例中视频标签预测方法的应用环境图;
45.图2为一个实施例中视频标签预测模型的处理方法的流程示意图;
46.图3为一个实施例中融合各视频片段的片段标签预测结果的流程示意图;
47.图4为一个实施例中获取样本视频对应的视频标签预测结果的流程示意图;
48.图5为一个实施例中获取视频片段对应的片段标签预测结果的流程示意图;
49.图6为另一个实施例中视频标签预测模型的处理方法的流程示意图;
50.图7为一个实施例中视频标签预测方法的流程示意图;
51.图8为一个实施例中获取目标视频对应的视频标签预测结果的流程示意图;
52.图9为一个实施例中视频标签预测模型的处理装置的结构框图;
53.图10为一个实施例中视频标签预测装置的结构框图;
54.图11为一个实施例中计算机设备的内部结构图;
55.图12为另一个实施例中计算机设备的内部结构图。
具体实施方式
56.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不
用于限定本技术。
57.本技术实施例提供的视频标签预测模型的处理方法和视频标签预测方法,涉及人工智能(artificial intelligence,ai)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
58.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
59.本技术实施例提供的视频标签预测模型的处理方法,主要涉及人工智能的机器学习技术(machine learning,ml)。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
60.例如,在本技术实施例中,基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失训练视频标签预测模型,最终获得用于识别视频标签的视频标签预测模型。
61.本技术实施例提供的视频标签预测方法,主要涉及人工智能的计算机视觉技术(computer vision,cv)。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像分割、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
62.本技术实施例提供的视频标签预测方法,主要涉及计算机视觉技术领域的视频语义理解技术(video semantic understanding,vsu)。例如,在本技术实施例中,将目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型获得各视频片段分别对应的片段标签预测结果,将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果。
63.本技术实施例提供的视频标签预测模型的处理方法,可以应用于如图1所示的应用环境中。在一个实施例中,以服务器104执行本技术实施例提供的视频标签预测模型的处理方法为例,终端102获取样本视频及样本视频的至少一个标注标签,至少一个标注标签属于视频标签集合,将样本视频及样本视频的至少一个标注标签发送至服务器104,服务器
104将样本视频划分为多个等长的视频片段;通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,片段标签预测结果包括视频片段属于视频标签集合中各标注标签的概率;将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果,视频标签预测结果包括样本视频属于视频标签集合中各标注标签的概率;根据基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失训练视频标签预测模型。
64.本技术实施例提供的视频标签预测方法,也可以应用于如图1所示的应用环境中。在一个实施例中,以服务器104执行本技术实施例提供的视频标签预测方法为例,终端102获取目标视频,将目标视频发送至服务器104,服务器104将目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果;片段标签预测结果包括视频片段属于各视频标签的概率;将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果;视频标签预测结果包括目标视频属于各视频标签的概率;根据目标视频属于各视频标签的概率,为目标视频添加视频标签。
65.其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。
66.本技术实施例提供的视频标签预测方法,可应用于视频标签预测场景、视频分类场景、视频推荐场景,等等。
67.例如,对于视频网站或视频应用中的海量视频,通过本技术实施例提供的方法,可对视频内容进行离线或在线解析,获得视频对应的视频标签。基于视频对应的视频标签,进而可对海量视频进行分类。
68.再例如,基于视频对应的视频标签,可对用户推荐感兴趣视频。并且,由于本技术实施例中将目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型获得各视频片段分别对应的片段标签预测结果,因此可基于片段标签预测结果对用户推荐感兴趣的视频片段,而非冗长的完整视频。
69.在一个实施例中,如图2所示,提供了一种视频标签预测模型的处理方法,以该方法应用于计算机设备(图1中的终端102或者服务器104)为例进行说明,包括以下步骤:
70.步骤s202,获取样本视频及样本视频的至少一个标注标签,至少一个标注标签属于视频标签集合。
71.其中,样本视频是本技术实施例中用于训练视频标签预测模型的视频数据。视频标签预测模型是经过训练后具有视频标签预测能力的模型,具体可以是以样本视频及对应的标注标签作为训练数据,训练得到的用于对视频进行视频标签预测的模型,例如预测视频所属的至少一个视频标签。视频标签用于描述视频所属的类别,该类别可以是粗粒度类别,例如“动画”等,也可以是细粒度类别,例如“猫和老鼠”、“汤姆”等。标注标签是对样本视频标注的视频标签。
72.在一个实施例中,在利用样本视频对视频标签预测模型进行训练时,可对样本视频标注单个标注标签,以训练视频标签预测模型具备单一标签预测能力,例如《猫和老鼠》动画视频,其标注标签可以是“动画”;或者对样本视频标注多个标注标签,以训练视频标签预测模型具备多标签预测能力,例如《猫和老鼠》动画视频,其标注标签也可以是“动画”、“猫和老鼠”、“汤姆”。将各个样本视频分别对应的标注标签取并集,得到视频标签集合。
73.在一个实施例中,计算机设备获取样本视频,每个样本视频具有单个标注标签,根据样本视频及对应的单个标注标签对视频标签预测模型进行训练,得到用于对视频进行单一标签预测的视频标签预测模型。在另一些实施例中,计算机设备获取样本视频,每个样本视频具有至少两个标注标签,根据样本视频及对应的至少两个标注标签对视频标签预测模型进行训练,得到用于对视频进行多标签预测的视频标签预测模型。
74.下面介绍一下发明人的思路:
75.在传统技术的视频标签预测方案中,通常包括以下几个步骤:通过模型

提取目标视频的视频帧特征,

融合视频帧特征获得固定维度的视频特征,

基于视频特征预测视频标签。发明人发现,一方面,当目标视频的长度较长时,通过第

步与第

步获得的视频特征会损失大量的视频内容信息,进而影响第

步对视频标签预测的准确性;另一方面,在训练模型时,标注员基于主观感受对样本视频标注视频标签,标注员所标注的视频标签实际上反映了样本视频整体上所对应的视频标签,而通过模型获得的视频特征在损失了大量的视频内容信息后,很难预测得到与标注员所标注的视频标签相匹配的预测结果,导致模型训练性能不佳。
76.鉴于上述问题,发明人采用先将样本视划分为多个等长的视频片段,再通过视频标签预测模型分别对各视频片段进行标签预测,将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果的方式,一是通过缩短用于生成视频特征的视频长度,降低了视频特征的视频内容信息损失,提升了训练过程中标签预测的准确性,二是使得预测得到的视频标签预测结果能够贴近样本视频整体上所对应的标注标签,也即是贴合标注员的标注思路,从而能够提升模型的训练性能,进而提升训练后的视频标签预测模型对视频标签预测的准确性。
77.步骤s204,将样本视频划分为多个等长的视频片段。
78.在一个实施例中,计算机设备获取动态生成的片段长度,按照动态生成的片段长度,将样本视频划分为多个等长的视频片段,每个视频片段的长度为该动态生成的片段长度。其中,片段长度是视频片段的长度,片段长度可通过视频片段的时长、视频片段的帧数等进行表示。由于片段长度是动态生成的,这相当于对训练数据进行了数据增广,利用不同长度的视频片段训练视频标签预测模型,使得训练后的视频标签预测模型能够对不同长度的视频片段进行处理。
79.在一个实施例中,计算机设备获取指定的片段长度,按照指定的片段长度,将样本视频划分为多个等长的视频片段,每个视频片段的长度为该指定的片段长度。利用指定长度的视频片段训练视频标签预测模型,使得训练后的视频标签预测模型能够对该长度的视频片段具有优越的处理性能。可选地,计算机设备获取多个片段长度,依次将每个片段长度作为指定的片段长度对视频标签预测模型进行训练,使得训练后的视频标签预测模型能够对不同长度的视频片段具有优越的处理性能。
80.举例说明,对于样本视频v={v1,v2,

,vm},其中m表示样本视频v具有m个视频帧。计算机设备获取片段长度t,按照片段长度t将样本视频v划分为多个等长的视频片段,每个视频片段具有t个视频帧,那么样本视频v具有m/t=n个视频片段。若样本视频v无法被t整除,计算机设备可对最后一个视频片段补充空白帧,使得最后一个视频片段也具有t个视频帧。
81.步骤206,通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果;片段标签预测结果包括视频片段属于视频标签集合中各标注标签的概率。
82.在一个实施例中,视频标签预测模型的数量为单个,计算机设备将各视频片段输入视频标签预测模型,通过视频标签预测模型依次对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果。在另一些实施例中,视频标签预测模型的数量为多于一个,计算机设备将各视频片段分别输入多于一个视频标签预测模型,通过各视频标签预测模型分别对输入的视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果。可选地,多于一个视频标签预测模型可采用相同或不同的模型结构。
83.在一个实施例中,片段标签预测结果为多维向量,片段标签预测结果的维度与视频标签集合中标注标签的数量一致,片段标签预测结果每个维度的向量值表示视频片段属于该维度所对应的标注标签的概率。
84.举例说明,假设视频标签集合包括5个标注标签,计算机设备通过视频标签预测模型分别对视频片段1、视频片段2和视频片段3进行标签预测,获得片段标签预测结果1“[0.1 0.2 0.1 0.5 0.1]”、片段标签预测结果2“[0.3 0.2 0.1 0.3 0.1]”以及片段标签预测结果3“[0.2 0.2 0.4 0.1 0.1]”,每个片段标签预测结果均为5维的向量。以片段标签预测结果1“[0.1 0.2 0.1 0.5 0.1]”为例,“0.2”可表示视频片段1为视频标签集合中第2个标注标签的概率。
[0085]
步骤s208,将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果;视频标签预测结果包括样本视频属于视频标签集合中各标注标签的概率。
[0086]
在一个实施例中,视频标签预测结果为多维向量,视频标签预测结果的维度与视频标签集合中标注标签的数量一致,视频标签预测结果每个维度的向量值表示样本视频属于该维度所对应的标注标签的概率。
[0087]
在一个实施例中,参照图3,图3为一个实施例中融合各视频片段对应的片段标签预测结果的流程示意图。可以看到,计算机设备获得片段标签预测结果1、片段标签预测结果2、片段标签预测结果3,每个片段标签预测结果均为g维的向量,每个维度的向量值表示视频片段属于该维度所对应的标注标签的概率。将各片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频属于每个标注标签的概率,依据样本视频属于每个标注标签的概率,获得样本视频对应的视频标签预测结果。
[0088]
在一个实施例中,计算机设备从各视频片段对应的片段标签预测结果中,对应相同标注标签的概率取均值,将对应每个标注标签的概率均值,作为样本视频属于每个标注标签的概率。
[0089]
继续参照上述例子,计算机设备对片段标签预测结果1“[0.1 0.2 0.1 0.50.1]”、
片段标签预测结果2“[0.3 0.2 0.1 0.3 0.1]”以及片段标签预测结果3“[0.2 0.20.4 0.1 0.1]”中,对应相同标注标签的概率取均值,获得样本视频对应的视频标签预测结果为“[0.2 0.2 0.2 0.3 0.1]”。
[0090]
步骤s210,根据基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失更新视频标签预测模型的模型参数,得到训练好的视频标签预测模型。
[0091]
在一个实施例中,计算机设备更新视频标签预测模型的模型参数后,判断是否满足训练停止条件,若是,得到训练好的视频标签预测模型,若否,返回步骤s202获取样本视频及样本视频的至少两个标注标签的步骤继续训练。
[0092]
在一个实施例中,训练停止条件可以是训练次数达到预设次数,或者预测损失计算的损失值小于预设值等。
[0093]
在一个实施例中,计算机设备将样本视频的至少一个标注标签转换为向量表示(以下简称为标签向量),标签向量的维度与视频标签集合中标注标签的数量一致,标签向量每个维度的向量值表示样本视频属于该维度对应的标注标签的概率。
[0094]
继续参照上述例子,假设视频标签集合包括5个标注标签,样本视频对应其中2个标注标签,那么样本视频的标签向量可表示为“[0 1 0 1 0]”,其中“1”表示样本视频属于该维度对应的标注标签,“0”表示样本视频不属于该维度对应的标注标签。
[0095]
在一个实施例中,计算机设备基于样本视频对应的视频标签预测结果与标签向量之间的差异构建预测损失,根据预测损失更新视频标签预测模型的模型参数。
[0096]
继续参照上述例子,计算机设备基于视频标签预测结果“[0.2 0.2 0.2 0.3 0.1]”与标签向量“[0 1 0 1 0]”之间的差异,构建预测损失。
[0097]
可以理解,通用的损失函数即满足本技术实施例对预测损失的需求,因此计算机设备可采用通用的损失函数构建预测损失。通用的损失函数例如交叉熵损失函数、余弦相似度损失函数等。在一个实施例中,计算机设备按照最小化预测损失的方向,基于梯度下降算法获得本轮训练对应的梯度,按照梯度更新视频标签预测模型的模型参数。梯度下降算法可以是随机梯度下降算法,或者基于随机梯度下降算法优化的算法,比如带动量项的随机梯度下降算法等。在一个实施例中,参照图4,图4为一个实施例中获取样本视频对应的视频标签预测结果的流程示意图。可以看到,计算机设备将样本视频划分为多个等长的视频片段,将各视频片段输入视频标签预测模型,通过视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果,基于样本视频对应的视频标签预测结果与标注标签对应的标签向量之间的差异构建预测损失,根据预测损失训练视频标签预测模型。
[0098]
上述视频标签预测模型的处理方法中,先将样本视频划分为多个等长的视频片段,接着通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,由于将样本视频划分再基于视频片段提取特征,缩短了标签预测所基于的视频长度,能够在降低视频内容信息损失的情况下进行标签预测,提升了训练过程中对各视频片段标签预测的准确性,而且不同的样本视频长度不一,那么不同样本视频的视频片段的长度也不等,使得视频标签预测模型适应不同的视频长度的变化;接着将各
视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果,使得视频标签预测结果能够贴近样本视频整体上所对应的标注标签;再基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失训练视频标签预测模型,能够提升模型的训练性能,从而提升训练后的视频标签预测模型对视频标签预测的准确性;并且,只需标注样本视频整体上对应的视频标签,无需标注由样本视频划分出的每一个视频片段的视频标签,节省了标注成本。
[0099]
在一个实施例中,将样本视频划分为多个等长的视频片段,包括:确定样本视频的视频长度;根据视频长度与片段长度之间的正相关关系,确定样本视频的视频长度对应的片段长度;按照确定的片段长度,将样本视频划分为多个等长的视频片段。
[0100]
在一个实施例中,计算机设备按照样本视频的视频长度,确定样本视频的视频长度对应的片段长度,按照确定的片段长度,将样本视频划分为多个等长的视频片段。
[0101]
在一个实施例中,预先设定视频长度与片段长度之间的正相关关系,可通过以下公式进行表示:
[0102]
m=kt
[0103]
其中,m表示视频长度;t表示片段长度;k表示视频长度与片段长度之间的正相关系数,k为正值。
[0104]
在一个实施例中,视频标签预测模型的数量为多于一个,正相关系数可以是视频标签预测模型的数量。例如,视频标签预测模型为3个,那么对于视频长度为300帧的样本视频,片段长度为100帧,而对于视频长度为3000帧的样本视频,片段长度为1000帧,这样,不论样本视频的长度如何,视频标签预测模型都能够高效处理,保证了视频标签预测模型对不同长度视频的处理效率。
[0105]
本实施例中,根据视频长度自适应生成片段长度,使得不论是长视频还是短视频均可以作为视频标签预测模型的训练数据,扩大了训练数据范围;并且,利用不同长度的视频片段对视频标签预测模型进行训练,不仅使得训练后的视频标签预测模型具备对不同长度的视频片段的兼容处理能力,而且使得训练后的视频标签预测模型对不同长度的视频片段均能够达到效率与性能之间的平衡。
[0106]
在一个实施例中,将样本视频划分为多个等长的视频片段,包括:获取片段长度集合;从片段长度集合中随机选取片段长度;按照选取的片段长度,将样本视频划分为多个等长的视频片段。
[0107]
其中,片段长度集合可以是多个片段长度的集合,例如{t1,t2,

,tn},其中n表示片段长度集合中片段长度的数量。
[0108]
在一个实施例中,计算机设备从片段长度集合中随机选取片段长度,按照选取的片段长度,将样本视频划分为多个等长的视频片段。
[0109]
在一个实施例中,计算机设备按照样本视频的视频长度,从片段长度集合中选取片段长度,例如计算机设备根据视频长度与片段长度之间的正相关关系计算片段长度,从片段长度集合中选取与计算得到的片段长度最为接近的片段长度。
[0110]
本实施例中,从片段长度集合中随机选取片段长度,利用不同长度的视频片段训练视频标签预测模型,使得训练后的视频标签预测模型能够对不同长度的视频片段进行处理。
[0111]
在一个实施例中,将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果,包括:从各视频片段对应的片段标签预测结果中,确定对应相同标注标签的概率中的最大值;将对应每个标注标签的概率中的最大值,作为样本视频属于每个标注标签的概率;依据样本视频属于每个标注标签的概率,获得样本视频对应的视频标签预测结果。
[0112]
在一个实施例中,计算机设备从各视频片段对应的片段标签预测结果中,对应相同标注标签的概率取最大值,将对应每个标注标签的概率最大值,作为样本视频属于每个标注标签的概率,依据样本视频属于每个标注标签的概率,获得样本视频对应的视频标签预测结果。
[0113]
在一个实施例中,样本视频对应的视频标签预测结果可通过以下公式进行表示:
[0114][0115]
其中,表示样本视频对应的视频标签预测结果p
vide
o在第k维的取值,p
video
共有g维,k∈{1,2,

,g};样本视频划分为n个视频片段,表示样本视频中第n个视频片段对应的片段标签预测结果在第k维的取值。
[0116]
继续参照上述例子,计算机设备对片段标签预测结果1“[0.1 0.2 0.1 0.5 0.1]”、片段标签预测结果2“[0.3 0.2 0.1 0.3 0.1]”以及片段标签预测结果3“[0.2 0.2 0.4 0.1 0.1]”中,对应相同标注标签的概率取最大值,获得样本视频对应的视频标签预测结果为“[0.3 0.2 0.4 0.5 0.1]”。计算机设备基于视频标签预测结果“[0.3 0.2 0.4 0.5 0.1]”与标签向量“[0 1 0 1 0]”之间的差异,构建预测损失。
[0117]
本实施例中,将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率取最大值,获得样本视频对应的视频标签预测结果,使得预测得到的视频标签预测结果能够贴近样本视频整体上所对应的标注标签,也即是贴合标注员的标注思路,从而提升模型的训练性能。
[0118]
在一个实施例中,通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,包括:对于每个视频片段,通过视频标签预测模型中的特征提取网络,对视频片段的视频帧进行特征提取,获得各视频帧分别对应的特征向量;通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量;通过视频标签预测模型中的标签识别网络,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果。
[0119]
其中,特征向量是指将其它形式的数据以数学形式进行表达的结果。比如,将视频帧表示为数学形式“[0 0 0 1 0 0 0 0 0 0 0...]”,此时,“[0 0 0 1 0 0 0 0 0 0 0...]”即为视频帧的特征向量。可以理解,这里不限定将视频帧转换为何种表示的向量,只要能够将视频帧进行数学化表示即可。比如可将视频帧转换为高维稀疏向量或者低维稠密向量。
[0120]
在一个实施例中,参照图5,图5为一个实施例中获取视频片段对应的片段标签预测结果的流程示意图。可以看到,以视频片段1为例,计算机设备将视频片段1输入视频标签预测模型,通过视频标签预测模型中的特征提取网络,对视频片段1的视频帧进行特征提
取,获得各视频帧分别对应的特征向量,每个视频帧对应的特征向量为d维,d的取值与特征提取网络所采用的网络结构相关,例如特征提取网络所采用的网络结构为resnet(residual network),d的取值为2048维;通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量,视频片段对应的特征向量与每个视频帧对应的特征向量的特征维度保持一致,也为d维;通过视频标签预测模型中的标签识别网络,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果,片段标签预测结果为g维,g的取值与视频标签集合中标注标签的数量保持一致。
[0121]
在一个实施例中,特征提取网络可以采用通用的具备特征提取功能的网络结构,例如resnet、vgg net(visual geometry group network)、efficient net(efficient network)或vit(vision transformer)等深度神经网络。特征融合网络可以采用通用的具有特征融合功能的网络结构,例如最大池化(max-pooling)网络或平均池化(mean-pooling)网络等。标签识别网络可以由全连接层(fully-connected layer)和激活函数构成,激活函数例如sigmoid等。
[0122]
在一个实施例中,计算机设备通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,对应相同特征维度的向量值进行融合,获得视频片段对应每个特征维度的向量值,依据视频片段对应每个特征维度的向量值,生成视频片段对应的特征向量。
[0123]
在一个实施例中,通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量,包括:通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,作为视频片段对应每个特征维度的向量值;根据视频片段对应每个特征维度的向量值,生成视频片段对应的特征向量。
[0124]
在一个实施例中,特征融合网络可以是最大池化(max-pooling)网络,计算机设备通过特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,进而生成视频片段对应的特征向量。视频片段对应的特征向量可通过以下公式进行表示:
[0125]zfrag
=maxpooling{z
frame-1
,z
frame-2
,
…zframe-t
}
[0126]
并且,
[0127]
其中,z
frag
表示视频片段对应的特征向量,视频片段具有t个视频帧,z
frame-t
表示视频片段中第t个视频帧对应的特征向量;maxpooling表示最大池化处理;表示视频片段对应的特征向量在第j维的取值,视频片段对应的特征向量共有d维,j∈{1,2,

,d};表示视频片段中第t个视频帧对应的特征向量在第j维的取值。
[0128]
在一个实施例中,通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量,包括:通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,作为视频片段对应每个特征维度的向量值;根据视频片段对应每个特征维度的向量值,生成视频片段对应的特征向量。
[0129]
在一个实施例中,特征融合网络可以是平均池化(mean-pooling)网络,计算机设备通过特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,进而生成视频片段对应的特征向量。视频片段对应的特征向量可通过以下公式进行表示:
[0130]zfrag
=meanpooling{z
frame-1
,z
frame-2
,
…zframe-t
}
[0131]
并且,
[0132]
其中,z
frag
表示视频片段对应的特征向量,视频片段具有t个视频帧,z
frame-t
表示视频片段中第t个视频帧对应的特征向量;meanpooling表示平均池化处理;表示视频片段对应的特征向量在第j维的取值,视频片段对应的特征向量共有d维,j∈{1,2,

,d};表示视频片段中第t个视频帧对应的特征向量在第j维的取值。
[0133]
本实施例中,对每个视频片段的视频帧进行特征提取,获得各视频帧分别对应的特征向量,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果,由于缩短了用于生成视频特征的视频长度,因此降低了视频特征的视频内容信息损失,有助于提升训练过程中标签预测的准确性,从而提升模型的训练性能。
[0134]
在一个实施例中,如图6所示,提供了一种视频标签预测模型的处理方法,以该方法应用于计算机设备(图1中的终端102或者服务器104)为例进行说明,包括以下步骤:
[0135]
步骤s602,获取样本视频及样本视频的至少两个标注标签,至少两个标注标签属于视频标签集合。
[0136]
在一个实施例中,计算机设备获取样本视频,每个样本视频具有至少两个标注标签,根据样本视频及对应的至少两个标注标签对视频标签预测模型进行训练,得到用于对视频进行多标签预测的视频标签预测模型。
[0137]
以对于样本视频v={v1,v2,

,vm}进行举例说明,其中m表示样本视频v具有m个视频帧。视频标签集合包括g个标注标签。
[0138]
步骤s604,确定样本视频的视频长度,根据视频长度与片段长度之间的正相关关系,确定样本视频的视频长度对应的片段长度,按照确定的片段长度,将样本视频划分为多个等长的视频片段。
[0139]
在一个实施例中,计算机设备根据视频长度确定片段长度t,按照片段长度t将样本视频v划分为多个等长的视频片段,每个视频片段具有t个视频帧,那么样本视频v具有m/t=n个视频片段。若样本视频v无法被t整除,计算机设备可对最后一个视频片段补充空白帧,使得最后一个视频片段也具有t个视频帧。
[0140]
步骤s606,对于每个视频片段,通过视频标签预测模型中的特征提取网络,对视频片段的视频帧进行特征提取,获得各视频帧分别对应的特征向量;通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量;通过视频标签预测模型中的标签识别网络,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果;片段标签预测结果包括视频片段属于视频标签集合中各标注标签的概率。
[0141]
在一个实施例中,计算机设备通过视频标签预测模型对n个视频片段分别进行多标签预测,得到各个视频片段分别对应的片段标签预测结果{p1,p2,

pn},每个片段标签预测结果均为g维的向量。
[0142]
下面对获取视频片段n对应的片段标签预测结果pn的步骤进行介绍:
[0143]
首先,计算机设备将视频片段n输入视频标签预测模型,通过视频标签预测模型中的特征提取网络,对视频片段n的视频帧进行特征提取,获得各视频帧分别对应的特征向量{z
frame-1
,z
frame-2
,
…zframe-t
},每个视频帧对应的特征向量为d维,d的取值与特征提取网络所采用的网络结构相关。
[0144]
接着,计算机设备通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段n对应的特征向量z
frag
,视频片段n对应的特征向量也为d维。
[0145]
在一个实施例中,特征融合网络可以是最大池化(max-pooling)网络,计算机设备通过特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,进而生成视频片段n对应的特征向量。视频片段n对应的特征向量可通过以下公式进行表示:
[0146]zfrag
=maxpooling{z
frame-1
,z
frame-2
,
…zframe-t
}
[0147]
并且,
[0148]
在一个实施例中,特征融合网络可以是平均池化(mean-pooling)网络,计算机设备通过特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,进而生成视频片段n对应的特征向量。视频片段n对应的特征向量可通过以下公式进行表示:
[0149]zfrag
=meanpooling{z
frame-1
,z
frame-2
,
…zframe-t
}
[0150]
并且,
[0151]
其中,z
frag
表示视频片段n对应的特征向量,视频片段n具有t个视频帧,z
frame-t
表示视频片段n中第t个视频帧对应的特征向量;maxpooling表示最大池化处理;meanpooling表示平均池化处理;表示视频片段n对应的特征向量在第j维的取值,视频片段n对应的特征向量共有d维,j∈{1,2,

,d};表示视频片段n中第t个视频帧对应的特征向量在第j维的取值。
[0152]
接着,计算机设备通过视频标签预测模型中的标签识别网络,对视频片段n对应的特征向量z
frag
进行标签预测,获得视频片段n对应的片段标签预测结果pn,pn为g维。
[0153]
步骤s608,从各视频片段对应的片段标签预测结果中,确定对应相同标注标签的概率中的最大值;将对应每个标注标签的概率中的最大值,作为样本视频属于每个标注标签的概率;依据样本视频属于每个标注标签的概率,获得样本视频对应的视频标签预测结果;视频标签预测结果包括样本视频属于视频标签集合中各标注标签的概率。
[0154]
在一个实施例中,样本视频对应的视频标签预测结果可通过以下公式进行表示:
[0155][0156]
其中,表示样本视频对应的视频标签预测结果p
video
在第k维的取值,p
video
共有g维,k∈{1,2,

,g};样本视频划分为n个视频片段,表示样本视频中第n个视频片段对应的片段标签预测结果在第k维的取值。
[0157]
步骤s610,根据基于样本视频的至少两个标注标签与样本视频属于各标注标签的概率所构建的预测损失更新视频标签预测模型的模型参数,得到训练好的视频标签预测模型。
[0158]
在一个实施例中,计算机设备更新视频标签预测模型的模型参数后,判断是否满足训练停止条件,若是,得到训练好的视频标签预测模型,若否,返回步骤s202获取样本视频及样本视频的至少两个标注标签的步骤继续训练。
[0159]
在一个实施例中,计算机设备将样本视频的至少两个标注标签转换为标签向量,标签向量为g维,由0/1构成,0表示样本视频不属于该维度对应的标注标签,1表示样本视频属于该维度对应的标注标签。
[0160]
以二元交叉熵损失函数(binary cross entropy loss)为例,预测损失可通过以下公式进行构建:
[0161]
loss(x,y)=y
×
log(x)+(1-y)log(1-x)
[0162]
其中,x可取值样本视频对应的视频标签预测结果;y可取值样本视频对应的标签向量。
[0163]
本实施例中,先将样本视频划分为多个等长的视频片段,接着通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,由于将样本视频划分再基于视频片段提取特征,缩短了标签预测所基于的视频长度,能够在降低视频内容信息损失的情况下进行标签预测,提升了训练过程中对各视频片段标签预测的准确性,而且不同的样本视频长度不一,那么不同样本视频的视频片段的长度也不等,使得视频标签预测模型适应不同的视频长度的变化;接着将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果,使得视频标签预测结果能够贴近样本视频整体上所对应的标注标签;再基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失训练视频标签预测模型,能够提升模型的训练性能,从而提升训练后的视频标签预测模型对视频标签预测的准确性。
[0164]
在一个实施例中,如图7所示,提供了一种视频标签预测方法,以该方法应用于计算机设备(图1中的终端102或者服务器104)为例进行说明,包括以下步骤:
[0165]
步骤s702,获取目标视频。
[0166]
其中,目标视频是本技术实施例中待预测视频标签的视频。
[0167]
步骤s704,将目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果;片段标签预测结果包括视频片段属于各视频标签的概率。
[0168]
在一个实施例中,计算机设备通过训练好的视频标签预测模型对各视频片段进行
标签预测,获得各视频片段分别对应的片段标签预测结果,视频标签预测模型预测的片段标签预测结果的维度,与视频标签预测模型训练时所采用的视频标签集合中标注标签的数量一致。
[0169]
关于步骤s704的具体实现方式,可参照上述实施例中步骤s204与步骤s206的具体实现方式,在此不再赘述。应用侧的具体实现方式应与训练侧的具体实现方式相匹配,例如视频标签预测模型训练时,按照样本视频的视频长度,确定样本视频的视频长度对应的片段长度,那么视频标签预测模型预测视频标签时,也应按照目标视频的视频长度,确定目标视频的视频长度对应的片段长度。
[0170]
步骤s706,将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果;视频标签预测结果包括目标视频属于各视频标签的概率。
[0171]
关于步骤s706的具体实现方式,可参照上述实施例中步骤s208的具体实现方式,在此不再赘述。应用侧的具体实现方式应与训练侧的具体实现方式相匹配,例如视频标签预测模型训练时,对对应相同标注标签的概率取最大值,那么视频标签预测模型预测视频标签时,也应对对应相同视频标签的概率取最大值。
[0172]
步骤s708,根据目标视频属于各视频标签的概率,为目标视频添加视频标签。
[0173]
在一个实施例中,计算机设备根据目标视频属于各视频标签的概率,为目标视频添加概率最高的视频标签,或者为目标视频添加概率最高的前q个视频标签,q的取值可根据实际应用进行确定。
[0174]
在一个实施例中,参照图8,图8为一个实施例中获取目标视频对应的视频标签预测结果的流程示意图。可以看到,计算机设备将目标视频划分为多个等长的视频片段,将各视频片段输入训练后的视频标签预测模型,通过视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果。
[0175]
上述视频标签预测方法中,将目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,由于缩短了标签预测所基于的视频长度,能够在降低视频内容信息损失的情况下进行标签预测,提升了对各视频片段标签预测的准确性;接着将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果,使得视频标签预测结果能够反映目标视频整体上所对应的视频标签,从而提升了视频标签预测的准确性。
[0176]
在一个实施例中,通过训练好的视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,包括:对于每个视频片段,通过视频标签预测模型中的特征提取网络,对视频片段的视频帧进行特征提取,获得各视频帧分别对应的特征向量;通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量;通过视频标签预测模型中的标签识别网络,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果。
[0177]
在一个实施例中,通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量,包括:通过视频标签预测模型中的特征融
合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,作为视频片段对应各特征维度的向量值;根据视频片段对应各特征维度的向量值,生成视频片段对应的特征向量。
[0178]
在一个实施例中,通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量,包括:通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,作为视频片段对应各特征维度的向量值;根据视频片段对应各特征维度的向量值,生成视频片段对应的特征向量。
[0179]
关于本实施例的具体实现方式,可参照上述实施例中获得样本视频的视频片段对应的片段标签预测结果的具体实现方式,在此不再赘述。应用侧的具体实现方式应与训练侧的具体实现方式相匹配,例如视频标签预测模型训练时,将对应相同特征维度的向量值中的最大值,作为样本视频的视频片段对应各特征维度的向量值,那么视频标签预测模型预测视频标签时,也应将对应相同特征维度的向量值中的最大值,作为目标视频的视频片段对应各特征维度的向量值。
[0180]
本实施例中,对每个视频片段的视频帧进行特征提取,获得各视频帧分别对应的特征向量,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果,由于缩短了用于生成视频特征的视频长度,因此降低了视频特征的视频内容信息损失,有助于提升视频标签预测的准确性。
[0181]
在一个实施例中,将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果,包括:从各视频片段对应的片段标签预测结果中,确定对应相同标注标签的概率中的最大值;将对应每个标注标签的概率中的最大值,作为样本视频属于每个标注标签的概率;依据样本视频属于每个标注标签的概率,获得样本视频对应的视频标签预测结果。
[0182]
关于本实施例的具体实现方式,可参照上述实施例中获得样本视频对应的视频标签预测结果的具体实现方式,在此不再赘述。
[0183]
本实施例中,将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率取最大值,获得目标视频对应的视频标签预测结果,使得视频标签预测结果能够反映目标视频整体上所对应的视频标签,从而提升了视频标签预测的准确性。
[0184]
在一个实施例中,该方法还包括:确定与目标账号对应的兴趣标签;当兴趣标签包括为目标视频添加的至少一个视频标签时,将目标视频推送至目标账号对应的终端。
[0185]
其中,兴趣标签是目标账号对应的感兴趣的视频标签。
[0186]
本实施例中,当目标账号对应的兴趣标签包括为目标视频添加的至少一个视频标签时,将目标视频推送至目标账号对应的终端,实现精准视频推荐。
[0187]
在一个实施例中,该方法还包括:根据视频片段属于各视频标签的概率,为视频片段添加视频标签;确定与目标账号对应的兴趣标签;当兴趣标签包括为视频片段添加的至少一个视频标签时,将视频片段推送至目标账号对应的终端。
[0188]
在一个实施例中,计算机设备根据视频片段属于各视频标签的概率,为视频片段添加概率最高的视频标签,或者为视频片段添加概率最高的前q个视频标签,q的取值可根
据实际应用进行确定。
[0189]
本实施例中,当目标账号对应的兴趣标签包括为视频片段添加的至少一个视频标签时,将视频片段推送至目标账号对应的终端,以向用户推荐感兴趣的视频片段,而非冗长的完整视频。
[0190]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0191]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的视频标签预测模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个视频标签预测模型的处理装置实施例中的具体限定可以参见上文中对于视频标签预测模型的处理方法的限定,在此不再赘述。
[0192]
在一个实施例中,如图9所示,提供了一种视频标签预测模型的处理装置,包括:获取模块902、划分模块904、预测模块906、融合模块908和更新模块910,其中:
[0193]
获取模块902,用于获取样本视频及样本视频的至少一个标注标签,至少一个标注标签属于视频标签集合;
[0194]
划分模块904,用于将样本视频划分为多个等长的视频片段;
[0195]
预测模块906,用于通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果;片段标签预测结果包括视频片段属于视频标签集合中各标注标签的概率;
[0196]
融合模块908,用于将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果;视频标签预测结果包括样本视频属于视频标签集合中各标注标签的概率;
[0197]
更新模块910,用于根据基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失更新视频标签预测模型的模型参数,得到训练好的视频标签预测模型。
[0198]
在一个实施例中,划分模块904,还用于:确定样本视频的视频长度;根据视频长度与片段长度之间的正相关关系,确定样本视频的视频长度对应的片段长度;按照确定的片段长度,将样本视频划分为多个等长的视频片段。
[0199]
在一个实施例中,划分模块904,还用于:获取片段长度集合;从片段长度集合中随机选取片段长度;按照选取的片段长度,将样本视频划分为多个等长的视频片段。
[0200]
在一个实施例中,划分模块904,还用于:获取指定的片段长度;按照指定的片段长度,将样本视频划分为多个等长的视频片段。
[0201]
在一个实施例中,融合模块908,还用于:从各视频片段对应的片段标签预测结果中,确定对应相同标注标签的概率中的最大值;将对应每个标注标签的概率中的最大值,作为样本视频属于每个标注标签的概率;依据样本视频属于每个标注标签的概率,获得样本
视频对应的视频标签预测结果。
[0202]
在一个实施例中,预测模块906,还用于:对于每个视频片段,通过视频标签预测模型中的特征提取网络,对视频片段的视频帧进行特征提取,获得各视频帧分别对应的特征向量;通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量;通过视频标签预测模型中的标签识别网络,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果。
[0203]
在一个实施例中,预测模块906,还用于:通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,作为视频片段对应每个特征维度的向量值;根据视频片段对应每个特征维度的向量值,生成视频片段对应的特征向量。
[0204]
在一个实施例中,预测模块906,还用于:通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,作为视频片段对应每个特征维度的向量值;根据视频片段对应每个特征维度的向量值,生成视频片段对应的特征向量。
[0205]
上述视频标签预测模型的处理装置,先将样本视频划分为多个等长的视频片段,接着通过视频标签预测模型分别对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,由于将样本视频划分再基于视频片段提取特征,缩短了标签预测所基于的视频长度,能够在降低视频内容信息损失的情况下进行标签预测,提升了训练过程中对各视频片段标签预测的准确性,而且不同的样本视频长度不一,那么不同样本视频的视频片段的长度也不等,使得视频标签预测模型适应不同的视频长度的变化;接着将各视频片段对应的片段标签预测结果中,对应相同标注标签的概率进行融合,获得样本视频对应的视频标签预测结果,使得视频标签预测结果能够贴近样本视频整体上所对应的标注标签;再基于样本视频的至少一个标注标签与样本视频属于各标注标签的概率所构建的预测损失训练视频标签预测模型,能够提升模型的训练性能,从而提升训练后的视频标签预测模型对视频标签预测的准确性。
[0206]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的视频标签预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个视频标签预测装置实施例中的具体限定可以参见上文中对于视频标签预测方法的限定,在此不再赘述。
[0207]
在一个实施例中,如图10所示,提供了一种视频标签预测装置,包括:获取模块1002、预测模块1004、融合模块1006和识别模块1008,其中:
[0208]
获取模块1002,用于获取目标视频;
[0209]
预测模块1004,用于将目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果;片段标签预测结果包括视频片段属于各视频标签的概率;
[0210]
融合模块1006,用于将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果;视频标签预测结果包括目标视频属于各视频标签的概率;
[0211]
识别模块1008,用于根据目标视频属于各视频标签的概率,为目标视频添加视频
标签。
[0212]
在一个实施例中,预测模块1004,还用于:对于每个视频片段,通过视频标签预测模型中的特征提取网络,对视频片段的视频帧进行特征提取,获得各视频帧分别对应的特征向量;通过视频标签预测模型中的特征融合网络,融合各视频帧分别对应的特征向量,获得视频片段对应的特征向量;通过视频标签预测模型中的标签识别网络,对视频片段对应的特征向量进行标签预测,获得视频片段对应的片段标签预测结果。
[0213]
在一个实施例中,预测模块1004,还用于:通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值中的最大值,作为视频片段对应各特征维度的向量值;根据视频片段对应各特征维度的向量值,生成视频片段对应的特征向量。
[0214]
在一个实施例中,预测模块1004,还用于:通过视频标签预测模型中的特征融合网络,在各视频帧分别对应的特征向量中,确定对应相同特征维度的向量值的平均值,作为视频片段对应各特征维度的向量值;根据视频片段对应各特征维度的向量值,生成视频片段对应的特征向量。
[0215]
在一个实施例中,融合模块1006,还用于:从各视频片段对应的片段标签预测结果中,确定对应相同标注标签的概率中的最大值;将对应每个标注标签的概率中的最大值,作为样本视频属于每个标注标签的概率;依据样本视频属于每个标注标签的概率,获得样本视频对应的视频标签预测结果。
[0216]
在一个实施例中,视频标签预测装置还包括推送模块,推送模块,用于:确定与目标账号对应的兴趣标签;当兴趣标签包括为目标视频添加的至少一个视频标签时,将目标视频推送至目标账号对应的终端。
[0217]
在一个实施例中,视频标签预测装置还包括推送模块,推送模块,用于:根据视频片段属于各视频标签的概率,为视频片段添加视频标签;确定与目标账号对应的兴趣标签;当兴趣标签包括为视频片段添加的至少一个视频标签时,将视频片段推送至目标账号对应的终端。
[0218]
上述视频标签预测装置,将目标视频划分为多个等长的视频片段后,通过训练好的视频标签预测模型对各视频片段进行标签预测,获得各视频片段分别对应的片段标签预测结果,由于缩短了标签预测所基于的视频长度,能够在降低视频内容信息损失的情况下进行标签预测,提升了对各视频片段标签预测的准确性;接着将各视频片段对应的片段标签预测结果中,对应相同视频标签的概率进行融合,获得目标视频对应的视频标签预测结果,使得视频标签预测结果能够反映目标视频整体上所对应的视频标签,从而提升了视频标签预测的准确性。
[0219]
上述视频标签预测模型的处理装置或视频标签预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0220]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易
失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频标签预测模型的处理数据和/或视频标签预测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备还包括输入输出接口,输入输出接口是处理器与外部设备之间交换信息的连接电路,它们通过系统总线与处理器相连,简称i/o接口。该计算机程序被处理器执行时以实现一种视频标签预测模型的处理方法和/或视频标签预测方法。
[0221]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、输入装置和显示单元。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机设备还包括输入输出接口,输入输出接口是处理器与外部设备之间交换信息的连接电路,它们通过系统总线与处理器相连,简称i/o接口。该计算机程序被处理器执行时以实现一种视频标签预测模型的处理方法和/或视频标签预测方法。
[0222]
本领域技术人员可以理解,图11、图12中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0223]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一实施例中的视频标签预测模型的处理方法和/或视频标签预测方法。
[0224]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中的视频标签预测模型的处理方法和/或视频标签预测方法。
[0225]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施例中的视频标签预测模型的处理方法和/或视频标签预测方法。
[0226]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0227]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器
(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0228]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0229]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1