一种视频类别识别的方法及相关装置与流程

文档序号:19993776发布日期:2020-02-22 02:32阅读:268来源:国知局
一种视频类别识别的方法及相关装置与流程

本申请涉及人工智能领域,尤其涉及一种视频类别识别的方法及相关装置。



背景技术:

随着计算机硬件技术和软件技术的不断升级,各类数码摄像设备层出不穷,通信技术屡次突破性发展,视频的数量和传播速度更是飞速增长,内容视频化已成为互联网发展一大趋势。因此,对视频进行分类的识别技术显得尤为重要。

目前,可采用基于深度学习特征的方法来识别视频类别,常见的一种方式为,通过卷积神经网络(convolutionalneuralnetworks,cnn)模型提取视频特征,模型参数是通过大量标注数据训练得到的,使用模型输出分数,或者结合分类器对视频进行分类。

为了能够保证视频分类的准确度,需要采用精度较高的模型进行预测。然而,精度较高的模型往往具有较多的模型参数,因此,在预测的过程中会耗费更多的时间,导致视频分类的效率较低。



技术实现要素:

本申请实施例提供了一种视频类别识别的方法及相关装置,能够在提高视频处理效率同时保证视频的识别准确度。

有鉴于此,本申请第一方面提供一种视频类别识别的方法,包括:

获取待识别视频,其中,待识别视频包括至少一个视频帧;

通过第一视频识别模型获取待识别视频所对应的视频过滤分数,其中,视频过滤分数表示待识别视频属于目标类别的概率,第一视频识别模型包括p个模型参数,p为大于或等于1的整数;

若视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取待识别视频所对应的识别分数集合,其中,识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数属于目标类别的概率,第二视频识别模型包括q个模型参数,q为大于p的整数;

根据识别分数集合确定待识别视频所对应的视频识别结果。

本申请第二方面提供一种视频类别识别装置,包括:

获取模块,用于获取待识别视频,其中,待识别视频包括至少一个视频帧;

获取模块,还用于通过第一视频识别模型获取待识别视频所对应的视频过滤分数,其中,视频过滤分数表示待识别视频属于目标类别的概率,第一视频识别模型包括p个模型参数,p为大于或等于1的整数;

获取模块,还用于若视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取待识别视频所对应的识别分数集合,其中,识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数属于目标类别的概率,第二视频识别模型包括q个模型参数,q为大于p的整数;

确定模块,用于根据识别分数集合确定待识别视频所对应的视频识别结果。

在一种可能的设计中,识别分数集合包括目标单帧分数;

获取模块,具体用于通过第二视频识别模型,获取待识别视频所对应的目标单帧分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;

确定模块,具体用于若目标单帧分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标单帧分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

在一种可能的设计中,识别分数集合包括目标视频分数;

确定模块,具体用于通过第二视频识别模型,获取待识别视频所对应的目标视频分数;

若目标视频分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标视频分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

在一种可能的设计中,识别分数集合包括目标单帧分数以及目标视频分数;

确定模块,具体用于通过第二视频识别模型,获取待识别视频所对应的目标单帧分数以及目标视频分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;

若目标单帧分数以及目标视频分数中的至少一项大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标单帧分数与目标视频分数均小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

在一种可能的设计中,获取模块,具体用于通过第一视频识别模型所包括的第一卷积层,获取待识别视频所对应的第一特征图集合,其中,第一特征图集合包括至少一个第一特征图,每个第一特征图对应一个视频帧;

通过第一视频识别模型所包括的第二卷积层,获取第一特征图集合所对应的第一注意力权重集合,其中,第一注意力权重集合包括至少一个第一注意力权重,每个第一注意力权重对应一个第一特征图;

根据第一注意力权重集合以及第一特征图集合,生成第二特征图集合,其中,第二特征图集合包括至少一个第二特征图,每个第二特征图对应一个视频帧;

通过第一视频识别模型所包括的第一池化层,获取第二特征图集合所对应的第三特征图集合,其中,第三特征图集合包括至少一个第三特征图,每个第三特征图对应一个第二特征图;

基于第三特征图集合,通过第一视频识别模型获取视频过滤分数。

在一种可能的设计中,获取模块,具体用于通过第一视频识别模型所包括的第二池化层,获取第三特征图集合所对应的第一特征向量集合,其中,第一特征向量集合包括至少一个第一特征向量,每个第一特征向量对应一个第三特征图;

对第一特征向量集合进行特征融合,得到第二特征向量;

通过第一视频识别模型所包括的第一全连接层,获取第二特征向量所对应的视频过滤分数。

在一种可能的设计中,获取模块,具体用于通过第二视频识别模型所包括的第三卷积层,获取待识别视频所对应的第四特征图集合,其中,第四特征图集合包括至少一个第四特征图,每个第四特征图对应一个视频帧;

通过第二视频识别模型所包括的第四卷积层,获取第四特征图集合所对应的第二注意力权重集合,其中,第二注意力权重集合包括至少一个第二注意力权重,每个第二注意力权重对应一个第四特征图;

根据第二注意力权重集合以及第四特征图集合,生成第五特征图集合,其中,第五特征图集合包括至少一个第五特征图,每个第五特征图对应一个视频帧;

通过第二视频识别模型所包括的第三池化层,获取第五特征图集合所对应的第六特征图集合,其中,第六特征图集合包括至少一个第六特征图,每个第六特征图对应一个第五特征图;

基于第六特征图集合,通过第二视频识别模型获取在视频类别识别阶段的识别分数集合。

在一种可能的设计中,获取模块,具体用于通过第二视频识别模型所包括的第四池化层,获取第六特征图集合所对应的第三特征向量集合,其中,第三特征向量集合包括至少一个第三特征向量,每个第三特征向量对应一个第六特征图;

对第三特征向量集合进行特征融合,得到第四特征向量;

通过第二视频识别模型所包括的第二全连接层,获取第四特征向量在视频类别识别阶段的目标视频分数;

通过第二视频识别模型所包括的第三全连接层,获取第三特征向量集合所对应的单帧分数集合,其中,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个第三特征向量;

根据单帧分数集合获取在视频类别识别阶段的目标单帧分数,其中,目标单帧分数为单帧分数集合中的最大值。

本申请第三方面提供一种模型训练装置,包括:

获取模块,用于获取第一待训练视频,其中,第一待训练视频对应于第一真实标签,第一真实标签用于表示对视频标注后得到的类型;

生成模块,用于根据获取模块获取的第一待训练视频生成第二待训练视频集合,其中,第二待训练视频集合包括至少两个第二待训练视频,第二待训练视频对应于第一真实标签集合,第一真实标签集合包括至少两个第一真实标签,每个第二待训练视频对应于一个第一真实标签,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频;

获取模块,还用于通过第一待训练视频识别模型,获取生成模块生成的第二待训练视频集合所对应的第一预测标签集合,其中,第一预测标签集合包括至少两个第一预测标签,每个第一预测标签对应一个第二待训练视频;

训练模块,用于根据第一预测标签集合以及第一真实标签集合,对第一待训练视频识别模型进行训练,得到第一视频识别模型,其中,第一视频识别模型为上述各方面中任一项的第一视频识别模型。

在一种可能的设计中,第一待训练视频还对应于第二真实标签,第二真实标签用于表示对视频标注后得到的拼图类型;

获取模块,具体用于通过第一待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合以及第二预测标签集合,其中,第二预测标签集合包括至少两个第二预测标签,每个第二预测标签对应一个第二待训练视频,第二预测标签表示对视频预测后得到的拼图类型;

训练模块,具体用于根据第一预测标签集合、第二预测标签集合、第一真实标签集合以及第二真实标签集合,对第一待训练视频识别模型进行训练,得到第一视频识别模型。

本申请第四方面提供另一种模型训练装置,包括:

获取模块,用于获取第一待训练视频,其中,第一待训练视频对应于第一真实标签,第一真实标签用于表示对视频或图像帧标注后得到的类型;

分帧模块,用于对获取模块获取的第一待训练视频进行分帧处理,得到第一图像帧集合,其中,第一图像帧集合包括n个第一图像帧,n为大于1的整数,每个第一图像帧对应于第一真实标签;

生成模块,用于根据获取模块获取的第一待训练视频生成第二待训练视频集合,其中,第二待训练视频集合包括至少两个第二待训练视频,第二待训练视频对应于第一真实标签集合,第一真实标签集合包括至少两个第一真实标签,每个第二待训练视频对应于一个第一真实标签,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频;

生成模块,还用于根据分帧模块得到的第一图像帧集合生成第二图像帧集合,其中,第二图像帧集合包括m个第二图像帧,m为大于1的整数,每个第二图像帧对应于第一真实标签,第二图像帧集合包括至少两个不同分辨率下的第二图像帧;

获取模块,还用于通过第二待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合,以及第二图像帧集合所对应第二预测标签集合,其中,第一预测标签集合包括至少两个第一预测标签,每个第一预测标签对应一个第二待训练视频,第二预测标签集合包括m个第二预测标签,每个第二预测标签对应一个第二图像帧;

训练模块,用于根据第一预测标签集合、第二预测标签集合以及第一真实标签集合,对第二待训练视频识别模型进行训练,得到第二视频识别模型,其中,第二视频识别模型为上述各方面中任一项的第二视频识别模型。

在一种可能的设计中,第一待训练视频还对应于第二真实标签,第二真实标签用于表示对视频或图像帧标注后得到的拼图类型;

获取模块,具体用于通过第二待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合以及第三预测标签集合,其中,第三预测标签集合包括至少两个第三预测标签,每个第三预测标签对应一个第二待训练视频,第三预测标签表示对视频预测后得到的拼图类型;

通过第二待训练视频识别模型,获取第二图像帧集合所对应第二预测标签集合以及第四预测标签集合,第二预测标签集合包括m个第二预测标签,每个第四预测标签对应一个第二图像帧,第四预测标签表示对图像帧预测后得到的拼图类型;

训练模块,具体用于根据第一预测标签集合、第二预测标签集合、第三预测标签集合、第四预测标签集合、第一真实标签集合以及第二真实标签集合,对第二待训练视频识别模型进行训练,得到第二视频识别模型。

本申请的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请实施例中,提供了一种视频类别识别的方法,可以先获取包括至少一个视频帧的待识别视频,然后通过第一视频识别模型获取待识别视频所对应的视频过滤分数,当视频过滤分数大于或等于过滤分数阈值时,则可以通过第二视频识别模型获取待识别视频所对应的识别分数集合,而目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数属于目标类别的概率,最后根据识别分数集合确定待识别视频所对应的视频识别结果。通过上述方式,先通过精度较低且模型参数较少的第一视频识别模型对大量视频进行粗过滤,从而保证较高的处理性能,再通过精度较高且模型参数较多的第二视频识别模型对粗过滤后的视频进行筛选,从而保证较高的识别精度,由此,能够在提高视频处理效率同时保证视频的识别准确度。

附图说明

图1为本申请实施例中视频类别识别系统的一个架构示意图;

图2为本申请实施例中视频类别识别的方法一个流程示意图;

图3为本申请实施例中视频类别识别方法实施例一的示意图;

图4为本申请实施例中视频类别识别方法实施例二的示意图;

图5为本申请实施例中视频类别识别方法实施例三的示意图;

图6为本申请实施例中视频类别识别方法实施例四的示意图;

图7为本申请实施例中视频类别识别方法实施例五的示意图;

图8为本申请实施例中视频类别识别方法实施例七的示意图;

图9为本申请实施例中模型训练方法实施例一的流程示意图;

图10为本申请实施例中模型训练方法实施例一的训练集生成方式示意图;

图11为本申请实施例中模型训练方法实施例二的示意图;

图12为本申请实施例中模型训练方法实施例三的示意图;

图13为本申请实施例中视频类别识别装置一个实施例示意图;

图14为本申请实施例中模型训练装置一个实施例示意图;

图15为本申请实施例中模型训练装置另一实施例示意图;

图16为本申请实施例中服务器一个结构示意图。

具体实施方式

本申请实施例提供了一种视频类别识别的方法及相关装置,能够在提高视频处理效率同时保证视频的识别准确度。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解,本申请可以应用于视频类别识别的场景,视频类别识别即可以对视频的类别进行判断,确定视频归属于某一个或某多个类别,视频类别识别已覆盖互联网、电视以及移动终端等,并且兼具影视、综艺以及资讯等内容形态,贯通视频内容制作、播出以及发行等环节,因此对需要对视频类别进行准确识别,从而可以在数量庞大的视频数据库中,可以根据视频类别识别结果提升搜索视频的效率,还可以根据视频类别识别结果屏蔽带有不良内容的视频。具体地,本申请所提供的视频类别识别方法可以应用于如下几类视频网站。

一类视频网站为对等(peer-to-peer,p2p)网络电视,即采用p2p技术来实现节目的传输。另一类视频网站为p2p下载观看的视频网站,即实现影视文件观看与下载同步。另一类视频网站为视频分享网站,即用户创造内容网站(usergeneratedcontent,ugc)。另一类视频网站为电信平台,即指电信运营商自行开设的视频网站。另一类视频网站为视频搜索网站,即提供视频搜索服务的网站。另一类视频网站为垂直视频网站,即以一个行业为中心,提供专业的视频服务。另一类视频网站为门户视频网站,即为门户设立的视频频道。

为了能够更好地识别特定类型的视频,提高视频处理效率并且还可以保证视频的识别准确度,本申请提出了一种视频类别识别的方法,该方法应用于图1所示的视频类别识别系统,请参阅图1,图1为本申请实施例中视频类别识别系统的一个架构示意图,如图所示,视频类别识别系统中包括服务器和终端设备。而视频类别识别装置可以部署于服务器,也可以部署于具有较高计算力的终端设备,下面将以视频类别识别装置部署于服务器为例进行介绍。

具体地,在对视频类别进行识别之前,需要先获取到包括至少一个视频帧的待识别视频,然后通过第一视频识别模型获取待识别视频所对应的视频过滤分数,该第一视频识别模型又可以称为快速卷积神经网络(convolutionalneuralnetworks,cnn)模型。在视频过滤分数大于或等于过滤分数阈值的情况下,通过第二视频识别模型获取待识别视频所对应的识别分数集合,第二视频识别模型又可以称为精准cnn模型,快速cnn模型的模型数量通常。仅为精准cnn模型的五分之一。识别分数集合包括至少一个分数,最后即可以根据识别分数集合确定待识别视频所对应的视频识别结果。由于第二视频识别模型中的模型参数大于第一视频识别模型中的模型参数,因此视频类别识别装置先通过精度较低且模型参数较少的第一视频识别模型对大量视频进行粗过滤,可以先保证较高的处理性能,然后再通过精度较高且模型参数较多的第二视频识别模型对粗过滤后的视频进行筛选,从而保证较高的识别精度,由此能够在提高视频处理效率同时保证视频的识别准确度。

需要说明的是,图1中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等,具体此处均不限定。终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personalcomputer,pc)及语音交互设备,也可以为监控设备、人脸识别设备等,此处不做限定。其中,语音交互设备包含但不仅限于智能音响以及智能家电。在部分实现方式中,还可以通过终端设备上部署的网页客户端或者应用程序类客户端实现视频识别。

为了便于说明,请参阅图2,图2为本申请实施例中视频类别识别的方法一个流程示意图,如图所示,本申请所提供的视频类别识别方法可以分为离线训练过程以及在线预测过程,具体地:

在步骤s1中,在离线的时候可以人工采集大量已标注视频类别的视频;

在步骤s2中,对已标注视频类别的视频做数据增强处理,其中,包括对已标注的视频进行分辨率调整以及拼图标签的标注;

在步骤s3中,对处理后的标注视频进行训练,得到第一视频识别模型,即得到快速cnn模型;

在步骤s4中,对处理后的标注视频进行训练,得到第二视频识别模型,即得到精准cnn模型;

在步骤s5中,在线上获取测试视频,即获取待识别视频;

在步骤s6中,先对待识别视频进行均匀截帧处理,得到若干图像帧,然后将这些视频帧输入至快速cnn模型中,得到视频过滤分数,如果该视频过滤分数大于或等于过滤分数阈值,则继续将这些视频帧输入至精准cnn模型中;

在步骤s7中,由精准cnn模型中输出目标单帧分数;

在步骤s8中,由精准cnn模型中输出目标视频分数;

在步骤s9中,对目标单帧分数以及目标视频分数进行比较,如果目标单帧分数或者目标视频分数大于等于第二分数阈值,则执行步骤s11,如果目标单帧分数和目标视频分数均小于第二分数阈值,则执行步骤s10;

在步骤s10中,如果目标单帧分数和目标视频分数均小于第二分数阈值,则确定该待识别视频为正常视频类别;

在步骤s11中,如果目标单帧分数或者目标视频分数大于等于第二分数阈值,则确定该待识别视频为特定视频类别。

结合上述介绍,下面将对本申请中视频类别识别的方法进行介绍,请参阅图3,图3为本申请实施例中视频类别识别方法实施例一的示意图,如图所示,具体地:

视频类别识别方法的实施例一

101、获取待识别视频,其中,待识别视频包括至少一个视频帧;

本实施例中,视频类别识别装置可以获取到包括待识别视频,而待识别视频可以为视频类别识别装置通过有线网络接收到的视频,还可以为视频类别识别装置预先存储在数据库中的视频。应理解,本实施例以待识别视频为大量视频中的一个视频为例进行说明,在实际应用中本实施例视频类别识别的方法还可以应用于大量视频的识别,而不仅限于一个视频,在此不做限定。

可以理解的是,待识别视频的视频格式包含但不仅限于运动图像专家组(motionpictureexpertsgroup,mpeg)格式、音频视频交错(audiovideointerleaved,avi)、格式、高级流格式(advancedstreamingformat,asf)以及视频容器可变比特率文件格式(realmediavariablebitratefileformat,rmvb)。

需要说明的是,视频类别识别装置可以部署于服务器,也可以部署于终端设备,本申请中以视频类别识别装置部署于服务器为例进行说明,然而这不应理解为对本申请的限定。

102、通过第一视频识别模型获取待识别视频所对应的视频过滤分数,其中,视频过滤分数表示在视频过滤阶段待识别视频属于目标类别的概率,第一视频识别模型包括p个模型参数,p为大于或等于1的整数;

本实施例中,视频类别识别装置将待识别视频作为第一视频识别模型的输入,通过该第一视频识别模型输出待识别视频所对应的视频过滤分数,该视频过滤分数表示视频过滤阶段待识别视频属于目标类别的概率,且第一视频识别模型包括p个模型参数。

本实施例中的目标类别即为特定视频类型,以目标类别为动物类别,且视频过滤分数为90作为示例进行说明,则表示待识别视频属于动物类别的概率为90%。再以目标类别为植物类别,且视频过滤分数为40作为示例进行说明,则表示待识别视频属于植物类别的概率为40%。应理解,在实际应用中目标类别还可以包括但不限于美食类别以及动画片,目标类别均应当结合实际情况灵活确定。

103、若视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取待识别视频在视频类别识别阶段的识别分数集合,其中,识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数所对应视频帧属于目标类别的概率,第二视频识别模型包括q个模型参数,q为大于p的整数;

本实施例中,视频类别识别装置可以将该视频过滤分数与过滤分数阈值进行比对,当视频过滤分数大于或等于过滤分数阈值时,则指示该待识别视频为特定视频的概率较高,因此可以进一步地将该待识别视频作为第二视频识别模型的输入,通过该第二视频识别模型输出在视频类别识别阶段的识别分数集合,该识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数所对应视频帧属于目标类别的概率。

具体地,第一视频识别模型容错率可以达到50%,即可能存在普通视频类别被认为是目标类别的情况,从有效的避免遗漏目标类别下的视频。本实施例中以p参数个数为q参数个数的20%为例进行说明,在实际应用中还可以为其他比值,另外,识别分数集合可以仅包括目标单帧分数,还可以仅包括目标视频分数,还可以同时包括目标单帧分数与目标视频分数。

为了便于理解,以特定视频类别为动物类视频为例进行说明,通过第一视频识别模型对待识别视频中动物毛发,纹理以及动作进行特征提取,然后进行判别以得到视频过滤分数,当待识别视频为动画片时,则所获取的视频过滤分数可能小于过滤分数阈值,而当待识别视频为动物毛绒玩具类视频时,则所获取的视频过滤分数可能大于过滤分数阈值,由于第二视频识别模型的参数大于第一视频识别模型的参数,因此进一步地将待识别视频作为第二视频识别模型的输入,能够提高对特征获取的准确度,并输出识别分数集合。

104、根据识别分数集合确定待识别视频所对应的视频识别结果。

本实施例中,视频类别识别装置可以根据识别分数集合确定待识别视频所对应的视频识别结果。本实施例中视频识别结果可以为“属于特定视频类别”或“不属于特定视频类别”,还可以为“属于特定视频类别的概率”,又或者是“属于特定视频类别的分数”。若待识别视频为特定视频类别,则视频识别结果为“属于特定视频类别”,或者,属于特定视频类别的概率为95%,又或者,属于特定视频类别的分数为95分。

本申请实施例中,提供了一种视频类别识别的方法,通过上述方式,先通过精度较低且模型参数较少的第一视频识别模型对大量视频进行粗过滤,从而保证较高的处理性能,再通过精度较高且模型参数较多的第二视频识别模型对粗过滤后的视频进行筛选,从而保证较高的识别精度,由此,能够在提高视频处理效率同时保证视频的识别准确度。

视频类别识别方法的实施例二

可选地,识别分数集合包括目标单帧分数;

通过第二视频识别模型获取待识别视频在视频类别识别阶段的识别分数集合,包括:

通过第二视频识别模型,获取待识别视频在视频类别识别阶段的目标单帧分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;

根据识别分数集合确定待识别视频所对应的视频识别结果,包括:

若目标单帧分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标单帧分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

本实施例中,识别分数集合可以仅包括目标单帧分数,视频类别识别装置可以将待识别视频作为第二视频识别模型的输入,该待识别视频中包括有至少一个视频帧,因此该第二视频识别模型可以获取待识别视频中的视频帧所对应的单帧分数,然后得到单帧分数集合。由于每个单帧分值对应一个视频帧,因此单帧分数集合包括至少一个单帧分数,进而将单帧分数集合中最大值所对应的单帧分数确定为目标单帧分数,该第二视频识别模型即可以输出待识别视频所对应的目标单帧分数。

为了便于理解,以待识别视频中包括20个视频帧为示例进行说明,请参阅图4,图4为本申请实施例中视频类别识别方法实施例二的示意图,如图所示,将待识别视频a1作为第二视频识别模型中的卷积层输入,该卷积层先输出特征图a2,然后将特征图a2作为第二视频识别模型中的池化层输入,由池化层输出20个特征向量,再将20个特征向量作为第二视频识别模型中全连接层的输入,由全连接层输出待识别视频中20个视频帧所对应的单帧分数集合,最后采用取最大值的函数从单帧分数集合中选择最大的分数为目标单帧分数。

具体地,本实施例中待识别视频在进入卷积层前,还可以进行批标准化(batchnormalization,bn)处理,bn可以通过一定的规范化手段,把每层神经网络任意神经元的输入值分布拉回到均值为0方差为1的标准正态分布,把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,这样输入的小变化就会导致损失函数较大的变化,通过bn能够让梯度变大,避免梯度消失问题产生,梯度变大也意味着学习收敛速度快,能提升模型训练速度。

视频类别识别装置还可以将获取到的目标单帧分数与第二分数阈值进行对比,当目标单帧分数大于或等于第二分数阈值时,则确定待识别视频属于第一视频识别结果,本实施例以第一视频识别结果为“属于特定视频类别”作为示例。当目标单帧分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,本实施例以第二视频识别结果为“不属于特定视频类别”作为示例。应理解,在实际应用中,第一视频识别结果还可以为“不属于特定视频类别”,而第二视频识别结果还可以为“属于特定视频类别”,第二视频识别结果与第一视频识别结果属于不同的识别结果即可,这不应理解为本申请的限定。为了便于理解,当待识别视频待识别视频所对应的目标单帧分数大于等于第二分数阈值时,则可以确定该待识别视频即为特定视频,例如待识别视频可以为科幻类视频。而当待识别视频待识别视频所对应的目标单帧分数小于第二分数阈值时,则可以确定该待识别视频为普通视频,例如待识别视频可以但不限于为美食纪录片,动画片,旅游宣传片,比赛纪录片以及其他视频。

本申请实施例中,提供了利用单帧分数进行视频类别识别的方法,通过上述方式,根据待识别视频中的视频帧获取对应分数,提升视频帧特征获取准确度,从而提升分数准确度,其次以分值最高的分数作为目标单帧分数,并且以该目标单帧分数进行识别结果的获取,由此提升待识别视频的识别准确度。

视频类别识别方法的实施例三

可选地,识别分数集合包括目标视频分数;

通过第二视频识别模型获取待识别视频在视频类别识别阶段的识别分数集合,包括:

通过第二视频识别模型,获取待识别视频在视频类别识别阶段的目标视频分数;

根据识别分数集合确定待识别视频所对应的视频识别结果,包括:

若目标视频分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标视频分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

本实施例中,识别分数集合包括目标视频分数,视频类别识别装置可以将待识别视频作为第二视频识别模型的输入,将待识别视频所对应的目标视频分数作为第二视频识别模型的输出。

为了便于理解,以待识别视频中包括5个视频帧为示例进行说明,请参阅图5,图5为本申请实施例中视频类别识别方法实施例三的示意图,如图所示,将待识别视频b1作为第二视频识别模型中的卷积层输入,由该卷积层输出特征图b2,然后将特征图b2作为第二视频识别模型中的池化层输入,假设该池化层输出5个第一特征向量,于是将5个第一特征向量进行最大化融合得到融合后的第二特征向量b3,例如5个第一特征向量分别为(5,8,10),(6,9,6),(6,8,10),(7,10,4)以及(8,8,6),于是融合后的第二特征向量b3表示为(8,10,10),将融合后的第二特征向量b3作为第二视频识别模型中全连接层的输入,由该全连接层输出待识别视频所对应的目标视频分数。应理解,本实施例中待识别视频在进入卷积层前,还可以进行bn处理,从而能够避免梯度消失问题产生,还能提升模型训练速度,具体方法在前述实施例中已经描述,在此不再赘述。

视频类别识别装置还可以将获取到的目标视频分数与第二分数阈值进行对比,当目标单帧分数大于或等于第二分数阈值时,则确定待识别视频属于第一视频识别结果。可以理解的是,识别的方式与上述实施例中介绍的方式类似,此处不做赘述。

本申请实施例中,提供了利用视频分数进行视频类别识别的方法,通过上述方式,根据待识别视频获取对应分数,提升视频中视频帧间关系特征提取准确度,从而提升分数准确度,其次以将视频对应特征进行融合后确定目标视频分数,并且以该目标视频分数进行识别结果的获取,由此提升待识别视频的识别准确度。

视频类别识别方法的实施例四

可选地,识别分数集合包括目标单帧分数以及目标视频分数;

通过第二视频识别模型获取待识别视频在视频类别识别阶段的识别分数集合,包括:

通过第二视频识别模型,获取待识别视频在视频类别识别阶段的目标单帧分数以及目标视频分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;

根据识别分数集合确定待识别视频所对应的视频识别结果,包括:

若目标单帧分数以及目标视频分数中的至少一项大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标单帧分数与目标视频分数均小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

本实施例中,识别分数集合包括目标单帧分数以及目标视频分数,视频类别识别装置可以将待识别视频作为第二视频识别模型的输入,该待识别视频中包括有至少一个视频帧,因此该第二视频识别模型可以获取待识别视频中的视频帧所对应的单帧分数,然后得到单帧分数集合,由于每个单帧分值对应一个视频帧,因此单帧分数集合包括至少一个单帧分数,进而将单帧分数集合中最大值所对应的单帧分数确定为目标单帧分数。其次,视频类别识别装置还可以将待识别视频所对应的目标视频分数作为第二视频识别模型的输出。

为了便于理解,以待识别视频中包括3个视频帧为示例进行说明,请参阅图6,图6为本申请实施例中视频类别识别方法实施例四的示意图,如图所示,将待识别视频c1作为第二视频识别模型中的卷积层输入,通过该卷积层会输出特征图c2,然后将特征图c2作为第二视频识别模型中的池化层输入,该由池化层输出3个第一特征向量,将3个第一特征向量作为第二视频识别模型中全连接层的输入,由该全连接层输出待识别视频中3个视频帧所对应的单帧分数集合,由于每个单帧分值对应一个视频帧,因此该单帧分数集合包括3个单帧分数,然后将3个单帧分数中最大的分数作为目标单帧分数。此外,还可以将3个第一特征向量进行最大化融合得到融合后的第二特征向量c3,例如3个第一特征向量分别为(5,8,9),(7,10,4)以及(6,9,10),那融合后的第二特征向量c3即为(7,10,10),将融合后的第二特征向量c3作为第二视频识别模型中全连接层的输入,由该全连接层即可输出待识别视频所对应的目标视频分数,最后得到待识别视频在视频类别识别阶段的目标单帧分数以及目标视频分数。应理解,本实施例中待识别视频在进入卷积层前,还可以进行bn处理,从而能够避免梯度消失问题产生,还能提升模型训练速度,具体方法在前述实施例中已经描述,在此不再赘述。

进一步地,视频类别识别装置还可以将获取到的目标单帧分数以及目标视频分数与第二分数阈值进行对比,当目标单帧分数以及目标视频分数中至少一项大于或等于第二分数阈值时,则确定待识别视频属于第一视频识别结果,本实施例以第一视频识别结果为“属于特定视频类别”作为示例,即待识别视频为特定视频类别,即目标单帧分数大于或等于第二分数阈值,或者目标视频分数大于或等于第二分数阈值,或者目标单帧分数以及目标视频均大于或等于第二分数阈值时,可以确定待识别视频属于第一视频识别结果。当目标单帧分数以及目标视频分数均小于第二分数阈值,则确定待识别视频属于第二视频识别结果,本实施例以第二视频识别结果为“不属于特定视频类别”作为示例,即待识别视频不属于特定视频类别。

本申请实施例中,提供了利用目标单帧分数以及目标视频分数共同进行视频类别识别的方法,通过上述方式,根据待识别视频获取对应的目标单帧分数以及目标视频分数,并且以该目标单帧分数以及目标视频分数进行识别结果的获取,提升视频中视频帧间关系特征提取准确度,从而提升分数准确度,其次以将视频对应特征进行融合后确定目标视频分数,提升对视频帧特征获取准确度,并通过视频中视频帧间信息提升特征准确度,从而保证较高的识别准确度,由此能够在提高视频处理效率同时保证视频的识别准确度。

视频类别识别方法的实施例五

可选地,通过第一视频识别模型获取待识别视频所对应的视频过滤分数,可以包括:

通过第一视频识别模型所包括的第一卷积层,获取待识别视频所对应的第一特征图集合,其中,第一特征图集合包括至少一个第一特征图,每个第一特征图对应一个视频帧;

通过第一视频识别模型所包括的第二卷积层,获取第一特征图集合所对应的第一注意力权重集合,其中,第一注意力权重集合包括至少一个第一注意力权重,每个第一注意力权重对应一个第一特征图;

根据第一注意力权重集合以及第一特征图集合,生成第二特征图集合,其中,第二特征图集合包括至少一个第二特征图,每个第二特征图对应一个视频帧;

通过第一视频识别模型所包括的第一池化层,获取第二特征图集合所对应的第三特征图集合,其中,第三特征图集合包括至少一个第三特征图,每个第三特征图对应一个第二特征图;

基于第三特征图集合,通过第一视频识别模型获取视频过滤分数。

本实施例中,视频类别识别装置将待识别视频作为第一卷积层的输入,由第一卷积层输出待识别视频所对应的第一特征图集合,该第一特征图集合包括至少一个第一特征图,而每个第一特征图与待识别视频中的一个视频帧对应。然后将第一特征图集合作为第一视频识别模型所包括的第二卷积层的输入,由第二卷积层输出第一特征图集合所对应的第一注意力权重集合,该第一注意力权重集合包括至少一个第一注意力权重,并且每个第一注意力权重对应一个第一特征图。根据前述获取的第一注意力权重集合以及第一特征图集合,生成包括至少一个第二特征图的第二特征图集合,每个第二特征图与待识别视频中的视频帧一一对应。再将第二特征图集合作为第一视频识别模型所包括的第一池化层的输入,由第一池化层即输出第二特征图集合所对应的第三特征图集合,该第三特征图集合包括至少一个第三特征图,并且每个第三特征图对应一个第二特征图,最后基于第三特征图集合获取视频过滤分数。

具体地,第一池化层可以使得第二特征图对应的特征减少,但第一池化层可以用于保持第二特征图通过旋转、平移以及伸缩等方式后不改变其特征。池化层包括但不限于最大池化(max-pooling)层以及平均池化(average-pooling)层。通常来说,平均池化能减小邻域大小受限造成的估计值方差增大的问题,更多的保留图像的背景信息,而最大池化能减小卷积层参数误差造成估计均值的偏移的问题,更多的保留纹理信息。而由于本实施例中待识别视频底层特征噪声较大,若第一池化层采用最大池化的方式会放大噪声,因此第一池化层可以采用平均池化方式,应理解,在实际应用中,第一池化层采用的池化方式均应当结合实际情况灵活确定。

为了便于理解,以待识别视频中包括100个视频帧为示例进行说明,请参阅图7,图7为本申请实施例中视频类别识别方法实施例五的示意图,如图7中(a)所示的待识别视频d1作为第一卷积层的输入,由第一卷积层会输出100个第一特征图,而100个第一特征图可组成第一特征图集合d2,以该第一特征图集合d2中的其中一个第一特征图作为示例进行进一步说明,如图7中(b)所示,第一特征图d3为第一特征图集合d2中的一个特征图,将该第一特征图d3作为第二卷积层的输入,由第二卷积层输出第一特征图d3所对应的第一注意力权重d4,该第一注意力权重d4与第一特征图d3尺寸相等。然后将所获取的第一特征图d3以及第一注意力权重d4进行点乘,即可生成第二特征图,其中,点乘表示将矩阵中每个对应元素相乘。将第二特征图作为第一池化层的输入,由第一池化层即输出第二特征图所对应的第三特征图。应理解,在实际应用中,第一特征图集合d2中的每一个第一特征图均可以采用类似的方式进行第三特征图的获取,因此100个第一特征图可以通过前述方式获取到对应的100个第三特征图,再通过第一视频识别模型根据该第三特征图集合获取视频过滤分数。

本申请实施例中,提供了一种获取视频过滤分数的方法,通过上述方式,通过第二卷积层的注意力机制和以及平均池化生成第三特征图,能够池化降维过程中保留具有区分力的特征信息,而根据区分力较高的第三特征图所生成的准确度也较高,因此根据该第三特征图所获取到的视频过滤分数准确度也较高,由此提升视频类别识别结果的准确性。

视频类别识别方法的实施例六

可选地,基于第三特征图集合,通过第一视频识别模型获取视频过滤分数,可以包括:

通过第一视频识别模型所包括的第二池化层,获取第三特征图集合所对应的第一特征向量集合,其中,第一特征向量集合包括至少一个第一特征向量,每个第一特征向量对应一个第三特征图;

对第一特征向量集合进行特征融合,得到第二特征向量;

通过第一视频识别模型所包括的第一全连接层,获取第二特征向量所对应的视频过滤分数。

本实施例中,视频类别识别装置可以将第三特征图集合作为第二池化层的输入,该第二池化层输出第一特征向量集合,第一特征向量集合包括至少一个第一特征向量,并且每个第一特征向量对应一个第三特征图,然后对第一特征向量集合进行特征融合,得到第二特征向量,将第二特征向量作为第一视频识别模型所包括的第一全连接层的输入,该第一全连接层输出第二特征向量所对应的视频过滤分数。应理解,本实施例中特征融合采用最大化融合的方式,在实际应用中还可以为其他特征融合方式,在此不做限定。第一全连接层输出的为待识别视频的类型为特定视频类别的概率,可以直接作为视频过滤分数,也可以将该概率归一化处理后所得到的分数作为视频过滤分数,在实际应用中,视频过滤分数以何种方式确定均应当结合实际情况灵活确定。

为了便于理解,以待识别视频包括有3个视频帧为示例进行说明,即第三特征图集合包括3个第三特征图,且每个第三特征图对应一个第一特征向量,假设第一特征向量分别为(0.3,0.7,0.9,0.6,0.5),(0.4,0.6,0.8,0.7,0.4)以及(0.2,0.7,0.6,0.8,0.4),于是对第一特征向量集合进行最大值特征融合,可以得到第二特征向量(0.4,0.7,0.9,0.8,0.5),再将第二特征向量作为第一视频识别模型所包括的第一全连接层的输入,由第一全连接层输出视频过滤分数。

本申请实施例中,提供了一种视频过滤分数的生成方法,通过上述方式,通过第二池化层获取至少一个第一特征向量,通过特征融合生成第二特征向量,该第二特征向量包括有待识别视频中的大部分特征信息,因此通过该第二特征向量生成的视频过滤分数准确度较高,从而提升视频类别识别结果的准确度。

视频类别识别方法的实施例七

可选地,通过第二视频识别模型获取待识别视频在视频类别识别阶段的识别分数集合,可以包括:

通过第二视频识别模型所包括的第三卷积层,获取待识别视频所对应的第四特征图集合,其中,第四特征图集合包括至少一个第四特征图,每个第四特征图对应一个视频帧;

通过第二视频识别模型所包括的第四卷积层,获取第四特征图集合所对应的第二注意力权重集合,其中,第二注意力权重集合包括至少一个第二注意力权重,每个第二注意力权重对应一个第四特征图;

根据第二注意力权重集合以及第四特征图集合,生成第五特征图集合,其中,第五特征图集合包括至少一个第五特征图,每个第五特征图对应一个视频帧;

通过第二视频识别模型所包括的第三池化层,获取第五特征图集合所对应的第六特征图集合,其中,第六特征图集合包括至少一个第六特征图,每个第六特征图对应一个第五特征图;

基于第六特征图集合,通过第二视频识别模型获取在视频类别识别阶段的识别分数集合。

本实施例中,视频类别识别装置将待识别视频作为第三卷积层的输入,由第三卷积层输出第四特征图集合,该第四特征图集合包括至少一个第四特征图,而每个第四特征图与待识别视频中的一个视频帧对应。将第四特征图集合作为第四卷积层的输入,由第四卷积层输出第四特征图集合所对应的第二注意力权重集合,该第二注意力权重集合包括至少一个第二注意力权重,并且每个第二注意力权重对应一个第四特征图。根据前述获取的第二注意力权重集合以及第四特征图集合,生成第五特征图集合,每个第五特征图与待识别视频中的视频帧一一对应。再将第五特征图集合作为第三池化层的输入,由第三池化层输出第二特征图集合所对应的第六特征图集合,该第六特征图集合包括至少一个第六特征图,并且每个第六特征图对应一个第三特征图,最后基于第六特征图集合获取在视频类别识别阶段的识别分数集合。

具体地,第三池化层包括但不限于最大池化以及平均池化,在实际应用中,第三池化层采用的池化方式均应当结合实际情况灵活确定。

为了便于理解,以待识别视频中包括20个视频帧为示例进行说明,请参阅图8,图8为本申请实施例中视频类别识别方法实施例七的示意图,如图8中(a)所示的待识别视频e1作为第三卷积层输入,第三卷积层会输出20个第四特征图,而20个第一特征图即可组成第四特征图集合e2,以该第四特征图集合e2中的其中一个第四特征图作为示例进行进一步说明,如图8中(b)所示,第四特征图e3为第四特征图集合e2中的一个特征图,将该第四特征图e3作为第四卷积层的输入,由第四卷积层输出第四特征图e3所对应的第二注意力权重e4,该第二注意力权重e4与第四特征图e3尺寸相等。然后将所获取的第四特征图e3以及第二注意力权重e4进行点乘,即可生成第五特征图,将第五特征图作为第三池化层的输入,第三池化层即可以输出第五特征图所对应的第六特征图。

应理解,在实际应用中,第四特征图集合e2中的每一个第四特征图均可以采用类似的方式得到第六特征图的获取,此处不做赘述。

本申请实施例中,提供了一种获取识别分数集合的方法,通过上述方式,通过第四卷积层的注意力机制和以及平均池化生成第六特征图,能够池化降维过程中保留具有区分力的特征信息,而根据区分力较高的第六特征图所生成的准确度也较高,因此根据该第六特征图所获取到的识别分数集合准确度也较高,由此提升视频类别识别结果的准确性。

视频类别识别方法的实施例八

可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的视频类别识别的方法一个可选实施例中,基于第六特征图集合,通过第二视频识别模型获取在视频类别识别阶段的识别分数集合,可以包括:

通过第二视频识别模型所包括的第四池化层,获取第六特征图集合所对应的第三特征向量集合,其中,第三特征向量集合包括至少一个第三特征向量,每个第三特征向量对应一个第六特征图;

对第三特征向量集合进行特征融合,得到第四特征向量;

通过第二视频识别模型所包括的第二全连接层,获取第四特征向量在视频类别识别阶段的目标视频分数;

通过第二视频识别模型所包括的第三全连接层,获取第三特征向量集合所对应的单帧分数集合,其中,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个第三特征向量;

根据单帧分数集合获取在视频类别识别阶段的目标单帧分数,其中,目标单帧分数为单帧分数集合中的最大值。

本实施例中,视频类别识别装置可以将第六特征图集合作为第四池化层的输入,由该第四池化层输出第三特征向量集合,该第三特征向量集合包括至少一个第三特征向量,并且每个第三特征向量对应一个第六特征图,然后对第三特征向量集合进行特征融合,得到第四特征向量。应理解,本实施例中特征融合采用最大化融合的方式,在实际应用中还可以为其他特征融合方式,在此不做限定。

视频类别识别装置可以将第四特征向量作为第二全连接层的输入,由第二全连接层输出第四特征向量所对应的在视频类别识别阶段的目标视频分数。此外,还可以将第三特征向量集合作为第三全连接层的输入,由该第三连接层输出单帧分数集合,该单帧分数集合包括至少一个单帧分数,并且每个第三特征向量对应一个单帧分数。然后通过预设函数从单帧分数集合中选择出最大值作为目标单帧分数,从而获取在视频类别识别阶段的目标单帧分数。应理解,获取目标单帧分数与目标视频分数没有时序限制,在此不做限定。

为了便于理解,以待识别视频包括有2个视频帧为示例进行说明,在获取到第六特征图集合后,可以将该第六特征图集合作为第四池化层的输入,由第四池化层会输出2个第三特征向量,假设2个第三特征向量分别为(0.3,0.7,0.9,0.6,0.5)以及(0.4,0.6,0.8,0.7,0.4),于是对第三特征向量集合进行最大值特征融合,可以得到第四特征向量(0.4,0.7,0.9,0.7,0.5)。进一步地,可以将第四特征向量作为第二全连接层的输入,由第二全连接层输出目标视频分数,从而获取在视频类别识别阶段的目标视频分数。

此外,还可以将第三特征向量集合中的第三特征向量(0.3,0.7,0.9,0.6,0.5)以及(0.4,0.6,0.8,0.7,0.4)作为第二视频识别模型所包括的第三全连接层的输入,第三全连接层的将第三特征向量集合所对应的单帧分数集合作为输出,该单帧分数集合包括2个单帧分数,假设第三特征向量(0.3,0.7,0.9,0.6,0.5)输出的单帧分数为80,第三特征向量(0.4,0.6,0.8,0.7,0.4)输出的单帧分数为90,则将90确定为视频类别识别阶段的目标单帧分数。

本申请实施例中,提供了一种识别分数集合的生成方法,通过上述方式,通过第四池化层获取至少一个第三特征向量,并通过特征融合生成第四特征向量,该第四特征向量包括有待识别视频中的大部分特征信息,因此通过该第四特征向量生成的目标视频分数准确度较高,其次,第三特征向量集合包括视频帧中的特征信息,因此通过该第四特征向量合集生成的目标单帧分数准确度也较高,从而保证较高的识别准确度,由此能够在提高视频处理效率同时保证视频的识别准确度。

结合上述介绍,下面将对本申请中模型训练的方法进行介绍,请参阅图9,图9为本申请实施例中模型训练方法实施例一的流程示意图,如图所示,具体地:

模型训练方法的实施例一

201、获取第一待训练视频,其中,第一待训练视频对应于第一真实标签,第一真实标签用于表示对视频标注后得到的类型;

本实施例中,模型训练装置可以获取到第一待训练视频,该第一待训练视频对应于第一真实标签,而第一真实标签可以用于表示对视频标注后得到的类型。具体地,第一真实标签可以为人工为待训练视频打好的标签,例如待训练视频可以分为普通视频或者特定视频,特定视频的第一真实标签可以为1,而普通视频的第一真实标签可以为0,本实施例的示例仅为便于理解本方案,在实际应用中,第一真实标签应当结合实际情况灵活确定。

可以理解的是,为了保证真实标签的可信度,第一真实标签需要人为确认。

第一待训练视频可以为模型训练装置通过有线网络接收到的视频,还可以为模型训练装置预先存储在数据库中的视频。需要说明的是,模型训练装置可以部署于服务器,也可以部署于终端设备,本申请中以模型训练装置部署于服务器为例进行说明,然而这不应理解为对本申请的限定。

202、根据第一待训练视频生成第二待训练视频集合,其中,第二待训练视频集合包括至少两个第二待训练视频,第二待训练视频对应于第一真实标签集合,第一真实标签集合包括至少两个第一真实标签,每个第二待训练视频对应于一个第一真实标签,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频;

本实施例中,模型训练装置可以根据该第一待训练视频生成第二待训练视频集合,每个第二待训练视频与第一真实标签具有一一对应的关系,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频。

具体地,当第一待训练视频的分辨率变化较大时,模型对于第一待训练视频的识别能力会显著下降,即使对于同一视频的不同分辨率样本,模型给出的分数也会相差较大,因此第一待训练视频可以通过改变分辨率处理,生成多个第二待训练视频,可以增强模型特征在样本分辨率不同情况下的鲁棒性。例如,对于一个分辨率为m*n的训练样本,分别存在0.1的概率会对其进行到0.8m*0.8n,0.875m*0.875n以及0.938m*0.938n三种分辨率的降采样,还存在0.7的概率维持原分辨率。应理解,0.1以及0.7的概率,以及0.8m*0.8n,0.875m*0.875n以及0.938m*0.938n三种分辨率为便于理解本方案,在实际应用中概率以及分辨率应当结合实际情况灵活确定。

为了便于理解,请参阅图10,图10为本申请实施例中模型训练方法实施例一的训练集生成方式示意图,如图所示,图10中(a)所示第一待训练视频,图10中(b)所示的为在0.7的概率中维持原分辨率的第二待训练视频,图10中(c)至(e)所示的为在0.1的概率中分辨率进行降采样的第二待训练视频,而经过由此可以得到包括图10中(b)至(e)所示的第二待训练视频集合。

203、通过第一待训练视频识别模型,获取第二待训练视频集所对应的第一预测标签集合,其中,第一预测标签集合包括至少两个第一预测标签,每个第一预测标签对应一个第二待训练视频;

本实施例中,模型训练装置将第二待训练视频集作为第一待训练视频识别模型的输入,第一待训练视频识别模型输出第一预测标签集合,其中,第一预测标签与第二待训练视频一一对应。具体地,每一个第二待训练视频都可以通过第一待训练视频识别模型输出一个第一预测标签,第一预测标签可以是0到1之间的值,该值可以表示第二待训练视频为特定视频的概率,在实际预测时的也可以用该第一预测标签对应的概率结果,第一预测标签还可以表示对第一待预测视频预测后得到的类型。

204、根据第一预测标签集合以及第一真实标签集合,对第一待训练视频识别模型进行训练,得到第一视频识别模型。

本实施例中,模型训练装置根据获取到的第一预测标签集合以及第一真实标签集合,对第一待训练视频识别模型进行训练,也就是基于第一预测标签集合以及第一真实标签集合,采用二分类损失函数更新待训练模型的模型参数,当损失函数达到收敛时,则根据模型参数生成最终的模型,由此得到第一视频识别模型,其中第一视频识别模型即为前述图3所对应的实施例中的第一视频识别模型。

本申请实施例中,提供了一种第一视频识别模型训练的方法,采用不同分辨率所对应的样本进行训练,可以提高模型的识别精度。

模型训练方法的实施例二

可选地,第一待训练视频还对应于第二真实标签,第二真实标签用于表示对视频标注后得到的拼图类型;

通过第一待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合,可以包括:

通过第一待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合以及第二预测标签集合,其中,第二预测标签集合包括至少两个第二预测标签,每个第二预测标签对应一个第二待训练视频,第二预测标签表示对视频预测后得到的拼图类型;

根据第一预测标签集合以及第一真实标签集合,对第一待训练视频识别模型进行训练,得到第一视频识别模型,可以包括:

根据第一预测标签集合、第二预测标签集合、第一真实标签集合以及第二真实标签集合,对第一待训练视频识别模型进行训练,得到第一视频识别模型。

本实施例中,第一待训练视频还可以设置有第二真实标签,第二真实标签用于表示对视频标注后得到的拼图类型,由此模型训练装置可以将第二待训练视频集合作为第一待训练视频识别模型的输入,第一待训练视频识别模型输出第一预测标签集合,以及包括至少两个第二预测标签的第二预测标签集合,其中第二预测标签与第二待训练视频一一对应,第二预测标签表示对视频预测后得到的拼图类型。具体地,第一预测标签以及第二预测标签可以是0或者1,例如,0表示视频为非拼图视频,而1表示视频为拼图视频,在实际应用中第一预测标签以及第二预测标签的值应当结合实际情况灵活确定。可以理解的是,为了保证真实标签的可信度,第二真实标签需要人为确认。

为了便于理解,请参阅图11,图11为本申请实施例中模型训练方法实施例二的示意图,如图11中(a)所示该视频为拼图视频,而图11中(b)所示该视频为非拼图视频,因此图11中(a)对应的真实标签可以为1,而图11中(b)对应的真实标签可以为0。

进一步地,模型训练装置根据获取到的第一预测标签集合、第二预测标签集合、第一真实标签集合以及第二真实标签集合,根据(二分类)损失函数更新待训练模型的模型参数,对第一待训练视频识别模型进行训练,当损失函数达到收敛时,则根据模型参数生成第一视频识别模型,该第一视频识别模型即为前述图3所对应的实施例中的第一视频识别模型。

本申请实施例中,提供了另一种第二视频识别模型训练的方法,通过上述方式,针对拼图类型的样本和非拼图类型的样本进行训练,使得第二视频识别模型具有拼图类型的识别功能,由此提升视频的识别准确度。

结合上述介绍,下面将对本申请中模型训练的方法进行介绍,请参阅图12,图12为本申请实施例中模型训练方法实施例三的示意图,如图所示,具体地:

模型训练方法的实施例三

301、获取第一待训练视频,其中,第一待训练视频对应于第一真实标签,第一真实标签用于表示对视频或图像帧标注后得到的类型;

本实施例中,模型训练装置可以获取到第一待训练视频,该第一待训练视频对应于第一真实标签,而第一真实标签可以用于表示对视频标注后得到的类型。具体地,第一真实标签可以为人工为待训练视频打好的标签,例如待训待训练视频可以分为普通视频或者特定视频,特定视频的第一真实标签可以为1,而普通视频的第一真实标签可以为0,本实施例的示例仅为便于理解本方案,在实际应用中,第一真实标签应当结合实际情况灵活确定。

可以理解的是,为了保证真实标签的可信度,第一真实标签需要人为确认。

第一待训练视频可以为模型训练装置通过有线网络接收到的视频,还可以为模型训练装置预先存储在数据库中的视频。需要说明的是,模型训练装置可以部署于服务器,也可以部署于终端设备,本申请中以模型训练装置部署于服务器为例进行说明,然而这不应理解为对本申请的限定。

302、对第一待训练视频进行分帧处理,得到第一图像帧集合,其中,第一图像帧集合包括n个第一图像帧,n为大于1的整数,每个第一图像帧对应于第一真实标签;

本实施例中,模型训练装置可以对第一待训练视频进行分帧处理,得到包括n个第一图像帧的第一图像帧集合,每个第一图像帧对应于第一真实标签,n为大于1的整数,n表示图像帧集合中图像帧的总数。

303、根据第一待训练视频生成第二待训练视频集合,其中,第二待训练视频集合包括至少两个第二待训练视频,第二待训练视频对应于第一真实标签集合,第一真实标签集合包括至少两个第一真实标签,每个第二待训练视频对应于一个第一真实标签,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频;

本实施例中,模型训练装置可以根据该第一待训练视频生成第二待训练视频集合,该第二待训练视频对应于第一真实标签集合,并且每个第二待训练视频与第一真实标签具有一一对应的关系,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频。具体地,当第一待训练视频的分辨率变化较大时,模型对于第一待训练视频的识别能力会显著下降,即使对于同一视频的不同分辨率样本,模型给出的分数也会相差较大,因此第一待训练视频可以通过改变分辨率处理,生成多个第二待训练视频,可以增强模型特征在样本分辨率不同情况下的鲁棒性,生成第二待训练视频集合与步骤202中生成第一待训练视频集合类似,在此不再赘述。

304、根据第一图像帧集合生成第二图像帧集合,其中,第二图像帧集合包括m个第二图像帧,m为大于1的整数,每个第二图像帧对应于第一真实标签,第二图像帧集合包括至少两个不同分辨率下的第二图像帧;

本实施例中,模型训练装置根据=第一图像帧集合生成包括m个第二图像帧的第二图像帧集合,每个第二图像帧对应于第一真实标签,第二图像帧集合包括至少两个不同分辨率下的第二图像帧。具体地,当第一图像帧的分辨率变化较大时,模型对于第一图像帧的识别能力会显著下降,即对于同一视频中不同第一图像帧的不同分辨率样本,模型给出的分数也会相差较大,因此第一待训练视频可以通过改变第一图像帧的分辨率处理,生成多个第二图像帧,可以增强模型特征在样本分辨率不同情况下的鲁棒性,生成第二图像帧集合与步骤202中生成第一待训练视频集合类似,在此不再赘述。

应理解,步骤303与步骤304之间没有时序限定,在此不做限定。

305、通过第二待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合,以及第二图像帧集合所对应第二预测标签集合,其中,第一预测标签集合包括至少两个第一预测标签,每个第一预测标签对应一个第二待训练视频,第二预测标签集合包括m个第二预测标签,每个第二预测标签对应一个第二图像帧;

本实施例中,模型训练装置将第二待训练视频集合与第二图像帧集合作为第二待训练视频识别模型的输入,第二待训练视频识别模型输出第一预测标签集合以及第二预测标签集合,第一预测标签与第二待训练视频一一对应,第二预测标签与第二图像帧一一对应。应理解,第一预测标签可以表示对视频预测后得到的类型,而第二预测标签可以表示对图像帧预测后得到的类型。

306、根据第一预测标签集合、第二预测标签集合以及第一真实标签集合,对第二待训练视频识别模型进行训练,得到第二视频识别模型。

本实施例中,模型训练装置基于第一预测标签集合、第二预测标签集合以及第一真实标签集合,采用二分类损失函数更新待训练模型的模型参数,对第二待训练视频识别模型进行训练,当损失函数达到收敛时,则根据模型参数生成最终的模型,由此得到第二视频识别模型,其中,第二视频识别模型即为前述图3所对应的实施例中的第二视频识别模型。应理解,第二视频识别模型可以输出目标视频分数,也可以输出目标单帧分数,还可以输出目标视频分数以及目标单帧分数。

本申请实施例中,提供了一种第二视频识别模型训练的方法,采用不同分辨率所对应的样本进行训练,可以提高模型的识别精度。

模型训练方法的实施例四

可选地,第一待训练视频还对应于第二真实标签,第二真实标签用于表示对视频或图像帧标注后得到的拼图类型;

通过第二待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合,以及第二图像帧集合所对应第二预测标签集合,可以包括:

通过第二待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合以及第三预测标签集合,其中,第三预测标签集合包括至少两个第三预测标签,每个第三预测标签对应一个第二待训练视频,第三预测标签表示对视频预测后得到的拼图类型;

通过第二待训练视频识别模型,获取第二图像帧集合所对应第二预测标签集合以及第四预测标签集合,第二预测标签集合包括m个第二预测标签,每个第四预测标签对应一个第二图像帧,第四预测标签表示对图像帧预测后得到的拼图类型;

根据第一预测标签集合、第二预测标签集合以及第一真实标签集合,对第二待训练视频识别模型进行训练,得到第二视频识别模型,可以包括:

根据第一预测标签集合、第二预测标签集合、第三预测标签集合、第四预测标签集合、第一真实标签集合以及第二真实标签集合,对第二待训练视频识别模型进行训练,得到第二视频识别模型。

本实施例中,第一待训练视频还可以对应于第二真实标签,而该第二真实标签用于表示对视频标注后得到的拼图类型,由此模型训练装置将第二待训练视频集合作为第二待训练视频识别模型的输入,第二待训练视频识别模型输出第一预测标签集合,以及包括至少两个第三预测标签的第三预测标签集合,其中第三预测标签与第二待训练视频一一对应,第三预测标签表示对视频预测后得到的拼图类型。具体地,第一预测标签以及第三预测标签可以是0或者1,例如,0表示视频为非拼图视频,而1表示视频为拼图视频,在实际应用中第一预测标签以及第三预测标签的值应当结合实际情况灵活确定。可以理解的是,为了保证真实标签的可信度,第二真实标签需要人为确认。

模型训练装置还可以将第二图像帧集合作为第二待训练视频识别模型的输入,第二待训练视频识别模型输出第二图像帧集合所对应第二预测标签集合以及第四预测标签集合,第二预测标签集合包括m个第二预测标签,第四预测标签与第二图像帧一一对应,第四预测标签表示对图像帧预测后得到的拼图类型。具体地,第二预测标签以及第四预测标签可以是0或者1,例如,0表示视频为非拼图视频,而1表示视频为拼图视频,在实际应用中第二预测标签以及第四预测标签的值应当结合实际情况灵活确定。

模型训练装置根据获取到第一预测标签集合、第二预测标签集合、第三预测标签集合、第四预测标签集合、第一真实标签集合以及第二真实标签集合,根据(二分类)损失函数更新待训练模型的模型参数,对第二待训练视频识别模型进行训练,当损失函数达到收敛时,则根据模型参数生成最终的模型,由此得到第二视频识别模型,第二视频识别模型即为前述图3所对应的实施例中的第二视频识别模型。具体地,可以通过多任务学习(multi-tasklearning)可以共享相关任务之间的表征,可以提升参数更新的准确度,从而提升第一待训练视频识别模型的准确度。

本申请实施例中,提供了另一种第二视频识别模型训练的方法,通过上述方式,针对拼图类型的样本和非拼图类型的样本进行训练,使得第二视频识别模型具有拼图类型的识别功能,由此提升视频的识别准确度。

下面对本申请中的视频类别识别装置进行详细描述,请参阅图13,图13为本申请实施例中视频类别识别装置一个实施例示意图,如图所示,视频类别识别装置400包括:

获取模块401,获取待识别视频,其中,待识别视频包括至少一个视频帧;

获取模块401,还用于通过第一视频识别模型获取待识别视频所对应的视频过滤分数,其中,视频过滤分数表示待识别视频属于目标类别的概率,第一视频识别模型包括p个模型参数,p为大于或等于1的整数;

获取模块401,还用于若视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取待识别视频所对应的识别分数集合,其中,识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数属于目标类别的概率,第二视频识别模型包括q个模型参数,q为大于p的整数;

确定模块402,用于根据识别分数集合确定待识别视频所对应的视频识别结果。

可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的视频类别识别装置400的另一实施例中,识别分数集合包括目标单帧分数;

获取模块401,具体用于通过第二视频识别模型,获取待识别视频所对应的目标单帧分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;

确定模块402,具体用于若目标单帧分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标单帧分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的视频类别识别装置400的另一实施例中,识别分数集合包括目标视频分数;

确定模块402,具体用于通过第二视频识别模型,获取待识别视频所对应的目标视频分数;

确定模块402,具体用于若目标视频分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标视频分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的视频类别识别装置400的另一实施例中,识别分数集合包括目标单帧分数以及目标视频分数;

确定模块402,具体用于通过第二视频识别模型,获取待识别视频所对应的目标单帧分数以及目标视频分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;

确定模块402,具体用于若目标单帧分数以及目标视频分数中的至少一项大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;

若目标单帧分数与目标视频分数均小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。

可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的视频类别识别装置400的另一实施例中,

获取模块401,具体用于通过第一视频识别模型所包括的第一卷积层,获取待识别视频所对应的第一特征图集合,其中,第一特征图集合包括至少一个第一特征图,每个第一特征图对应一个视频帧;

通过第一视频识别模型所包括的第二卷积层,获取第一特征图集合所对应的第一注意力权重集合,其中,第一注意力权重集合包括至少一个第一注意力权重,每个第一注意力权重对应一个第一特征图;

根据第一注意力权重集合以及第一特征图集合,生成第二特征图集合,其中,第二特征图集合包括至少一个第二特征图,每个第二特征图对应一个视频帧;

通过第一视频识别模型所包括的第一池化层,获取第二特征图集合所对应的第三特征图集合,其中,第三特征图集合包括至少一个第三特征图,每个第三特征图对应一个第二特征图;

基于第三特征图集合,通过第一视频识别模型获取视频过滤分数。

可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的视频类别识别装置400的另一实施例中,

获取模块401,具体用于通过第一视频识别模型所包括的第二池化层,获取第三特征图集合所对应的第一特征向量集合,其中,第一特征向量集合包括至少一个第一特征向量,每个第一特征向量对应一个第三特征图;

对第一特征向量集合进行特征融合,得到第二特征向量;

通过第一视频识别模型所包括的第一全连接层,获取第二特征向量所对应的视频过滤分数。

可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的视频类别识别装置400的另一实施例中,

获取模块401,具体用于通过第二视频识别模型所包括的第三卷积层,获取待识别视频所对应的第四特征图集合,其中,第四特征图集合包括至少一个第四特征图,每个第四特征图对应一个视频帧;

通过第二视频识别模型所包括的第四卷积层,获取第四特征图集合所对应的第二注意力权重集合,其中,第二注意力权重集合包括至少一个第二注意力权重,每个第二注意力权重对应一个第四特征图;

根据第二注意力权重集合以及第四特征图集合,生成第五特征图集合,其中,第五特征图集合包括至少一个第五特征图,每个第五特征图对应一个视频帧;

通过第二视频识别模型所包括的第三池化层,获取第五特征图集合所对应的第六特征图集合,其中,第六特征图集合包括至少一个第六特征图,每个第六特征图对应一个第五特征图;

基于第六特征图集合,通过第二视频识别模型获取在视频类别识别阶段的识别分数集合。

可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的视频类别识别装置400的另一实施例中,

获取模块401,具体用于通过第二视频识别模型所包括的第四池化层,获取第六特征图集合所对应的第三特征向量集合,其中,第三特征向量集合包括至少一个第三特征向量,每个第三特征向量对应一个第六特征图;

对第三特征向量集合进行特征融合,得到第四特征向量;

通过第二视频识别模型所包括的第二全连接层,获取第四特征向量在视频类别识别阶段的目标视频分数;

通过第二视频识别模型所包括的第三全连接层,获取第三特征向量集合所对应的单帧分数集合,其中,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个第三特征向量;

根据单帧分数集合获取在视频类别识别阶段的目标单帧分数,其中,目标单帧分数为单帧分数集合中的最大值。

结合上述介绍,下面对本申请中的模型训练装置进行详细描述,请参阅图14,图14为本申请实施例中模型训练装置一个实施例示意图,如图所示,模型训练装置500包括:

获取模块501,用于获取第一待训练视频,其中,第一待训练视频对应于第一真实标签,第一真实标签用于表示对视频标注后得到的类型;

生成模块502,用于根据获取模块获取的第一待训练视频生成第二待训练视频集合,其中,第二待训练视频集合包括至少两个第二待训练视频,第二待训练视频对应于第一真实标签集合,第一真实标签集合包括至少两个第一真实标签,每个第二待训练视频对应于一个第一真实标签,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频;

获取模块501,还用于通过第一待训练视频识别模型,获取生成模块生成的第二待训练视频集合所对应的第一预测标签集合,其中,第一预测标签集合包括至少两个第一预测标签,每个第一预测标签对应一个第二待训练视频;

训练模块503,用于根据第一预测标签集合以及第一真实标签集合,对第一待训练视频识别模型进行训练,得到第一视频识别模型,其中,第一视频识别模型为上述各方面中任一项的第一视频识别模型。

可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的装置500的另一实施例中,第一待训练视频还对应于第二真实标签,第二真实标签用于表示对视频标注后得到的拼图类型;

获取模块501,具体用于通过第一待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合以及第二预测标签集合,其中,第二预测标签集合包括至少两个第二预测标签,每个第二预测标签对应一个第二待训练视频,第二预测标签表示对视频预测后得到的拼图类型;

训练模块503,具体用于根据第一预测标签集合、第二预测标签集合、第一真实标签集合以及第二真实标签集合,对第一待训练视频识别模型进行训练,得到第一视频识别模型。

结合上述介绍,下面对本申请中的模型训练装置进行详细描述,请参阅图15,图15为本申请实施例中模型训练装置另一实施例示意图,如图所示,模型训练装置600包括:

获取模块601,用于获取第一待训练视频,其中,第一待训练视频对应于第一真实标签,第一真实标签用于表示对视频或图像帧标注后得到的类型;

分帧模块602,用于对获取模块获取的第一待训练视频进行分帧处理,得到第一图像帧集合,其中,第一图像帧集合包括n个第一图像帧,n为大于1的整数,每个第一图像帧对应于第一真实标签;

生成模块603,用于根据获取模块获取的第一待训练视频生成第二待训练视频集合,其中,第二待训练视频集合包括至少两个第二待训练视频,第二待训练视频对应于第一真实标签集合,第一真实标签集合包括至少两个第一真实标签,每个第二待训练视频对应于一个第一真实标签,第二待训练视频集合包括至少两个不同分辨率下的第二待训练视频;

生成模块603,还用于根据分帧模块得到的第一图像帧集合生成第二图像帧集合,其中,第二图像帧集合包括m个第二图像帧,m为大于1的整数,每个第二图像帧对应于第一真实标签,第二图像帧集合包括至少两个不同分辨率下的第二图像帧;

获取模块601,还用于通过第二待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合,以及第二图像帧集合所对应第二预测标签集合,其中,第一预测标签集合包括至少两个第一预测标签,每个第一预测标签对应一个第二待训练视频,第二预测标签集合包括m个第二预测标签,每个第二预测标签对应一个第二图像帧;

训练模块604,用于根据第一预测标签集合、第二预测标签集合以及第一真实标签集合,对第二待训练视频识别模型进行训练,得到第二视频识别模型,其中,第二视频识别模型为上述各方面中任一项的第二视频识别模型。

可选地,在上述图15所对应的实施例的基础上,本申请实施例提供的装置600的另一实施例中,第一待训练视频还对应于第二真实标签,第二真实标签用于表示对视频或图像帧标注后得到的拼图类型;

获取模块601,具体用于:

通过第二待训练视频识别模型,获取第二待训练视频集合所对应的第一预测标签集合以及第三预测标签集合,其中,第三预测标签集合包括至少两个第三预测标签,每个第三预测标签对应一个第二待训练视频,第三预测标签表示对视频预测后得到的拼图类型;

通过第二待训练视频识别模型,获取第二图像帧集合所对应第二预测标签集合以及第四预测标签集合,第二预测标签集合包括m个第二预测标签,每个第四预测标签对应一个第二图像帧,第四预测标签表示对图像帧预测后得到的拼图类型;

训练模块604,具体用于根据第一预测标签集合、第二预测标签集合、第三预测标签集合、第四预测标签集合、第一真实标签集合以及第二真实标签集合,对第二待训练视频识别模型进行训练,得到第二视频识别模型。

图16是本申请实施例提供的一种服务器结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。

本实施例中,cpu722用于执行图3对应的实施例中视频类别识别装置执行的步骤,cpu722还用于执行图9以及图12对应的实施例中模型训练装置执行的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1