类器模型确定、检测方法及装置、电子设备及存储介质与流程

文档序号:29035113发布日期:2022-02-25 18:06阅读:156来源:国知局

1.本技术实施例涉及视频语义确定及检测技术,尤其涉及一种基于半监督集成学习的视频的语义基分类器模型确定方法及装置、基于半监督集成学习的视频语义的检测方法及装置、电子设备及存储介质。


背景技术:

2.在多媒体和网络大发展的环境下,视频检测方法从最早的通过检测手工标记的视频到现在的更加接近人的思维的、所表达的语义信息更加准确的基于语义的视频检测技术,各种各样的视频检测方法应运而生,其中基于半监督学习和基于集成学习的视频语义的检测方法是比较有具有代表性的。
3.基于半监督学习的视频语义的检测方法是利用未标记样本和所产生的伪标签来提升模型泛化性能的一种方法,它是根据具有相似特征的样本应该具有相似的输出的聚类假设和流程假设而提出的,该方法的重点是如何利用未标记样本来提升模型的泛化性能。其中协同训练co-training是属于经典的半监督学习方法。协同训练首先在两个视图上即两个属性上针对有标记样本来分别训练出一个分类器,然后用每个分类器分别去挑选可信度比较高的未标记样本,并且根据这个分类器给予未标记样本伪标记,并将带有伪标记的未标记样本提供给另一个分类器,作为该分类器的新的有标记样本用于再次训练该分类器,这样一直迭代下去,直到每个分类器都不再发生变化为止。然而,这种视频语义的检测方式会导致分类器中的误差逐级传递,视频语义的检测的准确性及实用性都大大降低。


技术实现要素:

4.有鉴于此,本技术实施例提供一种基于半监督集成学习的视频的语义基分类器模型确定方法及装置、基于半监督集成学习的视频语义的检测方法及装置、电子设备及存储介质。
5.本技术实施例提供一种视频的语义基分类器模型确定方法,包括:
6.对训练视频提取关键帧,提取所述关键帧的指定特征信息;
7.查找所述训练视频中有标签的训练视频,基于所述有标签的训练视频的指定特征信息,训练获得支持向量机svm分类器;
8.查找所述训练视频中无标签的训练视频,利用所述svm分类器对所述无标签的训练视频添加伪标签,基于添加伪标签的训练视频生成视频样本子集;在所述视频样本子集中选择置信度超出设定阈值的视频样本,将所选择的视频样本添加至伪标签样本集;
9.确定所述伪标签样本集中的标签准确率连续下降设定次数或无标签训练视频集为空时,将标签准确率最高的伪标签样本对应的svm分类器对应的分类器模型作为获取视频语义的语义基分类器模型。
10.作为一种实现方式,所述方法还包括:
11.确定所述伪标签样本集中的标签准确率未连续下降设定次数或无标签数据集为
非空时,将所述伪标签样本集添加至所述有标签的训练视频中,在所述无标签训练视频中删除已添加至所述有标签的训练视频中的伪标签样本,基于删除伪标签样本的所述无标签训练视频进行基分类器的训练,直至确定出所述语义基分类器模型。
12.作为一种实现方式,所述对训练视频提取关键帧,包括:
13.获取训练视频的属性信息,根据所述属性信息为所述训练视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述训练视频提取关键帧;所述属性包括视频片段边界、图像内容中物体对象的运动位移。
14.作为一种实现方式,所述训练获得支持向量机svm分类器,包括:
15.至少采用色调饱和度明度hsv颜色模型特征提取方式、方向梯度直方图hog特征提取方式和基于卷积神经网络cnn的特征提取方式对所述关键帧进行特征提取,至少获取所述训练视频的hsv特征、hog特征和cnn特征;
16.获取所述训练视频中的有标签训练视频,基于所述有标签训练视频的hsv特征、hog特征和cnn特征,分别训练出支持向量机svm分类器:svm
hsv
、svm
hog
和svm
cnn

17.作为一种实现方式,所述将所选择的视频样本添加至伪标签样本集,包括:
18.利用所述svm
hsv
、所述svm
hog
和所述svm
cnn
分别对所述训练视频中的无标签训练视频添加预测的伪标签,形成伪标签训练视频,在所述伪标签训练视频中选取设定数量的视频形成视频样本子集;
19.基于所述视频样本子集确定其中有权重的标签多核矩阵,基于所述多核矩阵确定所述视频样本子集的全体标签核矩阵,基于所述全体标签核矩阵为所述视频样本子集确定svm分类器估算模型;基于所述svm分类器估算模型确定所述视频样本子集中每一个样本的mlkl置信度,按mlkl置信度从大到小的顺序确定出设定数量个样本,将所确定的设定数量的样本添加至伪标签样本集。
20.本技术实施例还提供一种视频语义的检测方法,包括:
21.获取待检测视频的属性信息,根据所述属性信息为所述待检测视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述待检测视频提取关键帧;提取所述关键帧的指定特征信息;
22.基于所述视频的语义基分类器模型确定方法获取的训练视频的特征信息确定待检测视频的样本的待选伪标签和对应的标签置信度;
23.基于标签置信度确定出样本的集成置信度,将集成置信度中大于设定阈值的集成置信度所对应的待选伪标签作为待检测视频样本的伪标签,并输出。
24.作为一种实现方式,所述提取所述关键帧的指定特征信息,包括:
25.至少采用色调饱和度明度hsv颜色模型特征提取方式、方向梯度直方图hog特征提取方式和基于卷积神经网络cnn的特征提取方式对所述关键帧进行特征提取,至少获取所述训练视频的hsv特征、hog特征和cnn特征。
26.本技术实施例还提供一种视频的语义基分类器模型确定装置,包括:
27.关键帧提取模块,用于对训练视频提取关键帧,提取所述关键帧的指定特征信息;
28.模型训练模块,用于查找所述训练视频中有标签的训练视频,基于所述有标签的训练视频的特征信息,训练获得支持向量机svm分类器;
29.伪标签样本生成模块,用于查找所述训练视频中无标签的训练视频,利用所述svm
分类器对所述训练视频添加伪标签,基于添加伪标签的训练视频生成视频样本子集;在所述视频样本子集中选择置信度超出设定阈值的视频样本,将所选择的视频样本添加至伪标签样本集;
30.多标签核学习模块,用于确定所述伪标签样本集中的标签准确率连续下降设定次数或无标签训练视频集为空时,将标签准确率最高的伪标签样本对应的svm分类器对应的分类器模型作为获取视频语义的语义基分类器模型。
31.作为一种实现方式,所述多标签核学习模块,还用于在所述伪标签样本集中的标签准确率未连续下降设定次数或无标签数据集为非空时,将所述伪标签样本集添加至所述有标签的训练视频中,在所述无标签训练视频中删除已添加至所述有标签的训练视频中的伪标签样本,基于删除伪标签样本的所述无标签训练视频进行基分类器的训练,直至确定出所述语义基分类器模型。
32.作为一种实现方式,所述关键帧提取模块,还用于获取训练视频的属性信息,根据所述属性信息为所述训练视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述训练视频提取关键帧;所述属性包括视频片段边界、图像内容中物体对象的运动位移。
33.作为一种实现方式,所述模型训练模块,还用于至少采用色调饱和度明度hsv颜色模型特征提取方式、方向梯度直方图hog特征提取方式和基于卷积神经网络cnn的特征提取方式对所述关键帧进行特征提取,至少获取所述训练视频的hsv特征、hog特征和cnn特征;
34.获取所述训练视频中的有标签训练视频,基于所述有标签训练视频的hsv特征、hog特征和cnn特征,分别训练出支持向量机svm分类器:svm
hsv
、svm
hog
和svm
cnn

35.作为一种实现方式,所述伪标签样本生成模块,还用于利用所述svm
hsv
、所述svm
hog
和所述svm
cnn
分别对所述训练视频中的无标签训练视频添加预测的伪标签,形成伪标签训练视频,在所述伪标签训练视频中选取设定数量的视频形成视频样本子集;
36.基于所述视频样本子集确定其中有权重的标签多核矩阵,基于所述多核矩阵确定所述视频样本子集的全体标签核矩阵,基于所述全体标签核矩阵为所述视频样本子集确定svm分类器估算模型;基于所述svm分类器估算模型确定所述视频样本子集中每一个样本的mlkl置信度,按mlkl置信度从大到小的顺序确定出设定数量个样本,将所确定的设定数量的样本添加至伪标签样本集。
37.本技术实施例还提供一种视频语义的检测装置,包括:
38.特征提取模块,用于获取待检测视频的属性信息,根据所述属性信息为所述待检测视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述待检测视频提取关键帧;提取所述关键帧的指定特征信息;
39.视频检测模块,用于基于前述视频的语义基分类器模型确定装置获取的训练视频的特征信息确定待检测视频的样本的待选伪标签和对应的标签置信度;基于标签置信度确定出样本的集成置信度,将集成置信度中大于设定阈值的集成置信度所对应的待选伪标签作为待检测视频样本的伪标签,并输出。
40.作为一种实现方式,所述特征提取模块,还用于:
41.至少采用色调饱和度明度hsv颜色模型特征提取方式、方向梯度直方图hog特征提取方式和基于卷积神经网络cnn的特征提取方式对所述关键帧进行特征提取,至少获取所
述训练视频的hsv特征、hog特征和cnn特征。
42.本技术实施例还提供一种电子设备,包括:处理器和用于存储处理器可执行指令的存储器,其中,所述处理器被配置为在调用存储器中的可执行指令时,能够执行所述的视频的语义基分类器模型确定方法的步骤。
43.本技术实施例还提供一种电子设备,包括:处理器和用于存储处理器可执行指令的存储器,其中,所述处理器被配置为在调用存储器中的可执行指令时,能够执行所述的视频语义的检测方法的步骤。
44.本技术实施例还提供一种计算机可读存储介质,其上存取有计算机指令,其特征在于,所述指令被处理器执行时实现所述的视频的语义基分类器模型确定方法的步骤。
45.本技术实施例还提供一种计算机可读存储介质,其上存取有计算机指令,其特征在于,所述指令被处理器执行时实现所述的视频语义的检测方法的步骤。
46.本技术实施例提出的视频语义的确定方法及装置、视频语义的检测方法及装置、电子设备及存储介质,能够减少噪声对模型的影响。并且可以缓解半监督学习引入大量无标签数据,而导致计算量过大问题,同时引入多标签核学习(mlkl,multiple label kernel learning)模式,从而减少了模型的训练时间,同时可以进一步筛选集成置信度较高的伪标签数据加入到有标签数据集中进行迭代,从而提升了训练模型的泛化能力。
附图说明
47.图1为本技术实施例提供的视频语义的确定方法的流程示意图;
48.图2为本技术实施例提供的视频语义的检测方法的流程示意图;
49.图3为本技术实施例提供的视频语义的确定装置的组成结构示意图;
50.图4为本技术实施例提供的视频语义的检测装置的组成结构示意图。
具体实施方式
51.以下结合附图,详细阐明本技术实施例技术方案的实质。
52.本技术实施例的技术方案,为了缓解半监督学习引入大量无标签数据,而导致计算量过大问题,引入了mlkl技术,减少模型的训练时间,同时可以进一步筛选集成置信度较高的伪标签数据加入到有标签数据集中,进行迭代,提升模型的泛化能力。
53.图1为本技术实施例提供的视频语义的确定方法的流程示意图,如图1所示,本技术实施例提供的视频语义的确定方法包括以下步骤:
54.步骤101,对训练视频提取关键帧,提取所述关键帧的指定特征信息。
55.获取训练视频的属性信息,根据所述属性信息为所述训练视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述训练视频提取关键帧。
56.本技术实施例中的所有的关键帧提取方法都保持统一。关键帧提取的对象是镜头分割好了的镜头视频,镜头与镜头之间的视频内容发生了突变,而同一个视频镜头中的内容变化不大。根据视频的特点选取合适的关键帧提取方法。可选用的关键帧提取方法有:基于视频片段边界的方法、基于图像内容的方法、基于运动分析的方法、基于聚类分析的方法和基于压缩域的关键帧提取方法。作为一种示例,本技术实施例针对有标签数据集可以选取基于视频片段边界的方法,该方法选择镜头的第一个图像帧和最后一个图像帧作为视频
的关键帧,适用于镜头视频的图像帧内容变化不大的情况中。这里,属性信息可以为视频的特点信息如视频片段边界、图像内容中物体对象的运动位移等。
57.步骤102,查找所述训练视频中有标签的训练视频,基于所述有标签的训练视频的特征信息,训练获得支持向量机svm分类器。
58.本技术实施例中,至少采用色调饱和度明度(hsv,hue,saturation,value)颜色模型特征提取方式、方向梯度直方图(hog,histogram of oriented gridient)特征提取方式和基于卷积神经网络(cnn,convolutional neural network)的特征提取方式对所述关键帧进行特征提取,至少获取所述训练视频的hsv特征、hog特征和cnn特征。
59.本技术实施例中,所选用的特征提取方法都保持统一。由于集成学习可以利用多个有差异的基分类器协同协作来完成学习任务,有差异的意思是基分类器需要尽可能独立,所以可以根据视频具有多特征的特点,选取不同角度的特征提取方法进行特征提取。本技术实施例分别选取hsv颜色模型特征、hog特征和基于卷积神经网络的特征进行特征提取。其中,hsv颜色模型符合人眼的视觉特征,直接用色调、饱和度和亮度这三要素来表达颜色空间。hog方向梯度直方图是一种进行物体检测的特征描述方法,通过计算局部区域的每个像素的梯度,并且统计直方图来构成特征,具有几何和光学的形变不变性。而基于卷积神经网络的特征可以得到更加深层次的特征。
60.本技术实施例中,获取所述训练视频中的有标签训练视频,基于所述有标签训练视频的hsv特征、hog特征和cnn特征,分别训练出支持向量机svm分类器:svm
hsv
、svm
hog
和svm
cnn

61.根据特征提取模块所提取出的hsv特征、hog特征和cnn特征来分别训练出三个不同的svm分类器svm
hsv
、svm
hog
和svm
cnn
。目前,支持向量机(svm,support vector machine)技术在视频语义的检测方面具有一定的优势,svm可以利用核函数样本映射到高维空间,并且寻找满足分类要求的最优超平面,该方法具有较好的泛化能力。
62.步骤103,查找所述训练视频中无标签的训练视频,利用所述svm分类器对所述无标签的训练视频添加伪标签,基于添加伪标签的训练视频生成视频样本子集;在所述视频样本子集中选择置信度超出设定阈值的视频样本,将所选择的视频样本添加至伪标签样本集。
63.利用所述svm
hsv
、所述svm
hog
和所述svm
cnn
分别对所述训练视频中的无标签训练视频进行预测,为所述无标签训练视频添加预测的伪标签,形成伪标签训练视频,在所述伪标签训练视频中选取设定数量的视频形成视频样本子集。
64.本技术实施例中,在利用无标签视频数据时,需要利用已经训练好的三个svm分类器分别对无标签数据进行预测,形成带有伪标签的视频数据,针对这些伪标签视频数据需要选取大小为m视频样本子集以供mlkl模块使用。本技术实施例中,选取集成置信度c(x)来作为是否可以选取进入m个视频样本子集的评价指标。下面先介绍基分类器g判别样本x所属某个类别的标签置信度计算公式如下所示:
65.66.其中,g∈{svm
hsv
,svm
hog
,svm
cnn
}。表示基分类器g判别样本x所属某个类别的最大概率。表示基分类器g判别样本x所属某个类别的次大概率。表示基分类器g判别样本x所属类别cl的概率。
67.本技术实施例需要选取集成置信度较大的伪标签样本。随着样本x所属的某个类别的概率越大,该样本的所属所有类别的概率曲线也就越陡,概率波动也就越大,其变形的信息熵也就越小,即也就越大,所属某个类别也就越唯一。而越大,表明分类器将样本鉴别为最大概率的类别越确定、越唯一。上述集成置信度计算公式综合考虑了概率波动性和衡量分类器判别类别的唯一性,所以该集成置信度公式是有效和可行的。
68.针对三个分类器,根据公式(1)可以得到svm
hsv
、svm
hog
和svm
cnn
所对应的标签置信度和而集成置信度c(x)的计算公式如下所示:
[0069][0070]
而样本x的伪标签就为集成置信度c(x)所对应的分类器所预测的标签。
[0071]
最后选取c(x)最大的前m个样本作为mlkl伪标签样本集ym。
[0072]
步骤104,确定所述伪标签样本集中的标签准确率连续下降设定次数或无标签训练视频集为空时,将标签准确率最高的伪标签样本对应的svm分类器对应的分类器模型作为获取视频语义的语义基分类器模型。
[0073]
本技术实施例中,基于所述视频样本子集确定其中有权重的标签的多核矩阵,基于所述多核矩阵估算所述视频样本子集的全体标签核矩阵,基于所述全体标签核矩阵为所述视频样本子集估算svm分类器模型;基于所述svm分类器模型确定所述视频样本子集中每一个样本的mlkl置信度,按mlkl置信度从大到小的顺序确定出设定数量个样本,将所确定的设定数量的样本添加至伪标签样本集。
[0074]
若伪标签样本集中的标签准确率连续下降设定次数或无标签数据集为空,保存标签准确率最高的基分类器模型svm
hsv
、svm
hog
和svm
cnn
作为所述无标签训练视频的基分类器模型;否则,将所述伪标签样本集添加至所述有标签训练视频中,在所述无标签训练视频中删除已添加至所述有标签训练视频中的伪标签样本,继续进行基分类器的训练,直至确定出所述无标签训练视频的基分类器模型。
[0075]
本本技术实施例中,为了解决无标签数据量巨大,预测结果中的噪声问题,引入了mlkl方法。该方法的原理为:基于半监督的视频语义的检测问题可以利用半监督svm的优化问题来解决。其目标函数可以简化为:
[0076][0077]
其中,y
l
代表有标签数据集的真正标签,代表无标签数据集
的可能标签。α={α|0≤αi≤c1,0≤αj≤c2,1≤i≤l,l+1≤j≤n},c1和c2为正则化参数,有标签数据集无标签数据集n为样本总数。
[0078]
mlkl的目标是取大小为m的标签数据集找到有权重的标签多核矩阵来近似估计真正的全体标签核矩阵所以上述公式(3)可以改写为:
[0079][0080]
其中,μ=[μ1,μ2...,μm]。可以反推其原始形式为:
[0081][0082]
令经过变形和计算,公式(5)可以转化为类似标准svm模型,如下公式:
[0083][0084]
这样,基于上述公式,可以很容易借助svm工具包进行相应的计算,计算复杂度非常低。
[0085]
最后本本技术实施例将利用公式(5)计算得到的样本xi的mlkl置信度公式:
[0086][0087]
然后选取c
mlkl
(xi)前n大的样本加入到伪标签样本集d
pseudo
中。
[0088]
如果伪标签样本集d
pseudo
中的准确率连续预定次数下降或者无标签数据集为空,保存准确率最高的那次迭代的三个基分类器svm
hsv
、svm
hog
和svm
cnn
作为基分类器模型。否则,把伪标签样本集d
pseudo
加入到有标签数据集d
l
中,同时在无标签数据集du中删去相应的样本,继续进行基分类器的迭代训练。
[0089]
具体地,在有标签数据集上,利用基于视频片段边界的方法进行关键帧提取。分别采用基于hsv方法、基于hog方法和基于cnn方法对关键帧进行特征提取,形成相应的hsv特征,hog特征和cnn特征。分别针对hsv特征,hog特征和cnn特征训练出三个不同的svm分类器svm
hsv
、svm
hog
和svm
cnn

[0090]
在无标签数据集上,采用前述的svm
hsv
、svm
hog
和svm
cnn
对无标签数据进行预测,并且保存准确率,然后利用前述公式(1)和公式(2)进行第一次伪标签筛选,选取集成置信度前m大的m个样本作为mlkl伪标签样本集ym。
[0091]
在mlkl伪标签样本集ym上,利用mlkl方法进行伪标签数据的第二次筛选,形成伪
标签样本集d
pseudo

[0092]
判断伪标签样本集d
pseudo
中的准确率,如果准确率连续设定阈值次数的下降或者无标签数据集为空,保存准确率最高的那次迭代的三个基分类器svm
hsv
、svm
hog
和svm
cnn
作为基分类器模型。否则,把伪标签样本集d
pseudo
加入到有标签数据集d
l
中,同时在无标签数据集du中删去相应的样本,继续进行下一轮的基分类器的迭代训练。
[0093]
图2为本技术实施例提供的视频语义的检测方法的流程示意图,如图2所示,本技术实施例的视频语义的检测方法包括以下步骤:
[0094]
步骤201,获取待检测视频的属性信息,根据所述属性信息为所述待检测视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述待检测视频提取关键帧;提取所述关键帧的指定特征信息。
[0095]
本技术实施例中的所有的关键帧提取方法都保持统一。关键帧提取的对象是镜头分割好了的镜头视频,镜头与镜头之间的视频内容发生了突变,而同一个视频镜头中的内容变化不大。根据视频的特点选取合适的关键帧提取方法。可选用的关键帧提取方法有:基于视频片段边界的方法、基于图像内容的方法、基于运动分析的方法、基于聚类分析的方法和基于压缩域的关键帧提取方法。作为一种示例,本技术实施例针对有标签数据集可以选取基于视频片段边界的方法,该方法选择镜头的第一个图像帧和最后一个图像帧作为视频的关键帧,适用于镜头视频的图像帧内容变化不大的情况中。这里,属性信息可以为视频的特点信息如视频片段边界、图像内容中物体对象的运动位移等。
[0096]
本技术实施例中,至少采用色调饱和度明度hsv颜色模型特征提取方式、方向梯度直方图hog特征提取方式和基于卷积神经网络cnn的特征提取方式对所述关键帧进行特征提取,至少获取所述训练视频的hsv特征、hog特征和cnn特征。
[0097]
本技术实施例中所选用的特征提取方法都保持统一。由于集成学习可以利用多个有差异的基分类器协同协作来完成学习任务,有差异的意思是基分类器需要尽可能的独立,所以可以根据视频具有多特征的特点,选取不同角度的特征提取方法进行特征提取。本技术实施例分别选取hsv颜色模型特征、hog特征和基于卷积神经网络的特征进行特征提取。其中,hsv颜色模型符合人眼的视觉特征,直接用色调、饱和度和亮度这三要素来表达颜色空间。hog方向梯度直方图是一种进行物体检测的特征描述方法,通过计算局部区域的每个像素的梯度,并且统计直方图来构成特征,具有几何和光学的形变不变性。而基于卷积神经网络的特征可以得到更加深层次的特征。
[0098]
步骤202,基于所述视频的语义基分类器模型确定方法获取的训练视频的特征信息确定待检测视频的样本x的待选伪标签和对应的标签置信度。
[0099]
基于前述实施例的视频语义的确定方法获取的训练视频的hsv特征、hog特征和cnn特征分别对待检测视频的样本x进行预测,得到三个待选伪标签和对应的集成置信度和
[0100]
采用视频语义的确定子系统所生成的具有更好泛化能力的svm
hsv
、svm
hog
和svm
cnn
分别对待检测视频样本x进行预测,得到三个待选伪标签和对应的和
[0101]
步骤203,基于标签置信度确定出样本的集成置信度,将集成置信度中大于设定阈
值的集成置信度所对应的待选伪标签作为待检测视频样本x的伪标签,并输出。
[0102]
具体地,基于和确定出样本的集成置信度,将集成置信度中大于设定阈值的集成置信度所对应的待选伪标签作为待检测视频样本x的伪标签,并输出。
[0103]
选取和中较大集成置信度所对应的待选伪标签作为待检测视频样本x的伪标签。将检测结果输出到文件系统或者数据库中。
[0104]
本技术实施例提出了一种新的集成置信度选择方案,能够减少噪声对模型的影响。并且可以缓解半监督学习引入大量无标签数据,而导致计算量过大问题,同时引入多标签核学习(mlkl,multiple label kernel learning)模式,从而减少了模型的训练时间,同时可以进一步筛选集成置信度较高的伪标签数据加入到有标签数据集中进行迭代,从而提升了训练模型的泛化能力。
[0105]
图3为本技术实施例提供的视频语义的确定装置的组成结构示意图,如图3所示,本技术实施例的视频语义的确定装置包括:
[0106]
关键帧提取模块30,用于对训练视频提取关键帧,提取所述关键帧的指定特征信息;所述属性包括以下至少之一:视频的特点信息如视频片段边界、图像内容中物体对象的运动位移等信息。具体地,关键帧提取模块30根据所述属性信息为所述训练视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述训练视频提取关键帧;
[0107]
至少采用色调饱和度明度hsv颜色模型特征提取方式、方向梯度直方图hog特征提取方式和基于卷积神经网络cnn的特征提取方式对所述关键帧进行特征提取,至少获取所述训练视频的hsv特征、hog特征和cnn特征;
[0108]
模型训练模块31,用于查找所述训练视频中有标签的训练视频,基于所述有标签的训练视频的特征信息,训练获得支持向量机svm分类器。
[0109]
具体地,模型训练模块31获取所述训练视频中的有标签训练视频,基于所述有标签训练视频的hsv特征、hog特征和cnn特征,分别训练出支持向量机svm分类器:svm
hsv
、svm
hog
和svm
cnn

[0110]
伪标签样本生成模块32,用于查找所述训练视频中无标签的训练视频,利用所述svm分类器对所述训练视频添加伪标签,基于添加伪标签的训练视频生成视频样本子集;在所述视频样本子集中选择置信度超出设定阈值的视频样本,将所选择的视频样本添加至伪标签样本集。
[0111]
具体地,伪标签样本生成模块32利用所述svm
hsv
、所述svm
hog
和所述svm
cnn
分别对所述训练视频中的无标签训练视频进行预测,为所述无标签训练视频添加预测的伪标签,形成伪标签训练视频,在所述伪标签训练视频中选取设定数量的视频形成视频样本子集;
[0112]
多标签核学习模块33,用于确定所述伪标签样本集中的标签准确率连续下降设定次数或无标签训练视频集为空时,将标签准确率最高的伪标签样本对应的svm分类器对应的分类器模型作为用于获取视频语义的语义基分类器模型。
[0113]
具体地,多标签核学习模块33基于所述视频样本子集确定其中有权重的标签的多核矩阵,基于所述多核矩阵估算所述视频样本子集的全体标签核矩阵,基于所述全体标签核矩阵为所述视频样本子集估算svm分类器模型;基于所述svm分类器模型确定所述视频样
本子集中每一个样本的mlkl置信度,按mlkl置信度从大到小的顺序确定出设定数量个样本,将所确定的设定数量的样本添加至伪标签样本集;若伪标签样本集中的标签准确率连续下降设定次数或无标签数据集为空,保存标签准确率最高的基分类器模型svm
hsv
、svm
hog
和svm
cnn
作为所述无标签训练视频的基分类器模型;否则,将所述伪标签样本集添加至所述有标签训练视频中,在所述无标签训练视频中删除已添加至所述有标签训练视频中的伪标签样本,继续进行基分类器的训练,直至确定出所述语义基分类器模型。
[0114]
上述实施例中,所述伪标签样本生成模块32,还用于基于基分类器g计算样本x所属某个类别的标签置信度cg(x),如下:
[0115][0116]
其中,g∈{svm
hsv
,svm
hog
,svm
cnn
},表示基分类器g判别样本x所属某个类别的最大概率;表示基分类器g判别样本x所属某个类别的次大概率;表示基分类器g判别样本x所属类别cl的概率;
[0117]
分别计算样本x的svm
hsv
、svm
hog
和svm
cnn
所分别对应的标签置信度所分别对应的标签置信度和将其中最大值作为样本x的集成置信度c(x),样本x的伪标签即为c(x)所对应的分类器所预测的标签;选取c(x)最大的前m个样本作为mlkl伪标签样本集ym,m为自然数。
[0118]
上述实施例中,所述多标签核学习模块33,还用于:
[0119]
svm的目标函数为:
[0120]
其中,

为元素积,y
l
代表有标签数据集的真正标签,1
τ
表示单位矩阵,代表无标签数据集的可能标签;对偶变量向量α∈α,α={α|0≤αi≤c1,0≤αj≤c2,1≤i≤l,l+1≤j≤n},c1和c2为正则化参数,有标签数据集无标签数据集n为样本总数;在取样样本视频中取大小为m的标签数据集找到有权重的标签多核矩阵来估计真正的全体标签核矩阵svm的目标函数改写为:
[0121]
[0122]
其中,μ=[μ1,μ2...,μm],μ为标签核权重向量;的原始形式为:
[0123][0124]
ξi为松弛向量,wm为大小为m的取样样本中第m个法向量;令为大小为m的取样样本中第m个法向量;令基于svm的目标函数的原始形转化为标准svm模型,如下:
[0125][0126]
上述实施例中,所述多标签核学习模块33,还用于根据目标函数的原始形式计算得到的样本xi的mlkl置信度,如下:
[0127][0128]
本领域技术人员应当理解,本技术实施例的上述视频的语义基分类器模型确定装置的相关描述可以参照本技术实施例的视频的语义基分类器模型确定方法的相关描述进行理解。
[0129]
图4为本技术实施例提供的视频语义的检测装置的组成结构示意图,如图4所示,本技术实施例提供的视频语义的检测装置包括:
[0130]
特征提取模块41,用于获取待检测视频的属性信息,根据所述属性信息为所述待检测视频选取对应的关键帧提取方式,基于所选取的关键帧提取方式对所述待检测视频提取关键帧;提取所述关键帧的指定特征信息;
[0131]
具体地,特征提取模块41至少采用色调饱和度明度hsv颜色模型特征提取方式、方向梯度直方图hog特征提取方式和基于卷积神经网络cnn的特征提取方式对所述关键帧进行特征提取,至少获取所述训练视频的hsv特征、hog特征和cnn特征;
[0132]
视频检测模块42,用于获取的训练视频的特征信息确定待检测视频的样本x的待选伪标签和对应的标签置信度;基于标签置信度确定出样本的集成置信度,将集成置信度中大于设定阈值的集成置信度所对应的待选伪标签作为待检测视频样本x的伪标签,并输出。
[0133]
具体地,视频检测模块42基于前述的视频的语义基分类器模型确定装置获取的训练视频的hsv特征、hog特征和cnn特征分别对待检测视频的样本x进行预测,得到三个待选伪标签和对应的标签置信度和基于和确定出样本的集成置信度,将集成置信度中大于设定阈值的集成置信度所对应的待选伪标签作为待检测视频样本x的伪标签,并输出。
[0134]
本领域技术人员应当理解,本技术实施例的上述视频语义的检测装置的相关描述可以参照本技术实施例的视频语义的检测方法的相关描述进行理解。
[0135]
本技术实施例还提供一种电子设备,包括:处理器和用于存储处理器可执行指令的存储器,其中,所述处理器被配置为在调用存储器中的可执行指令时,能够执行上述实施例的视频的语义基分类器模型确定方法的步骤。
[0136]
本技术实施例还提供一种电子设备,包括:处理器和用于存储处理器可执行指令的存储器,其中,所述处理器被配置为在调用存储器中的可执行指令时,能够执行上述实施例的视频语义的检测方法的步骤。
[0137]
本技术实施例还提供一种计算机可读存储介质,其上存取有计算机指令,所述指令被处理器执行时实现上述实施例的视频的语义基分类器模型确定方法的步骤。
[0138]
本技术实施例还提供一种计算机可读存储介质,其上存取有计算机指令,所述指令被处理器执行时实现上述实施例的视频语义的检测方法的步骤。
[0139]
本技术实施例提出了一种新的集成置信度选择方案,能够减少噪声对模型的影响。并且可以缓解半监督学习引入大量无标签数据,而导致计算量过大问题,同时引入多标签核学习(mlkl,multiple label kernel learning)模式,从而减少了模型的训练时间,同时可以进一步筛选集成置信度较高的伪标签数据加入到有标签数据集中进行迭代,从而提升了训练模型的泛化能力。
[0140]
在本实施例中,至少一个处理器可以构成具有对一个或多个输入执行逻辑运算的电路的任何物理设备。例如,至少一个处理器可以包括一个或多个集成电路(ic),包括专用集成电路(asic)、微芯片、微控制器、微处理器、中央处理单元(cpu)的全部或部分、图形处理单元(gpu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)或者适于执行指令或执行逻辑运算的其它电路。由至少一个处理器执行的指令可以例如被预加载到与控制器集成的或嵌入在控制器中的存储器中,或者可以存储在分离的存储器中。存储器可以包括随机存取存储器(ram)、只读存储器(rom)、硬盘、光盘、磁介质、闪存,其它永久、固定或易失性存储器,或者能够存储指令的任何其它机制。在一些实施例中,至少一个处理器可以包括多于一个处理器。每个处理器可以具有相似的结构,或者处理器可以具有彼此电连接或断开的不同构造。例如,处理器可以是分离的电路或集成在单个电路中。当使用多于一个处理器时,处理器可以被配置为独立地或协作地操作。处理器可以以电、磁、光学、声学、机械或通过允许它们交互的其它手段来耦合。
[0141]
在本实施例中,非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0142]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0143]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排
他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0144]
在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0145]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0146]
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0147]
以上所述,仅为本发明的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!