特征学习模型的训练方法、装置、系统及存储介质与流程

文档序号:28697727发布日期:2022-01-29 12:40阅读:64来源:国知局
特征学习模型的训练方法、装置、系统及存储介质与流程

1.本公开涉及机器学习技术领域,特别是一种特征学习模型的训练方法、装置、系统及存储介质。


背景技术:

2.随着深度学习的不断发展,视频特征学习有着稳定而快速的进步,这种进步主要依靠于大量的数据进行全监督视频特征学习。但在实际应用中,获得大量视频数据的标注十分困难。
3.相关技术中提出利用海量互联网视频数据,采用一种弱监督的方式进行视频特征学习,提高视频模型的泛用性,帮助下游动作分类,动作定位任务的性能提升。


技术实现要素:

4.本公开的一个目的在于提高弱监督视频特征学习的准确度。
5.根据本公开的一些实施例的一个方面,提出一种特征学习模型的训练方法,包括:获取视频的特征信息;基于视频的特征信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率,其中,文本子类为通过对多个视频的标题的特征聚类分析确定,查询概率为通过查询概率模型获取;获取归属于同一个查询标签的文本子类的文本概率之和,作为对应查询标签的校正值;根据查询概率和查询标签的校正值,修正查询标签,获取查询校正标签;根据查询校正标签和查询概率确定查询损失函数值,并根据查询损失函数值修正查询概率模型的参数。
6.在一些实施例中,根据查询概率和查询标签的校正值,修正查询标签,获取查询校正标签包括:将查询概率作为权重,获取查询标签的加权值,作为对应查询标签的查询置信度;根据对应于相同查询标签的查询置信度与查询标签的校正值的和,获取查询校正标签。
7.在一些实施例中,根据对应于相同查询标签的查询置信度与查询标签的校正值的和,获取查询校正标签包括:获取对应于相同查询标签的查询置信度与查询标签的校正值的和,确定查询校正标签初始值;将查询校正标签初始值除以查询校正标签初始值的l1范数,获取查询校正标签。
8.在一些实施例中,根据查询校正标签和查询概率确定查询损失函数值包括:针对每个查询标签,获取查询概率的对数值,并确定查询概率的对数值与对应的查询校正标签的乘积;获取全部查询标签的查询概率的对数值与对应的查询校正标签的乘积的总和,确定查询损失函数值。
9.根据本公开的一些实施例的一个方面,提出一种特征学习模型的训练方法,包括:获取视频的特征信息;基于视频的特征信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率,其中,文本子类为通过对多个视频的标题的特征聚类分析确定,文本概率为通过文本概率模型获取;将查询概率分配至对应的文本子类,作为对应的文本子类的校正值,其中,每个查询标签对应于一个或多个文本子类;根据文本概率和文本
子类的校正值,修正文本子类的文本标签,获取文本校正标签;根据文本校正标签和文本概率确定文本损失函数值,并根据文本损失函数值修正文本概率模型的参数。
10.在一些实施例中,根据文本概率和文本子类的校正值,修正文本子类的文本标签,获取文本校正标签包括:将文本概率作为权重,获取文本标签的加权值,作为对应文本子类的文本置信度;根据对应于相同文本子类的文本置信度与文本子类的校正值的和,获取文本校正标签。
11.在一些实施例中,根据对应于相同文本子类的文本置信度与文本子类的校正值的和,获取文本校正标签包括:获取对应于相同文本子类的文本置信度与文本子类的校正值的和,确定文本校正标签第一值;将文本校正标签第一值除以文本校正标签第一值的l1范数,获取文本校正标签第二值;根据基于动量的更新准则更新文本校正标签第二值,获取文本校正标签。
12.在一些实施例中,根据文本校正标签和文本概率确定文本损失函数值包括:针对每个文本子类,获取文本概率的对数值,并确定文本概率的对数值与对应的文本校正标签的乘积;获取全部文本子类的文本概率的对数值与对应的文本校正标签的乘积的总和,确定文本损失函数值。
13.根据本公开的一些实施例的一个方面,提出一种特征学习模型的训练方法,包括:利用上文中任意一种针对查询概率模型的特征学习模型的训练方法训练查询概率模型;和利用上文中任意一种针对文本概率模型的特征学习模型的训练方法训练文本概率模型。
14.在一些实施例中,特征学习模型的训练方法还包括:根据视频的特征信息确定视频的查询概率的可信度和文本概率的可信度;若查询概率的可信度低于文本概率的可信度,则利用上文中任意一种针对查询概率模型的特征学习模型的训练方法训练查询概率模型;若查询概率的可信度高于文本概率的可信度,则利用上文中任意一种针对文本概率模型的特征学习模型的训练方法训练文本概率模型。
15.在一些实施例中,特征学习模型的训练方法还包括:在执行根据视频的特征信息确定视频的查询概率的可信度和文本概率的可信度之前,利用视频的特征信息训练查询概率初始模型,获取查询初始损失值函数值,并根据查询初始损失值修正查询概率初始模型的参数,获取查询概率模型;和利用视频的特征信息训练文本概率初始模型,获取文本初始损失值函数值,并根据文本初始损失值修正文本概率初始模型的参数,获取文本概率模型。
16.根据本公开的一些实施例的一个方面,提出一种第一特征学习装置,包括:第一信息获取单元,被配置为获取视频的特征信息;第一概率获取单元,被配置为基于视频的特征信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率,其中,文本子类为通过对多个视频的标题的特征聚类分析确定,查询概率为通过查询概率模型获取;查询校正值获取单元,被配置为获取归属于同一个查询标签的文本子类的文本概率之和,作为对应查询标签的校正值;查询校正标签获取单元,被配置为根据查询概率和查询标签的校正值,修正查询标签,获取查询校正标签;查询损失函数获取单元,被配置为根据查询校正标签和查询概率确定查询损失函数值,以便根据查询损失函数值修正查询概率模型的参数。
17.根据本公开的一些实施例的一个方面,提出一种第二特征学习装置,包括:第二信息获取单元,被配置为获取视频的特征信息;第二概率获取单元,被配置为基于视频的特征
信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率,其中,文本子类为通过对多个视频的标题的特征聚类分析确定,文本概率为通过文本概率模型获取;文本校正值获取单元,被配置为将查询概率分配至对应的文本子类,作为对应的文本子类的校正值,其中,每个查询标签对应于一个或多个文本子类;文本校正标签获取单元,被配置为根据文本概率和文本子类的校正值,修正文本子类的文本标签,获取文本校正标签;文本损失函数获取单元,被配置为根据文本校正标签和文本概率确定文本损失函数值,并根据文本损失函数值修正文本概率模型的参数。
18.根据本公开的一些实施例的一个方面,提出一种特征学习模型系统,包括:上文中任意一种第一特征学习装置;和上文中任意一种第二特征学习装置。
19.在一些实施例中,特征学习模型系统还包括:分类装置,被配置为根据视频的特征信息确定视频的查询概率的可信度和文本概率的可信度;若查询概率的可信度低于文本概率的可信度,则触发第一信息校正子装置处理视频的特征信息;若查询概率的可信度高于文本概率的可信度,则触发第二信息校正子装置处理视频的特征信息。
20.在一些实施例中,特征学习模型系统还包括初始训练装置,被配置为:在执行根据视频的特征信息确定视频的查询概率的可信度和文本概率的可信度之前,利用视频的特征信息训练查询概率初始模型,获取查询初始损失值函数值,并根据查询初始损失值修正查询概率初始模型的参数,获取查询概率模型;和利用视频的特征信息训练文本概率初始模型,获取文本初始损失值函数值,并根据文本初始损失值修正文本概率初始模型的参数,获取文本概率模型。
21.根据本公开的一些实施例的一个方面,提出一种网络设备,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种特征学习模型的训练方法。
22.根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种特征学习模型的训练方法的步骤。
附图说明
23.此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
24.图1为本公开的特征学习模型的训练方法的一些实施例的流程图。
25.图2为本公开的特征学习模型的训练方法的另一些实施例的流程图。
26.图3为本公开的特征学习模型的训练方法的又一些实施例的流程图。
27.图4为本公开的特征学习模型的训练方法的再一些实施例的流程图。
28.图5为本公开的特征学习装置的一些实施例的示意图。
29.图6为本公开的特征学习装置的另一些实施例的示意图。
30.图7为本公开的特征学习系统的一些实施例的示意图。
31.图8a~8c为本公开的特征学习系统对应的信息校正网络的一些实施例的示意图。
32.图9为本公开的网络设备的一些实施例的示意图。
33.图10为本公开的网络设备的另一些实施例的示意图。
具体实施方式
34.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
35.相关技术中,通常会将数据自身携带的查询词和标题信息视为相对可靠的,并以此最大化视觉和文本间的联系。另外,还存在是尝试避免数据本身的噪声的方案,例如一些错误或无关的文本信息。
36.发明人发现,视频的查询词和标题信息本身可能存在一些内在问题。例如,查询关键词存在歧义性,即查询目的和语义的不确定性;以及文本标题的同构性,即具有相同语法结构的文本描述不同物体。
37.举个例子,两个查询标签均为“zebra”(斑马)的视频,一个对应的是动物“斑马”,而另一种则可能是打印机品牌“斑马”,两者内容差别巨大。只使用查询标签“zebra”进行模型训练,则会使二者的视觉特征相互靠近,不利于视频特征学习。
38.在另一个例子中,假设利用具有相同语法结构的文本标题(如“what’s inside a baseball?”(棒球里有什么?)与“what’s inside a soccer ball?”(足球里有什么?))描述了不同物体(棒球/足球),同样,仅利用文本进行特征学习会使二者靠近,同样是不利的。
39.针对上述问题,发明人提出一种方法,基于查询关键词和文本标题弱监督信息,利用两者中其中一方的预测概率对另一方的原有标签进行校正,解决了原有标签的缺陷,提高模型的视频特征学习能力。
40.在一些实施例中,本公开的特征学习模型的训练方法的一些实施例的流程图如图1所示。
41.在步骤121中,获取视频的特征信息。在一些实施例中,可以将视频数据输入神经网络(如3d cnn(convolutional neural network,卷积神经网络))中,获取视频的特征信息。在一些实施例中,视频的特征信息可以为一维、长度为2048位的向量。在一些实施例中,可以基于相关技术中的视频特征提取方式,获取视频的特征信息。
42.在步骤122中,基于视频的特征信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率。
43.在一些实施例中,文本子类为通过对多个视频的标题的特征聚类分析确定。在一些实施例中,可以预先对视频的标题进行聚类分析,获得的子类的数量即为文本子类的数量,在一些实施例中,可以将聚类中心作为对应文本子类的特征。
44.在一些实施例中,首先建立一个文本词表,然后通过建立文本标题和词表中原型的关系对文本标题的固有结构进行分析。具体而言,首先对每一个视频的文本标题使用离线bert模型进行文本特征f
t
的提取。假设总共有k个查询,对于其中第k个查询而言,所有的文本特征通过k-means聚类算法聚成个mk子类。聚类个数mk的大小由基于统计的聚类估计算法gap statistic(差距统计)根据文本特征数据分布决定,其中,第i个文本子类的中心bi通过平均子类中的所有文本特征得到,并作为一个文本原型。收集一共k个查询的总共个子类中心原型作为文本词表。通过聚类,属于同一查询但具有不同语义的标题被分到了不同的子类中,显示了文本所具有的结构,这种结构同样展示了视觉的多样性。
45.在一些实施例中,查询概率为通过查询概率模型获取。在一些实施例中,可以构建
初始的查询概率模型。在一些实施例中,对于查询标签,可以利用对应的one-hot向量yq进行表示,对查询概率进行优化。在初始的查询概率模型中,使用softmax损失函数计算每个视频的查询损失函数:
[0046][0047]
其中,表示在查询概率向量中第k个查询的查询概率,k表示总共的查询词数目。为示性函数,当且仅当k=查询标签yq时,否则
[0048]
在一些实施例中,文本概率可以为通过文本概率模型获取。在一些实施例中,可以构建初始的文本概率模型,文本概率与视频特征与文本子类的特征的距离相关,视频特征与文本子类的特征越近,则针对对应文本子类的文本概率越大。在一些实施例中,可以建立文本标题同文本词表中m个文本中心{bi|i=0,1,

,m-1}间的关系,首先计算文本特征同所有文本中心的余弦相似度,然后在该相似度上进行文本标签的计算:
[0049]yt
=softmax(cos(f
t
,bi)|i=0,1,

,m-1)
ꢀꢀ
(2)
[0050]
其中,softmax(
·
)表示带有温度参数1/m的softmax操作,而cos(
·
)表示余弦相似度的计算。对于每一个训练视频样本而言,在初始的文本概率模型中,文本损失函数通过softmax交叉熵损失函数表示:
[0051][0052]
其中,表示文本概率向量中第i个文本子类的预测概率。该初始的文本概率模型对应的初始的文本损失函数l
t
不参与后续训练。
[0053]
在步骤123中,获取归属于同一个查询标签的文本子类的文本概率之和,作为对应查询标签的校正值。在一些实施例中,每个查询标签可以对应于一个文本子类,或对应多个文本子类。
[0054]
在一些实施例中,可以对属于第k个查询标签的所有文本子类的文本概率进行累加,得到对查询标签k的校正值该校正值即为利用文本信息对查询操作的校正值:
[0055][0056]
其中,ik表示属于第k个查询对应的文本子类的序号集合。
[0057]
在步骤124中,根据查询概率和查询标签的校正值,修正查询标签,获取查询校正标签。
[0058]
在一些实施例中,可以将查询概率作为权重,获取查询标签的加权值,作为对应查询标签的查询置信度。进一步的,根据对应于相同查询标签的查询置信度与查询标签的校正值的和,计算查询校正标签。
[0059]
在一些实施例中,在计算查询校正标签的操作中,可以获取对应于相同查询标签的查询置信度与查询标签的校正值的和,确定查询校正标签初始值;将查询校正标签初始
值除以查询校正标签初始值的l1范数,获取查询校正标签。
[0060]
例如,查询标签的校正值需要被用于修正原始的查询标签yq。利用查询概率pq对原始查询标签yq进行加权,并作为查询置信度,即查询置信度用于查询标签的校正。其中操作为逐个元素相乘。校正后的查询校正标签表示为:
[0061][0062]
其中,||
·
||1表示l1范数。上述公式同时考虑到了原始查询标签和文本信息对查询标签的校正,以一种加权平均的方式得到修正后的查询校正标签1q。
[0063]
在步骤125中,根据查询校正标签和查询概率确定查询损失函数值。在一些实施例中,针对每个查询标签,可以获取查询概率的对数值,并确定查询概率的对数值与对应的查询校正标签的乘积;进而获取全部查询标签的查询概率的对数值与对应的查询校正标签的乘积的总和,确定查询损失函数值。
[0064]
在一些实施例中,查询损失函数被重新定义为
[0065][0066]
其中,表示第k个查询词校正后的标签。即为当前训练方法中使用的、对于查询概率模型的损失函数。在训练过程中,根据通过公式得到的查询损失函数值修正查询概率模型的参数。该查询损失函数与公式(1)中所示的初始的查询损失函数相比,增加了查询校正标签,而查询校正标签的生成过程中使用了文本概率,从而使对于查询概率模型的训练参考了文本标签信息。
[0067]
通过这样的方法,能够利用文本分类和特征分析,对查询标签进行校正,并利用该校正结果参与进一步训练查询概率模型的损失函数计算,从而降低由于查询标签歧义的原因对视频特征学习的准确度的影响,提高了视频特征学习技术中对弱监督数据的利用,提高视频特征学习的准确度。
[0068]
本公开的特征学习模型的训练方法的另一些实施例的流程图如图2所示。
[0069]
在步骤231中,获取视频的特征信息。在一些实施例中,可以将视频数据输入神经网络(如3d cnn)中,获取视频的特征信息。在一些实施例中,视频的特征信息可以为一维、长度为2048位的向量。在一些实施例中,可以基于相关技术中的视频特征提取方式,获取视频的特征信息。
[0070]
在步骤232中,基于视频的特征信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率。在一些实施例中,文本概率、查询概率可以采用如上文中步骤122的实施例中的方式获取。
[0071]
在步骤233中,将查询概率分配至对应的文本子类,作为对应的文本子类的校正值。在一些实施例中,每个查询标签对应于一个或多个文本子类,通过将每个查询标签对应的查询概率分配到对应的文本子类上去,例如,对第k个查询的查询概率进行自上而下地分配,分配到各个对应的文本子类上去。从而得到每个文本子类的校正值。在一些实施例
中,对于第i个文本子类的校正值可以表示为:
[0072][0073]
其中,mk表示属于第k个查询的文本子类的数目。文本子类的校正值可以以文本校正向量表示,
[0074]
在步骤234中,根据文本概率和文本子类的校正值,修正文本子类的文本标签,获取文本校正标签。
[0075]
在一些实施例中,可以将文本概率作为权重,获取文本标签的加权值,作为对应文本子类的文本置信度,例如,通过利用文本概率p
t
对原始的文本子类的文本标签y
t
进行加权,文本置信度其中操作为逐个元素相乘。进一步的,根据对应于相同文本子类的文本置信度与文本子类的校正值的和,获取文本校正标签。在一些实施例中,可以先获取对应于相同文本子类的文本置信度与文本子类的校正值的和,确定文本校正标签第一值再将文本校正标签第一值除以文本校正标签第一值的l1范数获取文本校正标签第二值r
t
。在一些实施例中,通过公式表示,
[0076]
进一步,由于通常情况下,文本信息一般会涵盖查询的所有信息并进行适当补充。因此,对于查询到文本的监督校正,需要保证校正值的持续可靠。为了渐进式地更新每一个校正后的文本监督,可以使用一种基于动量的更新准则更新文本校正标签第二值1
t
,获取文本校正标签
[0077][0078]
其中,α表示动量系数,分别表示新输入的校正后文本标签和训练过程中的动量更新值。
[0079]
在步骤235中,根据文本校正标签和文本概率确定文本损失函数值,并根据文本损失函数值修正文本概率模型的参数。
[0080]
在一些实施例中,针对每个文本子类,获取文本概率的对数值,并确定文本概率的对数值与对应的文本校正标签的乘积;获取全部文本子类的文本概率的对数值与对应的文本校正标签的乘积的总和,确定文本损失函数值。在一些实施例中,文本损失函数可以被重定义为为
[0081][0082]
其中,表示第i个文本子类上修正后的文本软标签。即为当前训练方法中使用的、对于文本概率模型的损失函数。在训练过程中,根据通过公式得到的文本损失函数值修正文本概率模型的参数。该文本损失函数与初始的公式(3)中的文本损失函数相比,增加了文本校正标签,而文本校正标签的生成过程中使用了查询概率,从而使对于文本概率模型的训练参考了查询标签信息。
[0083]
通过这样的方法,能够利用查询标签和特征分析,对文本标签进行校正,并利用该校正结果参与进一步训练文本概率模型的损失函数计算,从而降低由于文本语法结构相似的原因对视频特征学习的准确度的影响,提高了视频特征学习技术中对弱监督数据的利用,提高视频特征学习的准确度。
[0084]
在一些实施例中,可以利用上文中提到的任意一种针对查询概率模型的特征学习模型的训练方法,来训练查询概率模型,同时可以利用上文中任意一种针对文本概率模型的特征学习模型的训练方法,来训练文本概率模型,从而同时使用查询关键词和文本标题弱监督信息进行视频特征学习的方式,并尝试利用二者的预测概率互相对对方的原有标签进行校正,同时解决监督信息中查询歧义性和文本同构性问题,进一步提高模型的视频特征学习能力。
[0085]
本公开的特征学习模型的训练方法的又一些实施例的流程图如图3所示。
[0086]
在步骤311中,根据视频的特征信息确定视频的查询概率的可信度和文本概率的可信度。在一些实施例中,可以先将视频数据输入神经网络,如步骤121或步骤131中提到的神经网络,获取视频的特征信息,进而确定查询概率的可信度和文本概率的可信度。在一些实施例中,可信度可以与概率的集中程度相关,例如若各个查询标签的查询概率相差较小,则可信度较低;若查询概率在某一个查询标签远大于其他查询标签,则可信度较高。针对文本概率可以有相似的判断逻辑。在一些实施例中,可以以概率的方差作为判断可信度的参考因素,可信度与方差正相关。
[0087]
在步骤313中,比较查询概率的可信度与文本概率的可信度。若查询概率的可信度大于文本概率的可信度,则针对该视频,执行步骤330,对文本概率模型进行训练;若文本概率的可信度大于查询概率的可信度,则针对该视频,执行步骤320,对查询概率模型进行训练。
[0088]
在步骤320中,利用文本概率训练、修正查询概率模型。在一些实施例中,可以将确定执行步骤320分支的视频作为样本,执行如图1对应实施例中的方式,训练查询概率模型。
[0089]
在步骤330中,利用查询概率训练文本概率模型。在一些实施例中,可以将确定执行步骤330分支的视频作为样本,执行如图2对应实施例中的方式,训练文本概率模型。
[0090]
通过这样的方法,能够分辨出能够对查询概率模型带来更多优化效果和能够对文本概率模型带来更多优化效果的样本数据,有针对性的执行训练方法训练对应的模型,从而在同步解决查询歧义性和文本同构性问题的基础上,提高训练效率。
[0091]
本公开的特征学习模型的训练方法的再一些实施例的流程图如图4所示。训练过程分为两个阶段,包括以步骤401~404为第一阶段,以步骤411~430为第二阶段。在第一阶段中,步骤401与步骤403的操作可以为同步进行,不分先后。
[0092]
在步骤401中,利用视频的特征信息训练查询概率初始模型,获取查询初始损失值函数值。在一些实施例中,查询初始损失值函数值可以为根据公式(1)获取。
[0093]
在步骤402中,根据查询初始损失值修正查询概率初始模型的参数,获取查询概率模型。
[0094]
在步骤403中,利用视频的特征信息训练文本概率初始模型,获取文本初始损失值函数值。在一些实施例中,文本初始损失值函数值可以为根据公式(3)获取。
[0095]
在步骤404中,根据文本初始损失值修正文本概率初始模型的参数,获取文本概率
模型。
[0096]
将样本数据全部通过上述第一阶段的操作,暂时不执行从步骤411开始的步骤,直至完成了初始的查询概率模型和文本概率模型的训练,开始第二阶段的训练。
[0097]
在步骤411中,将作为样本的视频的视频特征数据分别输入步骤402和步骤404中生成的查询概率模型和文本概率模型,得到查询概率和文本概率。进一步的,确定视频的查询概率的可信度和文本概率的可信度。
[0098]
在步骤412中,比较查询概率的可信度与文本概率的可信度。若查询概率的可信度大于文本概率的可信度,则针对该视频,执行步骤330,对文本概率模型进行训练;若文本概率的可信度大于查询概率的可信度,则针对该视频,执行步骤320,对查询概率模型进行训练。
[0099]
在步骤420中,利用文本概率训练、修正查询概率模型。在一些实施例中,可以将确定执行步骤320分支的视频作为样本,执行如图1对应实施例中的方式,训练查询概率模型。
[0100]
在步骤430中,利用查询概率训练文本概率模型。利用查询概率训练文本概率模型。在一些实施例中,可以将确定执行步骤330分支的视频作为样本,执行如图2对应实施例中的方式,训练文本概率模型。
[0101]
通过这样的方法,能够首先生成初始的查询概率模型和文本概率模型,进而以初始的查询概率模型和文本概率模型为基础,同时使用查询关键词和文本标题弱监督信息进行视频特征学习,并尝试利用二者的预测概率互相对对方的原有标签进行校正,同时解决监督信息中查询歧义性和文本同构性问题,进一步提高模型的视频特征学习能力;能够分辨出能够对查询概率模型带来更多优化效果和能够对文本概率模型带来更多优化效果的样本数据,有针对性的执行训练方法训练对应的模型,从而提高训练效率。
[0102]
本公开的特征学习装置的一些实施例的示意图如图5所示。
[0103]
第一信息获取单元521能够获取视频的特征信息。在一些实施例中,第一信息获取单元521可以包括能够提取出视频特征信息的神经网络。
[0104]
第一概率获取单元522能够基于视频的特征信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率。在一些实施例中,第一概率获取单元522可以包括查询概率模型和文本概率模型,其中,文本概率模型为初始的文本概率模型,查询概率模型为被训练的模型。
[0105]
查询校正值获取单元523能够获取归属于同一个查询标签的文本子类的文本概率之和,作为对应查询标签的校正值。在一些实施例中,每个查询标签可以对应于一个文本子类,或对应多个文本子类。
[0106]
查询校正标签获取单元524能够根据查询概率和查询标签的校正值,修正查询标签,获取查询校正标签。
[0107]
在一些实施例中,查询校正标签获取单元524可以将查询概率作为权重,获取查询标签的加权值,作为对应查询标签的查询置信度。进一步的,根据对应于相同查询标签的查询置信度与查询标签的校正值的和,计算查询校正标签。
[0108]
在一些实施例中,查询校正标签获取单元524可以在计算查询校正标签的操作中,可以获取对应于相同查询标签的查询置信度与查询标签的校正值的和,确定查询校正标签初始值;将查询校正标签初始值除以查询校正标签初始值的l1范数,获取查询校正标签。
[0109]
查询损失函数获取单元525能够根据查询校正标签和查询概率确定查询损失函数值。在一些实施例中,针对每个查询标签,可以获取查询概率的对数值,并确定查询概率的对数值与对应的查询校正标签的乘积;进而获取全部查询标签的查询概率的对数值与对应的查询校正标签的乘积的总和,确定查询损失函数值。
[0110]
这样的特征学习装置能够利用文本分类和特征分析,对查询标签进行校正,并利用该校正结果参与进一步训练查询概率模型的损失函数计算,从而降低由于查询标签歧义的原因对视频特征学习的准确度的影响,提高了视频特征学习技术中对弱监督数据的利用,提高视频特征学习的准确度。
[0111]
本公开的特征学习装置的另一些实施例的示意图如图6所示。
[0112]
第二信息获取单元631能够获取视频的特征信息。在一些实施例中,第二信息获取单元631可以包括能够提取出视频特征信息的神经网络。
[0113]
第二概率获取单元632能够基于视频的特征信息,获取视频针对每种查询标签的查询概率,以及针对每个文本子类的文本概率。在一些实施例中,第二概率获取单元522可以包括查询概率模型和文本概率模型,其中,查询概率模型为初始的查询概率模型,文本概率模型为被训练的模型。
[0114]
文本校正值获取单元633能够将查询概率分配至对应的文本子类,作为对应的文本子类的校正值。
[0115]
文本校正标签获取单元634能够根据文本概率和文本子类的校正值,修正文本子类的文本标签,获取文本校正标签。
[0116]
文本损失函数获取单元635能够根据文本校正标签和文本概率确定文本损失函数值,并根据文本损失函数值修正文本概率模型的参数。
[0117]
这样的特征学习装置能够利用查询标签和特征分析,对文本标签进行校正,并利用该校正结果参与进一步训练文本概率模型的损失函数计算,从而降低由于文本语法结构相似的原因对视频特征学习的准确度的影响,提高了视频特征学习技术中对弱监督数据的利用,提高视频特征学习的准确度。
[0118]
本公开的特征学习系统的一些实施例的示意图如图7所示。特征学习系统包括第一特征学习装置720和第二特征学习装置730。
[0119]
第一特征学习装置720可以为图5所示实施例对应的特征学习模型,执行如图1所示实施例中的方法,利用文本概率修正查询标签,从而修正查询概率模型。
[0120]
第二特征学习装置730能够可以为图6所示实施例对应的特征学习模型,执行如图2所示实施例中的方法,利用文本概率修正查询标签,从而修正查询概率模型。
[0121]
这样的特征学习系统同时使用查询关键词和文本标题弱监督信息进行视频特征学习的方式,并尝试利用二者的预测概率互相对对方的原有标签进行校正,同时解决监督信息中查询歧义性和文本同构性问题,进一步提高模型的视频特征学习能力。
[0122]
在一些实施例中,如图7所示,特征学习系统还可以包括分类装置710,能够根据视频的特征信息确定视频的查询概率的可信度和文本概率的可信度。比较查询概率的可信度与文本概率的可信度。若查询概率的可信度大于文本概率的可信度,则将该视频交由第二特征学习装置730处理;若文本概率的可信度大于查询概率的可信度,则将该视频交由第一特征学习装置720处理。
[0123]
这样的特征学习系统能够分辨出能够对查询概率模型带来更多优化效果和能够对文本概率模型带来更多优化效果的样本数据,有针对性的执行训练方法训练对应的模型,从而在同步解决查询歧义性和文本同构性问题的基础上,提高训练效率。
[0124]
在一些实施例中,如图7所示,特征学习系统还可以包括初始训练装置740,能够在利用分类装置710以及第一、第二特征学习装置720、730进行训练之前,通过第一阶段训练的操作生成初始的查询概率模型和文本概率模型。
[0125]
在一些实施例中,初始训练装置740能够利用视频的特征信息训练查询概率初始模型,获取查询初始损失值函数值,查询初始损失值函数值可以为根据公式(1)获取。进一步的,根据查询初始损失值修正查询概率初始模型的参数,获取查询概率模型。初始训练装置740还能够利用视频的特征信息训练文本概率初始模型,获取文本初始损失值函数值,文本初始损失值函数值可以为根据公式(3)获取。进一步的,根据文本初始损失值修正文本概率初始模型的参数,获取文本概率模型。在完成第一阶段训练后,初始训练装置740触发分类装置710开始第二阶段的训练操作。
[0126]
这样的特征学习系统能够首先生成初始的查询概率模型和文本概率模型,进而以初始的查询概率模型和文本概率模型为基础,同时使用查询关键词和文本标题弱监督信息进行视频特征学习,从而利用第一阶段的训练得到后续进行模型修正的基础,提高第二阶段的收敛效率。
[0127]
本公开的特征学习系统对应的信息校正网络的一些实施例的示意图如图8a~8c所示。图8a中,视频数据经过3d cnn模型811后,获取视频的特征数据。将视频的特征信息经过基于查询、文本概率的可信度分析操作,在分类812模块中,确定后续采用利用文本概率训练查询概率模型的网络820,还是采用利用查询概率训练文本概率模型的网络830来处理视频的特征信息所对应的视频。
[0128]
图8b为利用文本概率训练查询概率模型的网络820的示意图。图8c为利用查询概率训练文本概率模型的网络830的示意图。
[0129]
首先,文本概率模型822为在第一阶段的训练中,利用文本损失函数模块828和文本监督模块829训练生成,文本损失函数如公式(3)所示。在第二阶段的训练过程中,文本损失函数模块828和文本监督模块829不参与。相似的,查询概率模型832为在第一阶段的训练中,利用查询损失函数模块838和查询监督模块839训练生成,查询损失函数如公式(1)所示。在第二阶段的训练过程中,查询损失函数模块838和查询监督模块839不参与。
[0130]
在利用文本概率训练查询概率模型的网络820中,查询概率模型821在第二阶段的训练开始时,与查询概率模型832相同。查询损失函数模块827对应的查询函数如公式(6)中所示。在分查询标签的概率求和模块823中,将归属于同一个查询标签的文本子类的文本概率之和,在文本对于查询的校正值模块824中,获取查询标签的校正值。假设文本子类包括美洲豹1、美洲豹2、美洲豹3、汽车1、汽车2等,查询标签包括美洲豹、汽车等,则将美洲豹1、2、3对应的文本概率相加,作为针对查询标签“美洲豹”的校正值;将汽车1、2的文本概率相加,作为针对查询标签“汽车”的校正值。在查询监督模块825中,将查询概率作为权重,获取查询标签的加权值,作为对应查询标签的查询置信度。在校正后的查询监督826中,根据对应于相同查询标签的查询置信度与查询标签的校正值的和,计算查询校正标签。查询校正标签将用于查询损失函数827的损失值计算。
[0131]
在利用查询概率训练文本概率模型的网络830中,文本概率模型831在第二阶段的训练开始时,与文本概率模型822相同。文本损失函数模块837对应的查询函数如公式(9)中所示。在以文本子类为单位的概率分配模块823中,将同一个查询标签分配至对应的多个文本子类,在查询概率对于文本子类的校正值模块834中,获取文本标签的校正值。假设查询标签包括吉他、海洋等,文本子类包括吉他1、吉他2、海洋1、海洋2等,则将吉他的查询概率分配给文本子类吉他1和吉他2,分别作为针对文本子类吉他1、吉他2的校正值;将海洋的查询概率分配给文本子类海洋1和海洋2,分别作为针对文本子类海洋1、海洋2的校正值。在文本监督模块835中,将文本概率作为权重,获取文本标签的加权值,作为对应文本标签的文本置信度。在校正后的文本监督826中,根据对应于相同文本标签的文本置信度与文本标签的校正值的和,计算文本校正标签。文本校正标签将用于文本损失函数837的损失值计算。
[0132]
利用这样的网络,能够将查询标签和文本形式的标题信息构建为监督标签,进行以分类任务为基础的视频特征学习模式,通过利用二者信息的相互校正,不断提升弱监督标签信息的可靠性,进一步提升深度神经网络对视频特征的建模能力,在利用海量网络视频数据进行弱监督视频特征学习时,消除查询词歧义性和文本同构性问题,在视频动作分类等下游任务获得性能的提升,。
[0133]
本公开网络设备的一个实施例的结构示意图如图9所示。网络设备包括存储器901和处理器902。其中:存储器901可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中特征学习模型的训练方法的对应实施例中的指令。处理器902耦接至存储器901,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器902用于执行存储器中存储的指令,能够提高视频特征学习的准确度。
[0134]
在一个实施例中,还可以如图10所示,网络设备1000包括存储器1001和处理器1002。处理器1002通过bus总线1003耦合至存储器1001。该网络设备1000还可以通过存储接口1004连接至外部存储装置1005以便调用外部数据,还可以通过网络接口1006连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
[0135]
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高视频特征学习的准确度。
[0136]
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现特征学习模型的训练方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0137]
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0139]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0140]
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
[0141]
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0142]
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1