一种多媒体内容的标签确定方法及装置与流程

文档序号:31793394发布日期:2022-10-14 16:33阅读:67来源:国知局
一种多媒体内容的标签确定方法及装置与流程

1.本技术涉及计算机技术领域,特别是涉及一种多媒体内容的标签确定方法及装置。


背景技术:

2.在一些场景中,需要确定多媒体内容的标签。在一个示例中,确定多媒体内容的标签之后,可以基于多媒体内容的标签,为用户推荐多媒体内容。例如,在搜索场景中,基于多媒体内容的标签,为用户推荐相应的多媒体内容作为搜索结果;又如,基于媒体内容的标签,主动为用户推荐相应的多媒体内容。因此,准确的确定多媒体内容的标签尤为重要。
3.如何准确的确定多媒体内容的标签,是目前尚待解决的问题。


技术实现要素:

4.本技术实施例提供了一种多媒体内容的标签确定方法及装置。
5.第一方面,本技术实施例提供了一种多媒体内容的标签确定方法,所述方法包括:
6.获取待识别多媒体内容,并确定所述待识别多媒体内容的目标特征;
7.确定与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容,并确定每个所述相似多媒体内容的特征;
8.基于所述目标特征和所述每个所述相似多媒体内容的特征,确定所述待识别多媒体内容的标签。
9.可选的,所述基于所述目标特征和所述每个所述相似多媒体内容的特征,确定所述待识别多媒体内容的标签,包括:
10.确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征;
11.基于所述目标特征和所述融合特征,确定所述待识别多媒体内容的标签。
12.可选的,所述确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征,包括:
13.基于全局池化层和/或自注意力模块,确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征。
14.可选的,所述基于所述目标特征和所述每个所述相似多媒体内容的特征,确定所述待识别多媒体内容的标签,包括:
15.将所述目标特征和所述每个所述相似多媒体内容的特征输入标签确定模型,得到所述待识别多媒体内容的标签,所述标签确定模型,是基于训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征、以及所述训练多媒体内容的标签训练得到的。
16.可选的,所述标签确定模型包括特征处理模块和标签预测模块;
17.所述特征处理模块,用于基于所述训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征,得到所述训练多媒体内
容的融合特征;
18.所述标签预测模块,用于基于所述训练多媒体内容的目标特征、以及所述训练多媒体内容的融合特征,得到所述训练多媒体内容的标签预测结果。
19.可选的,所述特征处理模块包括:
20.全局池化层和/或自注意力模块。
21.可选的,所述确定与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容,包括:
22.基于所述待识别多媒体内容的至少一个特征,从与所述至少一个特征中各个特征分别对应的检索库中确定所述至少一个相似多媒体内容,所述至少一个相似多媒体内容,包括基于所述至少一个特征中、每个特征分别确定的相似多媒体内容。
23.可选的,所述至少一个特征包括第一特征,所述第一特征是利用第一特征提取模型对所述待识别多媒体内容进行特征提取得到的,所述第一特征对应的检索库,为与所述第一特征提取模型对应的检索库。
24.可选的,所述第一特征对应的检索库,是基于采用第一特征提取模型所提取的历史特征以及历史多媒体内容构建的,其中,所述历史特征为历史多媒体内容的特征。
25.可选的,所述待识别多媒体内容,包括:
26.视频或者音频。
27.第二方面,本技术实施例提供了一种多媒体内容的标签确定装置,所述装置包括:
28.获取单元,用于获取待识别多媒体内容,并确定所述待识别多媒体内容的目标特征;
29.第一确定单元,用于确定与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容,并确定每个所述相似多媒体内容的特征;
30.第二确定单元,用于基于所述目标特征和所述每个所述相似多媒体内容的特征,确定所述待识别多媒体内容的标签。
31.可选的,所述第二确定单元,用于:
32.确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征;
33.基于所述目标特征和所述融合特征,确定所述待识别多媒体内容的标签。
34.可选的,所述确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征,包括:
35.基于全局池化层和/或自注意力模块,确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征。
36.可选的,所述第二确定单元,用于:
37.将所述目标特征和所述每个所述相似多媒体内容的特征输入标签确定模型,得到所述待识别多媒体内容的标签,所述标签确定模型,是基于训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征、以及所述训练多媒体内容的标签训练得到的。
38.可选的,所述标签确定模型包括特征处理模块和标签预测模块;
39.所述特征处理模块,用于基于所述训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征,得到所述训练多媒体内
容的融合特征;
40.所述标签预测模块,用于基于所述训练多媒体内容的目标特征、以及所述训练多媒体内容的融合特征,得到所述训练多媒体内容的标签预测结果。
41.可选的,所述特征处理模块包括:
42.全局池化层和/或自注意力模块。
43.可选的,所述第一确定单元,用于:
44.基于所述待识别多媒体内容的至少一个特征,从与所述至少一个特征中各个特征分别对应的检索库中确定所述至少一个相似多媒体内容,所述至少一个相似多媒体内容,包括基于所述至少一个特征中、每个特征分别确定的相似多媒体内容;
45.确定每个所述相似多媒体内容的特征。
46.可选的,所述至少一个特征包括第一特征,所述第一特征是利用第一特征提取模型对所述待识别多媒体内容进行特征提取得到的,所述第一特征对应的检索库,为与所述第一特征提取模型对应的检索库。
47.可选的,所述第一特征对应的检索库,是基于采用第一特征提取模型所提取的历史特征以及历史多媒体内容构建的,其中,所述历史特征为历史多媒体内容的特征。
48.可选的,所述待识别多媒体内容,包括:
49.视频或者音频。
50.第三方面,本技术实施例提供了一种设备,所述设备包括处理器和存储器;
51.所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行如以上第一方面中任一项所述的方法。
52.第四方面,本技术实施例提供了一种计算机可读存储介质,包括指令,所述指令指示设备执行如以上第一方面中任一项所述的方法。
53.第五方面,本技术实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行以上第一方面任一项所述的方法。
54.与现有技术相比,本技术实施例具有以下优点:
55.本技术实施例提供了一种多媒体内容的标签确定方法,在一个示例中,所述方法包括:获取待识别多媒体内容,并确定所述待识别多媒体内容的目标特征。另外,考虑到与待识别多媒体内容相似的多媒体内容,对确定待识别多媒体内容的标签具备一定的影响。因此,在本技术实施例中,还可以确定与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容,并确定每个所述相似多媒体内容的特征。进一步地,基于所述目标特征和所述每个所述相似多媒体内容的特征,来确定所述待识别多媒体内容的标签。由此可见,在本技术实施例中,确定待识别多媒体的内容的标签时,除了考虑待识别多媒体内容自身的标签之外,还考虑了各个相似多媒体内容的特征,因此,本方案能够准确的确定所述待识别多媒体内容的标签。
附图说明
56.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,
还可以根据这些附图获得其他的附图。
57.图1为本技术实施例提供的一种多媒体内容的标签确定方法的流程示意图;
58.图2为本技术实施例提供的一种标签确定方法的流程示意图;
59.图3为本技术实施例提供的一种模型训练方法的流程示意图;
60.图4为本技术实施例提供的一种多媒体内容的标签确定装置的结构示意图。
具体实施方式
61.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
62.本技术的发明人经过研究发现,目前,可以基于多媒体内容本身所包括的内容,来确定多媒体内容的标签。例如,对于视频而言,可以利用视频中包括的画面、文本等来确定该视频的标签。但是,多媒体本身所包括的内容是有限的,因此,仅基于多媒体内容本身所包括的内容,并不能准确的确定多媒体内容的标签。
63.本技术的发明人还发现,在确定多媒体内容的标签时,还可以结合与多媒体内容比较相似的多媒体内容。例如,在确定第一多媒体内容的标签时,可以将相似多媒体内容的标签也确定为该第一多媒体内容的标签。但是,由于相似的多媒体内容并不代表标签一定相同。因此,这种方式也不能准确的确定多媒体内容的标签。
64.考虑到上述问题,本技术实施例提供了一种多媒体内容的标签确定方法,可以结合相似多媒体内容来准确的确定多媒体内容的标签。
65.下面结合附图,详细说明本技术的各种非限制性实施方式。
66.示例性方法
67.参见图1,该图为本技术实施例提供的一种多媒体内容的标签确定方法的流程示意图。在本实施例中,所述方法可以由客户端执行,也可以由服务端执行,本技术实施例不做具体限定。在一个示例中,所述方法例如可以包括以下步骤:s101-s103。
68.s101:获取待识别多媒体内容,并确定所述待识别多媒体内容的目标特征。
69.本技术实施例中提及的多媒体内容(包括待识别多媒体内容以及历史多媒体内容),包括但不限于视频或者音频。
70.本技术实施例不具体限定所述目标特征,所述目标特征例如可以包括内容特征、属性特征以及标注信息特征等等。其中,内容特征可以是多媒体内容所包括的内容对应的特征,所述属性特征可以是多媒体内容在某一维度的属性信息对应的特征,所述标注信息特征,可以是多媒体内容包括的标注信息对应的特征。
71.本技术实施例不具体限定确定所述目标特征的具体实现方式。作为一个示例,可以利用特征提取模型来提取所述目标特征中的部分或者全部特征;作为有一个示例,可以采用特定的算法对多媒体内容进行分析,以得到所述目标特征中的部分或者全部特征。
72.s102:确定与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容,并确定每个相似多媒体内容的特征。
73.在一个示例中,可以比较所述待识别多媒体内容所包括的内容以及其它多媒体内
容所包括的内容,从而得到与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容。
74.在又一个示例中,可以基于所述待识别多媒体内容的至少一个特征,来确定所述至少一个相似多媒体内容。在一个具体的实现方式中,可以首先确定所述待识别对媒体内容的至少一个特征,而后,分别基于所述至少一个特征中的每个特征,来确定与所述待识别多媒体内容的相似度高于一定阈值的相似多媒体内容。为方便描述,将所述至少一个特征中的任意一个特征,称为“第一特征”,则可以基于第一特征确定所述待识别多媒体内容的相似多媒体内容。例如,可以从第一特征对应的检索库中进行检索,得到与第一特征的相似度高于一定阈值的至少一个相似多媒体内容。在一个示例中,所述第一特征的检索库中可以保存多个历史多媒体内容和各个历史多媒体内容对应的历史特征。相应的,“可以从第一特征对应的检索库中进行检索,得到与第一特征的相似度高于一定阈值的至少一个相似多媒体内容”在具体实现时,可以计算第一特征和上述检索库中的各个历史特征的相似度,将相似度大于所述一定阈值的历史特征对应的历史多媒体内容,确定为所述待识别多媒体内容的相似多媒体内容。
75.关于所述第一特征,需要说明的是,在一个示例中,所述第一特征可以是利用第一特征提取模型对所述待识别多媒体内容进行特征提取得到的。相应的,所述第一特征对应的检索库,指的是与第一特征提取模型对应的检索库。
76.如前所述,在一个示例中,所述第一特征的检索库中可以保存多个历史多媒体内容和各个历史多媒体内容对应的历史特征。在一个示例中,所述历史特征可以是采用第一特征提取模型对所述历史多媒体内容进行特征提取之后得到的。获得历史多媒体内容和历史特征之后,可以采用基于树的方法(例如kd-tree),或者采用基于图的方法(例如hnsw)构建所述第一特征对应的检索库。
77.需要说明的是,对于所述n个特征提取模型而言,其对所述待识别多媒体内容进行特征提取时,所提取的特征可能会存在些许差异,而本技术中,结合n个特征分别确定所述待识别多媒体内容的相似多媒体内容,可以使得所确定的相似多媒体内容较为丰富,相应的,在进一步结合相似多媒体内容的特征来确定待识别多媒体内容的标签时,能够更加准确的确定所述待识别多媒体内容的标签。
78.关于s102中的“确定与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容”,现举例说明:
79.利用n个特征提取模型(包括前述第一特征提取模型)分别对待识别多媒体内容进行特征提取,得到所述待识别多媒体内容的n个特征。利用该n个特征,分别从n个检索库中进行检索,从每个检索库中检索得到k个相似多媒体内容。其中,该n个检索库包括与该n个特征提取模型中各个特征提取模型分别对应的检索库。关于“确定每个相似多媒体内容的特征”,其具体实现方式与“确定所述待识别多媒体内容的目标特征”的实现方式基本相同,因此,关于“确定每个相似多媒体内容的特征”的具体实现,可以参考s101中的相关描述部分,此处不再重复描述。
80.s103:基于所述目标特征和所述每个所述相似多媒体内容的特征,确定所述待识别多媒体内容的标签。
81.在一个示例中,得到所述待识多媒体内容的目标特征和所述每个所述相似多媒体
内容的特征之后,可以对所述待识多媒体内容的目标特征和所述每个所述相似多媒体内容的特征进行分析,以得到所述待识别多媒体内容的标签。
82.在一个示例中,s103在具体实现时,可以确定所述每个所述相似多媒体内容的特征的融合特征,而后,基于所述融合特征和所述待识别多媒体内容的目标特征,得到所述待识别多媒体内容的标签。
83.在又一个示例中,s103在具体实现时,可以包括图2所示的s1031-s1032。
84.图2为本技术实施例提供的一种标签确定方法的流程示意图。
85.s1031:确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征。
86.所述融合特征,能够体现所述待识别多媒体内容和所述多个相似多媒体内容之间的关联关系。在一个示例中,可以利用特定的特征处理模块来确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征。在一个具体的示例中,可以基于全局池化层和/或自注意力模块,确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征。例如,可以基于所述全局池化层对所述每个所述相似多媒体内容的特征进行处理,并利用自注意力模块对所述待识别内容的目标特征以及所述全局池化层输出的结果进行处理,以得到所述融合特征。其中,所述全局池化层可以对所述每个所述相似多媒体内容的特征进行平均池化,或者,所述全局池化层可以对所述每个所述相似多媒体内容的特征进行最大值池化。
87.s1032:基于所述目标特征和所述融合特征,确定所述待识别多媒体内容的标签。
88.得到所述融合特征之后,可以基于所述待识别多媒体内容的目标特征和前述融合特征,得到所述待识别多媒体内容的标签。在一个示例中,可以利用标签预测模块对所述待识别多媒体内容的目标特征和前述融合特征进行处理,以得到所述待识别多媒体内容的标签。
89.在一个示例中,可以利用标签确定模型来确定待识别多媒体内容的标签。对于这种情况,s103在具体实现时,可以将所述目标特征和所述每个所述相似多媒体内容的特征输入预先训练好的标签确定模型,以得到所述待识别多媒体内容的标签。在一个示例中,所述标签确定模型可以包括特征处理模块和标签预测模块,对于这种情况,所述特征处理模块可以用于执行以上s1031,所述标签预测模块可以用于执行以上s1032。通过以上对于s1031的描述可知,在一个示例中,所述特征处理模块可以包括全局池化层和/或自注意力模块。关于所述标签预测模块,本技术实施例不做具体限定,在一个示例中,所述标签预测模块可以包括一个或者多个全连接层。
90.接下来,结合图3对所述标签确定模型的训练过程进行介绍。
91.参见图3,该图为本技术实施例提供的一种模型训练方法的流程示意图。图3所示的方法,例如可以包括如下s301-s302。
92.s301:获取训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征、以及训练多媒体内容的标签。关于“训练多媒体内容的目标特征的确定方式”,可以参考s101中“确定所述待识别多媒体内容的目标特征”的具体实现,此处不再重复说明。
93.关于“与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征的确定方式”的具体实现,可以参考上文对于s102的具体描述部分,此处不再重复描
述。
94.在本技术实施例中,所述训练多媒体内容的标签,例如可以是人为标注的,对于这种情况,“获取训练多媒体内容的标签”在具体实现时,可以获取用户输入的所述训练多媒体内容的标签。
95.s302:基于所述训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征、以及训练多媒体内容的标签,训练所述标签确定模型。
96.在一个示例中,所述标签确定模型可以包括特征处理模块和标签预测模块。
97.在训练所述标签确定模型时:
98.所述特征处理模块,用于基于所述训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征,得到所述训练多媒体内容的融合特征。
99.所述标签预测模块,用于基于所述训练多媒体内容的目标特征、以及所述训练多媒体内容的融合特征,得到所述训练多媒体内容的标签预测结果。
100.在本技术实施例中,所述标签确定模型在训练阶段的数据处理方式、与在识别阶段的数据处理方式是基本相同的。换言之,所述标签确定模型对待识别多媒体内容的目标特征、以及与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征进行处理的方式、与所述标签确定模型对训练多媒体内容的目标特征、以及与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征进行处理的方式是相同的,因此:
101.关于特征处理模块确定所述训练多媒体内容的融合特征的具体实现,可以参考上文对于s1031的具体描述部分,此处不再重复描述。
102.关于所述标签预测模块的具体实现,可以参考上文对于s1032的具体描述部分,此处不再重复描述。
103.得到所述训练多媒体内容的标签预测结果之后,可以利用所述标签预测结果和所述待训练多媒体内容的标签,调整所述标签确定模型的参数。
104.示例性设备
105.基于以上实施例提供的方法,本技术实施例还提供了一种装置,以下结合附图介绍该装置。
106.参见图4,该图为本技术实施例提供的一种多媒体内容的标签确定装置的结构示意图。所述装置400例如可以具体包括:获取单元401、第一确定单元402和第二确定单元403。
107.获取单元401,用于获取待识别多媒体内容,并确定所述待识别多媒体内容的目标特征;
108.第一确定单元402,用于确定与所述待识别多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容,并确定每个所述相似多媒体内容的特征;
109.第二确定单元403,用于基于所述目标特征和所述每个所述相似多媒体内容的特征,确定所述待识别多媒体内容的标签。
110.可选的,所述第二确定单元403,用于:
111.确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征;
112.基于所述目标特征和所述融合特征,确定所述待识别多媒体内容的标签。
113.可选的,所述确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征,包括:
114.基于全局池化层和/或自注意力模块,确定所述每个所述相似多媒体内容的特征和所述目标特征的融合特征。
115.可选的,所述第二确定单元403,用于:
116.将所述目标特征和所述每个所述相似多媒体内容的特征输入标签确定模型,得到所述待识别多媒体内容的标签,所述标签确定模型,是基于训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征、以及所述训练多媒体内容的标签训练得到的。
117.可选的,所述标签确定模型包括特征处理模块和标签预测模块;
118.所述特征处理模块,用于基于所述训练多媒体内容的目标特征、与所述训练多媒体内容的相似度高于一定阈值的至少一个相似多媒体内容的特征,得到所述训练多媒体内容的融合特征;
119.所述标签预测模块,用于基于所述训练多媒体内容的目标特征、以及所述训练多媒体内容的融合特征,得到所述训练多媒体内容的标签预测结果。
120.可选的,所述特征处理模块包括:
121.全局池化层和/或自注意力模块。
122.可选的,所述第一确定单元402,用于:
123.基于所述待识别多媒体内容的至少一个特征,从与所述至少一个特征中各个特征分别对应的检索库中确定所述至少一个相似多媒体内容,所述至少一个相似多媒体内容,包括基于所述至少一个特征中、每个特征分别确定的相似多媒体内容;
124.确定每个所述相似多媒体内容的特征。
125.可选的,所述至少一个特征包括第一特征,所述第一特征是利用第一特征提取模型对所述待识别多媒体内容进行特征提取得到的,所述第一特征对应的检索库,为与所述第一特征提取模型对应的检索库。
126.可选的,所述第一特征对应的检索库,是基于采用第一特征提取模型所提取的历史特征以及历史多媒体内容构建的,其中,所述历史特征为历史多媒体内容的特征。
127.可选的,所述待识别多媒体内容,包括:
128.视频或者音频。
129.由于所述装置400是与以上方法实施例提供的方法对应的装置,所述装置400的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置400的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
130.本技术实施例还提供了一种设备,所述设备包括处理器和存储器;
131.所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行以上方法实施例提供的多媒体内容的标签确定方法。
132.本技术实施例提供了一种计算机可读存储介质,包括指令,所述指令指示设备执行以上方法实施例提供的多媒体内容的标签确定方法。
133.本技术实施例还提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行以上方法实施例提供的多媒体内容的标签确定方法。
134.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
135.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
136.以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1