基于模型共识的无标注数据应用方法和装置、设备、介质与流程

文档序号:16209279发布日期:2018-12-08 07:31阅读:198来源:国知局
基于模型共识的无标注数据应用方法和装置、设备、介质与流程

本申请涉及计算机视觉技术领域,尤其是一种基于模型共识的无标注数据应用方法和装置、设备、介质。

背景技术

随着深度学习中模型的增大,在对模型进行训练时,需要更多的标注数据,因此需要的人工标注量也越来越多。然而人工标注的错误难以避免,当人工标注的可靠性不如模型本身的时候,人工标注数据所带来的增益会远远低于标注本身耗费的劳动量。因此,需要一种合理的方式来利用无标注数据。



技术实现要素:

本申请实施例提供的一种基于模型共识的无标注数据应用方法。

根据本申请实施例的一个方面,提供的一种基于模型共识的无标注数据应用方法,包括:

基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;

基于至少一对所述目标数据对确定至少一个连通域;

根据所述连通域为所述无标注数据集中的至少两个无标注数据分配标签,其中,每个所述连通域内的无标注数据对应一个标签。

可选地,所述基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对之前,还包括:

基于已标注数据初始化所述基础模型和所述至少一个委员会模型,得到初始化后的基础模型和初始化后的委员会模型;

所述基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对,包括:

基于所述初始化后的基础模型和至少一个所述初始化后的委员会模型,从无标注数据集中获得至少一对目标数据对。

可选地,所述基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对,包括:

基于所述基础模型从无标注数据集中获得至少一对候选数据对;

基于至少一个所述委员会模型,对所述无标注数据集进行处理,得到每对所述候选数据对中数据间的关联关系,所述关联关系包括以下至少一种:所述候选数据对是否对应相同的标签的判别信息、所述候选数据对中两个无标注数据之间的相关相似度、所述候选数据对中两个无标注数据的结构特征数据;

基于所述关联关系从所述候选数据对中确定至少一对目标数据对。

可选地,所述基于所述基础模型从无标注数据集中获得至少一对候选数据对,包括:

经所述基础模型对所述无标注数据集进行特征提取,获得所述无标注数据对应的数据特征;

基于所述数据特征确定所述无标注数据集中各无标注数据之间的初始相似度;

基于所述初始相似度获得至少一对所述候选数据对,每对所述候选数据对中的两个无标注数据之间的初始相似度大于或等于预设值。

可选地,所述基于所述初始相似度获得至少一对所述候选数据对,包括:

基于第一数据与至少一个第二数据之间的初始相似度进行筛选,获得所述初始相似度大于预设值的至少一个所述候选数据对,每个候选数据对包括第一数据和一个第二数据;所述第一数据为所述无标注数据集中的一个无标注数据,所述第二数据为所述无标注数据集中除第一数据外的所有无标注数据。

可选地,所述基于至少一个委员会模型,对所述无标注数据集进行处理,获得每对所述候选数据对对应的关联关系,包括:

分别基于每个所述委员会模型,对所述无标注数据集进行处理,每个所述委员会模型获得一组所述无标注数据集对应的关联关系;

基于所述无标注数据集的关联关系和所述至少一对候选数据对,获得每对所述候选数据对对应的关联关系。

可选地,所述分别基于每个所述委员会模型,对所述无标注数据集进行处理,每个所述委员会模型获得一组所述无标注数据集对应的关联关系,包括:

分别基于每个所述委员会模型,获得所述无标注数据集中每两个无标注数据之间具有相同标签的概率信息;

所述基于所述无标注数据集的关联关系和所述至少一对候选数据对,获得每对所述候选数据对对应的关联关系,包括:

基于所述候选数据对从所述概率信息中获得至少一个概率信息;

分别对所述至少一个概率信息进行处理,连接所述处理后的概率信息作为所述候选数据对是否对应相同的标签的判别信息。

可选地,所述分别基于每个所述委员会模型,对所述无标注数据集进行处理,每个所述委员会模型获得一组所述无标注数据集对应的关联关系,包括:

分别基于每个所述委员会模型,获得所述无标注数据集中每个无标注数据对应的特征,基于所述特征确定所述无标注数据集中每两个无标注数据之间的模型相似度;

所述基于所述无标注数据集的关联关系和所述至少一对候选数据对,获得每对所述候选数据对对应的关联关系,包括:

基于所述候选数据对从所述模型相似度中获得所述候选数据对对应的至少一个模型相似度;

分别对所述至少一个模型相似度进行处理,连接所述处理后的模型相似度作为所述候选数据对中两个无标注数据之间的相关相似度。

可选地,所述分别基于每个所述委员会模型,对所述无标注数据集进行处理,每个所述委员会模型获得一组所述无标注数据集对应的关联关系,包括:

分别基于每个所述委员会模型,获得所述无标注数据集中每个无标注数据对应的结构特征数据;

所述基于所述无标注数据集的关联关系和所述至少一对候选数据对,获得每对所述候选数据对对应的关联关系,包括:

基于所述候选数据对从所述结构特征数据中获得所述候选数据对对应的至少一个结构特征数据;

分别对所述至少一个结构特征数据进行处理,连接所述处理后的结构特征数据作为所述候选数据对中两个无标注数据的结构特征数据。

可选地,所述基于所述关联关系从所述候选数据对中确定至少一对目标数据对,包括:

基于多层感知机分别对每对所述候选数据对的关联关系进行处理,确定所述候选数据对中的两个无标注数据是否成对;

当所述候选数据对中的两个无标注数据成对,确定所述候选数据对为目标数据对。

可选地,所述基于至少一对所述目标数据对获得至少一个连通域,包括:

将所述无标注数据集中各无标注数据作为节点,基于至少一对所述目标数据对为对应的两个无标注数据建立边,基于所有节点和连接节点的边构建一个图;

基于所述图中各所述节点之间的连接关系,获得至少一个连通域,每个连通域包括至少两个节点。

可选地,所述基于所述图中各所述节点之间的连接关系,获得至少一个连通域,包括:

将所述图中通过边连接的至少两个节点确定为一个连通域,获得至少一个连通域。

可选地,还包括:

当所述连通域中包括的节点数量大于预设阈值时,获得所述连通域中所有边对应的所述初始相似度;

将小于设定值的所述初始相似度对应的边删除,将所述一个连通域分割为至少两个连通域。

可选地,还包括:

基于所述分配标签后的无标注数据和已标注数据训练神经网络,所述神经网络与所述基础模型和所述委员会模型对应相同的数据处理任务,所述标注数据具有标注标签。

根据本申请实施例的另一个方面,提供的一种基于模型共识的无标注数据应用装置,包括:

数据对获得单元,用于基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;

连通域确定单元,用于基于至少一对所述目标数据对确定至少一个连通域;

标签分配单元,用于根据所述连通域为所述无标注数据集中的至少两个无标注数据分配标签,其中,每个所述连通域内的无标注数据对应一个标签。

可选地,还包括:

初始化单元,用于基于已标注数据初始化所述基础模型和所述至少一个委员会模型,得到初始化后的基础模型和初始化后的委员会模型;

所述数据对获得单元,用于基于所述初始化后的基础模型和至少一个所述初始化后的委员会模型,从无标注数据集中获得至少一对目标数据对。

可选地,所述数据对获得单元,包括:

候选获得模块,用于基于所述基础模型从无标注数据集中获得至少一对候选数据对;

关系获得模块,用于基于至少一个所述委员会模型,对所述无标注数据集进行处理,得到每对所述候选数据对中数据间的关联关系,所述关联关系包括以下至少一种:所述候选数据对是否对应相同的标签的判别信息、所述候选数据对中两个无标注数据之间的相关相似度、所述候选数据对中两个无标注数据的结构特征数据;

目标确定模块,用于基于所述关联关系从所述候选数据对中确定至少一对目标数据对。

可选地,所述候选获得模块,具体用于经所述基础模型对所述无标注数据集进行特征提取,获得所述无标注数据对应的数据特征;基于所述数据特征确定所述无标注数据集中各无标注数据之间的初始相似度;基于所述初始相似度获得至少一对所述候选数据对,每对所述候选数据对中的两个无标注数据之间的初始相似度大于或等于预设值。

可选地,所述候选获得模块基于所述初始相似度获得至少一对所述候选数据对时,用于基于第一数据与至少一个第二数据之间的初始相似度进行筛选,获得所述初始相似度大于预设值的至少一个所述候选数据对,每个候选数据对包括第一数据和一个第二数据;所述第一数据为所述无标注数据集中的一个无标注数据,所述第二数据为所述无标注数据集中除第一数据外的所有无标注数据。

可选地,所述关系获得模块,包括:

委员会模块,用于分别基于每个所述委员会模型,对所述无标注数据集进行处理,每个所述委员会模型获得一组所述无标注数据集对应的关联关系;

关联关系模块,用于基于所述无标注数据集的关联关系和所述至少一对候选数据对,获得每对所述候选数据对对应的关联关系。

可选地,所述委员会模块,具体用于分别基于每个所述委员会模型,获得所述无标注数据集中每两个无标注数据之间具有相同标签的概率信息;

所述关联关系模块,具体用于基于所述候选数据对从所述概率信息中获得至少一个概率信息;分别对所述至少一个概率信息进行处理,连接所述处理后的概率信息作为所述候选数据对是否对应相同的标签的判别信息。

可选地,所述委员会模块,具体用于分别基于每个所述委员会模型,获得所述无标注数据集中每个无标注数据对应的特征,基于所述特征确定所述无标注数据集中每两个无标注数据之间的模型相似度;

所述关联关系模块,具体用于基于所述候选数据对从所述模型相似度中获得所述候选数据对对应的至少一个模型相似度;分别对所述至少一个模型相似度进行处理,连接所述处理后的模型相似度作为所述候选数据对中两个无标注数据之间的相关相似度。

可选地,所述委员会模块,具体用于分别基于每个所述委员会模型,获得所述无标注数据集中每个无标注数据对应的结构特征数据;

所述关联关系模块,具体用于基于所述候选数据对从所述结构特征数据中获得所述候选数据对对应的至少一个结构特征数据;分别对所述至少一个结构特征数据进行处理,连接所述处理后的结构特征数据作为所述候选数据对中两个无标注数据的结构特征数据。

可选地,所述目标确定模块,具体用于基于多层感知机分别对每对所述候选数据对的关联关系进行处理,确定所述候选数据对中的两个无标注数据是否成对;当所述候选数据对中的两个无标注数据成对,确定所述候选数据对为目标数据对。

可选地,所述连通域确定单元,具体用于将所述无标注数据集中各无标注数据作为节点,基于至少一对所述目标数据对为对应的两个无标注数据建立边,基于所有节点和连接节点的边构建一个图;基于所述图中各所述节点之间的连接关系,获得至少一个连通域,每个连通域包括至少两个节点。

可选地,所述连通域确定单元基于所述图中各所述节点之间的连接关系,获得至少一个连通域时,用于将所述图中通过边连接的至少两个节点确定为一个连通域,获得至少一个连通域。

可选地,所述连通域确定单元,还用于当所述连通域中包括的节点数量大于预设阈值时,获得所述连通域中所有边对应的所述初始相似度;将小于设定值的所述初始相似度对应的边删除,将所述一个连通域分割为至少两个连通域。

可选地,还包括:

数据应用单元,用于基于所述分配标签后的无标注数据和已标注数据训练神经网络,所述神经网络与所述基础模型和所述委员会模型对应相同的数据处理任务,所述标注数据具有标注标签。

根据本申请实施例的另一个方面,提供的一种电子设备,包括处理器,所述处理器包括如上任意一项所述的基于模型共识的无标注数据应用装置。

根据本申请实施例的另一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;

以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成如上任意一项所述基于模型共识的无标注数据应用方法的操作。

根据本申请实施例的另一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行如上任意一项所述基于模型共识的无标注数据应用方法的操作。

根据本申请实施例的另一个方面,提供的一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现如上任意一项所述基于模型共识的无标注数据应用方法的指令。

基于本申请上述实施例提供的一种基于模型共识的无标注数据应用方法和装置、设备、介质,基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;基于至少一对目标数据对确定至少一个连通域;根据连通域为无标注数据集中的至少两个无标注数据分配标签,通过多模型解决了单模型下相似度计算的偏差,提升数据对选择的鲁棒性,实现了合理的利用无标注数据。

下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:

图1为本申请基于模型共识的无标注数据应用方法一个实施例的流程图。

图2为本申请基于模型共识的无标注数据应用方法获得目标数据对的一个具体示例的流程示意图。

图3为本申请一个可选示例中获得无标注数据对应的结构特征的示意图。

图4为本申请基于模型共识的无标注数据应用方法一个可选实施例的示意图。

图5为本申请基于模型共识的无标注数据应用装置一个实施例的结构示意图。

图6为适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

在以下各方面的实施例中,模型可以指实现任意一个或多个数据任务的神经网络,或其他可实现任意一个或多个数据任务的数学模型,不能理解为对本申请的限制。

图1为本申请基于模型共识的无标注数据应用方法一个实施例的流程图。如图1所示,该实施例方法包括:

步骤110,基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对。

可选地,基础模型与委员会(community)模型是实现相同数据任务(例如:分类任务、分割任务、识别任务等)的不同模型,模型结构可以相同或不同,不同的模型结构可以实现更好的处理效果。

其中,无标注数据集中包括至少两个无标注数据,本实施例通过多个模型结合从无标注数据集中获得目标数据对,将无标注数据集中的无标注数据之间建立关联关系,为无标注数据的利用提供了基础。

步骤120,基于至少一对目标数据对获得至少一个连通域。

每对目标数据对可确定两个无标注数据的连接关系,例如:无标注数据a和无标注数据b为一对目标数据对,无标注数据a和无标注数据c为另一对目标数据对。此时,根据以上两对目标数据对可获得一个包括无标注数据a,无标注数据b和无标注数据c的连通域。而由于无标注数据集中包括多个无标注数据,通过目标数据对即可获得多个连通域,例如:无标注数据a和无标注数据b为一对目标数据对,无标注数据c和无标注数据d为另一对目标数据对,此时可获得两个连通域,一个连通域包括无标注数据a和无标注数据b,另一个连通域包括无标注数据c和无标注数据d。

步骤130,根据连通域为无标注数据集中的至少两个无标注数据分配标签。

其中,每个连通域内的无标注数据对应一个标签。可选地,为同一连通域内的样本分配同样的标注标签(例如:类别标签),不同连通域之间分配不同的标注标签。

基于上述实施例提供的一种基于模型共识的无标注数据应用方法,基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;基于至少一对目标数据对确定至少一个连通域;根据连通域为无标注数据集中的至少两个无标注数据分配标签,通过多模型解决了单模型下相似度计算的偏差,提升数据对选择的鲁棒性,充分利用了无标注数据,使得重识别可以利用更多信息,进而提高了行人重识别的准确率。

在一个或多个可选的实施例中,在执行步骤110之前,还可以包括:基于已标注数据初始化基础模型和至少一个委员会模型,得到初始化后的基础模型和初始化后的委员会模型;其中,已标注数据可以是通过人工添加标注标签的数据或通过其他方式添加标注标签的数据,通过已标注数据对基础模型和委员会模型的初始化过程可以是训练,通过相同的已标注数据分别对基础模型和至少一个委员会模型进行训练,得到的训练后的基础模型和训练后的委员会模型针对当前数据任务可得到更好的效果。

进一步地,基于初始化后的基础模型和至少一个初始化后的委员会模型,从无标注数据集中获得至少一对目标数据对。

图2为本申请基于模型共识的无标注数据应用方法获得目标数据对的一个具体示例的流程示意图。如图2所示,在一个或多个可选的实施例中,步骤110可以包括:

步骤1101,基于基础模型从无标注数据集中获得至少一对候选数据对。

可选地,通过基础模型获得无标注数据集中的每两个无标注数据之间的初始相似度,通过初始相似度筛选获得候选数据对。

步骤1102,基于至少一个委员会模型,对无标注数据集进行处理,得到每对候选数据对中数据间的关联关系。

其中,关联关系包括以下至少一种:候选数据对是否对应相同的标签的判别信息、候选数据对中两个无标注数据之间的相关相似度、候选数据对中两个无标注数据的结构特征数据;为了确认候选数据对中的无标注数据之间是否可以共用一个标注标签,需要获得更多的信息对候选数据对进行判别,当关联关系包括以上的至少两个时,将至少两个信息连接后作为候选数据对对应的关联关系。

相关相似度由候选数据对经委员会模型提取的特征确定;结构特征数据包括直接与无标注数据连接的一阶数据,和/或,间接与无标注数据连接的多阶数据,一阶数据与无标注数据之间的相似度大于或等于预设值,多阶数据与一阶数据或其他多阶数据之间的相似度大于或等于预设值,例如:二阶数据与一阶数据之间的相似度大于或等于预设值,而三阶数据是与二阶数据之间的相似度大于或等于预设值,以此类推,通常为了实现较好的连通效果,结构特征数据限制在三阶数据内,但本申请实施例对此不作限定,具体选择的阶数根据实际情况而定。

步骤1103,基于关联关系从候选数据对中确定至少一对目标数据对。

可选地,基于多层感知机分别对每对候选数据对的关联关系进行处理,确定候选数据对中的两个无标注数据是否成对;

当候选数据对中的两个无标注数据成对时,确定候选数据对为目标数据对。

在本实施例中,将每对候选数据对的关联关系输入到一个多层感知机(multi-layerperceptron)中进行二分类,判断候选数据对是否成对。本实施例利用的多层感知机做样本对的分类,相比用组委会模型直接投票选择样本对的方式,性能更好。每对目标数据对包括两个无标注数据,目标数据对是通过判断候选数据对得到的,即,基于关联关系判断确定为正确连接关系的候选数据对即为目标数据对。

在本实施例中,无标注数据集在输入到基础模型的同时还输入到所有委员会模型中,通过委员会模型获得所有无标注数据对应的关联关系,此时结合基础模型输出的候选数据对从无标注数据集中每个无标注数据对应的关联关系进行筛选,即可获得每个候选数据对对应的关联关系。

可选地,步骤1101可以包括:

经基础模型对无标注数据集进行特征提取,获得无标注数据对应的数据特征。

基础模型可以是深度神经网络,初始相似度可以基于数据特征之间的距离(如:余弦距离、欧式距离等)获得,也可以基于其他方式获得,例如:基于数据特征构建最近邻图(k-nngraph),以最近邻图中的边确定无标注数据之间的初始相似度,本实施例对获得初始相似度的具体方式不做限定。

基于数据特征确定无标注数据集中各无标注数据之间的初始相似度;

在一些实施例中,基于初始相似度获得至少一对候选数据对。

可选地,每对候选数据对包括两个无标注数据,每对候选数据对中的两个无标注数据之间的初始相似度大于或等于预设值;无标注数据集中的每个无标注数据可以分别与不同的其他无标注数据构成多对候选数据对,例如:无标注数据a与无标注数据b和无标注数据c的初始相似度都大于设定值,此时获得两对候选数据对分别为:无标注数据a与无标注数据b,无标注数据a与无标注数据c,而如果无标注数据b和无标注数据c之间的初始相似度大于设定值,此时还包括候选数据对:无标注数据b与无标注数据c。

可选地,在一些实施例中,基于初始相似度获得至少一对候选数据对,包括:

基于第一数据与至少一个第二数据之间的初始相似度进行筛选,获得初始相似度大于预设值的至少一对候选数据对,每个候选数据对包括第一数据和一个第二数据;第一数据为无标注数据集中的一个无标注数据,第二数据为无标注数据集中除第一数据外的所有无标注数据。

由于无标注数据集中包括多个无标注数据,为了获得所有候选数据对,需要分别以每个无标注数据作为第一数据,获得包括该无标注数据的所有候选数据对,此时存在一种情况,当以每个第一数据获得所有候选数据对时,会有候选数据对中包含的同样的两个无标注数据,所以,本实施例中还可以包括对候选数据对进行去重的操作。

在一个或多个可选的实施例中,基于至少一个委员会模型,对无标注数据集进行处理,获得每对候选数据对对应的关联关系,包括:

分别基于每个委员会模型,对无标注数据集进行处理,每个委员会模型分别获得一组无标注数据集对应的关联关系;

基于无标注数据集对应的关联关系和至少一对候选数据对,获得每对候选数据对对应的关联关系。

为了更准确的判断候选数据对中的两个无标注数据是否成对,需要获得更多的关联关系,本实施例通过至少一个委员会模型分别对无标注数据集进行处理,通过不同结构的委员会模型可获得更多的信息,使多层感知机输出的分类结果更准确。

可选地,分别基于每个委员会模型,对无标注数据集进行处理,每个委员会模型分别获得一组无标注数据集对应的关联关系,包括:

分别基于每个委员会模型,获得无标注数据集中每两个无标注数据之间是否应具有相同标签的概率信息;

基于无标注数据集对应的关联关系和至少一对候选数据对,获得每对候选数据对对应的关联关系,包括:

基于候选数据对从概率信息中获得至少一个概率信息;

分别对至少一个概率信息进行处理,连接处理后的概率信息作为候选数据对是否对应相同的标签的判别信息。

在本实施例中,每个委员会模型对无标注数据集中的每两个无标注数据都将获得一个概率信息,候选数据对获得对应的多个概率信息后,对所有概率信息进行处理,连接处理后的概率信息作为该候选数据对是否对应相同的标签的判别信息;对所有概率信息进行的处理可以包括但不限于均值、方差等。

可选地,分别基于每个委员会模型,对无标注数据集进行处理,每个委员会模型分别获得一组无标注数据集对应的关联关系,包括:

分别基于每个委员会模型,获得无标注数据集中每两个无标注数据对应的特征,基于该特征确定无标注数据集中每两个无标注数据之间的模型相似度;

基于无标注数据集对应的关联关系和至少一对候选数据对,获得每对候选数据对对应的关联关系,包括:

基于候选数据对从无标注数据集中获得候选数据对对应的至少一个模型相似度;

分别对至少一个模型相似度进行处理,连接处理后的模型相似度作为候选数据对中两个无标注数据之间的相关相似度。

在本实施例中,每个委员会模型对无标注数据集中的每两个无标注数据都将获得一个模型相似度,候选数据对获得对应的多个模型相似度后,将所有模型相似度进行处理,连接处理后的模型相似度作为该候选数据对中两个无标注数据之间的相关相似度,对于所有模型相似度的处理可以包括但不限于均值、方差等;本实施例中候选数据对的关联关系可以包括模型相似度和判别信息,此时将候选数据对对应的模型相似度和判别信息进行连接,获得关联关系。

可选地,分别基于每个委员会模型,对无标注数据集进行处理,每个委员会模型分别获得一组无标注数据集对应的关联关系,包括:

分别基于每个委员会模型,获得无标注数据集中每个无标注数据对应的结构特征数据;

基于无标注数据集对应的关联关系和至少一对候选数据对,获得每对候选数据对对应的关联关系,包括:

基于候选数据对从结构特征数据中获得候选数据对对应的至少一个结构特征数据;

分别对至少一个结构特征数据进行处理,连接处理后的结构特征数据作为候选数据对在其对应的局部区域中的结构特征数据。

本实施例中,结构特征数据基于无标注数据与该无标注数据存在1-n阶连接关系的多个无标注数据之间的相似度连接获得,n为大于1的正整数。每个委员会模型对无标注数据集中的每两个无标注数据都将获得一个结构特征数据,候选数据对获得对应的多个结构特征数据后,将所有结构特征数据进行处理,连接处理后的结构特征数据作为该候选数据对在其对应的局部区域中的结构特征数据;对所有结构特征数据的处理可以包括但不限于均值、方差等;实施例中候选数据对的关联关系可以包括模型相似度、判别信息和结构特征数据,此时将候选数据对对应的模型相似度、判别信息和结构特征数据进行连接,获得关联关系。

图3为本申请一个可选示例中获得无标注数据对应的结构特征的示意图。如图3所示,在每一行中,这两个实心节点都作为候选数据对的两个无标注数据。第一行中的对被委员会模型分类为正,而第二行中的对被分类为否定的。本实施例中委员会模型基于一阶相似度和二阶相似度确定两个无标注数据之间的结构特征。图中仅显示了以两个节点(无标注数据)之一(具有双圆圈的节点)为中心的结构。

在一个可选示例中,本实施例数据标注方法,首先使用“基础模型”和“委员会模型”分别构建最近邻图(k-nngraph),然后从基础模型的最近邻图中提取出所有的样本对。利用委员会模型获得每对候选数据对的关联关系,包括:

该样本对是否应该有相同的标签、该样本对之间的相似度和该样本对所在局部区域的结构特征。

然后将这些信息组成的输入向量输入到一个多层感知机中进行二分类,判断样本对是否应该属于同一个标签。本申请实施例利用的多层感知机做样本对的分类,相比用组委会模型直接投票选择样本对的方式,性能更好。

在一个或多个可选的实施例中,步骤120可以包括:

将无标注数据集中各无标注数据作为节点,基于至少一对目标数据对为对应的两个无标注数据建立边,基于所有节点和连接节点的边构建一个图;

基于图中各节点之间的连接关系,获得至少一个连通域,每个连通域包括至少两个节点。

通过目标数据对确定了所有无标注数据之间的连接关系(边),基于连接关系将所有无标注数据进行连接,即可构成一个图,图中相互连接的多个节点构成一个连通域,可以将连通域中的所有节点设置为相同的标注标签,以实现对神经网络的训练。

本实施例利用图来描述无标注数据的内部结构,相比现有技术直接对样本进行聚类的方法在性能上有极大提升。将分类为正的目标数据对组建成一个新的图,可称作“模型共识驱动的图”,最后在这个图中传播标签。传播标签的时候,在图中寻找连通域,如果连通域包含的节点数量大于一个固定值,则去除连通域内权值较小的部分边,迭代直到连通域包含的节点数量小于等于这个固定值。最后给每个符合要求的连通域分配不同的标签。

图4为本申请基于模型共识的无标注数据应用方法一个可选实施例的示意图。如图4所示,将无标注数据集分别输入基础模型和多个委员会模型,每个模型分别基于无标注数据集建立最近邻图,基于基础模型的最近邻图获得多对候选数据对,基于多个委员会模型获得候选数据对对应的关联关系,分别将每对候选数据对的关联关系输入多层感知机(mlp)获得该候选数据对是否为真值的判断结果,将所有判断为真的候选数据对作为目标数据对,基于目标数据对构成至少一个连通域。

可选地,基于图中各节点之间的连接关系,获得至少一个连通域,包括:

将图中通过边连接的至少两个节点确定为一个连通域,获得至少一个连通域。

可选地,还可以包括:当连通域中包括的节点数量大于预设阈值时,获得连通域中所有边对应的初始相似度;

将大于设定值的初始相似度对应的边删除,将一个连通域分割为至少两个连通域。

当一个连通域中的节点数量过多,为了避免出现分类错误,可将一个连通域分割为至少两个连通域,分割可以通过断开初始相似度最小的边实现,例如:如图4所示,连通域中包括6个节点,此时,通过判断每两个节点之间的初始相似度,将一个连通域从初始相似度最小的边断开,分成两个连通域(一个连通域包括4个节点,另一个连通域包括2个节点)。

在一个或多个可选的实施例中,本实施例方法还可以包括:

基于分配标签后的无标注数据和已标注数据训练神经网络。

其中,神经网络与基础模型和委员会模型对应相同的数据处理任务,标注数据具有标注标签。

在实际应用中,本实施例的方法解决了由于无标注数据来源无限制,从而导致的数据噪声多、标签与有标注数据的标签不统一的问题。通过为无标注数据分配标签将无标注数据应用到网络的训练中,可以将无标注数据与已标注数据结合训练神经网络,提高了训练效果。对于半监督学习的设定,多层感知机在已标注的数据上进行训练。

本申请还存在当多层感知机输出的结果判断为真值和判断不为真值的比例相同或相近时,通过人工标注对无标注数据进行标注后加入网络训练,实现主动学习。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本申请基于模型共识的无标注数据应用装置一个实施例的结构示意图。该实施例的装置可用于实现本申请上述各方法实施例。如图5所示,该实施例的装置包括:

数据对获得单元51,用于基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对。

可选地,基础模型与委员会(community)模型是实现相同数据任务(例如:分类任务、分割任务、识别任务等)的不同模型,模型结构可以相同或不同,不同的模型结构可以实现更好的处理效果。

其中,无标注数据集中包括至少两个无标注数据,本实施例通过多个模型结合从无标注数据集中获得目标数据对,将无标注数据集中的无标注数据之间建立关联关系,为无标注数据的利用提供了基础。

连通域确定单元52,用于基于至少一对目标数据对确定至少一个连通域。

每对目标数据对可确定两个无标注数据的连接关系,例如:无标注数据a和无标注数据b为一对目标数据对,无标注数据a和无标注数据c为另一对目标数据对。此时,根据以上两对目标数据对可获得一个包括无标注数据a,无标注数据b和无标注数据c的连通域。而由于无标注数据集中包括多个无标注数据,通过目标数据对即可获得多个连通域,例如:无标注数据a和无标注数据b为一对目标数据对,无标注数据c和无标注数据d为另一对目标数据对,此时可获得两个连通域,一个连通域包括无标注数据a和无标注数据b,另一个连通域包括无标注数据c和无标注数据d。

标签分配单元53,用于根据连通域为无标注数据集中的至少两个无标注数据分配标签。

其中,每个连通域内的无标注数据对应一个标签。可选地,为同一连通域内的样本分配同样的标注标签(例如:类别标签),不同连通域之间分配不同的标注标签。

基于上述实施例提供的一种基于模型共识的无标注数据应用装置,通过多模型解决了单模型下相似度计算的偏差,提升数据对选择的鲁棒性,充分利用了无标注数据,使得重识别可以利用更多信息,进而提高了行人重识别的准确率。

在一个或多个可选的实施例中,还可以包括:

初始化单元,用于基于已标注数据初始化基础模型和至少一个委员会模型,得到初始化后的基础模型和初始化后的委员会模型;其中,已标注数据可以是通过人工添加标注标签的数据或通过其他方式添加标注标签的数据,通过已标注数据对基础模型和委员会模型的初始化过程可以是训练,通过相同的已标注数据分别对基础模型和至少一个委员会模型进行训练,得到的训练后的基础模型和训练后的委员会模型针对当前数据任务可得到更好的效果。

数据对获得单元51,用于基于初始化后的基础模型和至少一个初始化后的委员会模型,从无标注数据集中获得至少一对目标数据对。

在一个或多个可选的实施例中,数据对获得单元51,包括:

候选获得模块,用于基于基础模型从无标注数据集中获得至少一对候选数据对;

关系获得模块,用于基于至少一个委员会模型,对无标注数据集进行处理,得到每对候选数据对中数据间的关联关系;其中,关联关系包括以下至少一种:候选数据对是否对应相同的标签的判别信息、候选数据对中两个无标注数据之间的相关相似度、候选数据对中两个无标注数据的结构特征数据;

目标确定模块,用于基于关联关系从候选数据对中确定至少一对目标数据对。

可选地,候选获得模块,具体用于经基础模型对无标注数据集进行特征提取,获得无标注数据对应的数据特征;基于数据特征确定无标注数据集中各无标注数据之间的初始相似度;基于初始相似度获得至少一对候选数据对,每对候选数据对中的两个无标注数据之间的初始相似度大于或等于预设值。

可选地,候选获得模块基于初始相似度获得至少一对候选数据对时,用于基于第一数据与至少一个第二数据之间的初始相似度进行筛选,获得初始相似度大于预设值的至少一个候选数据对,每个候选数据对包括第一数据和一个第二数据;第一数据为无标注数据集中的一个无标注数据,第二数据为无标注数据集中除第一数据外的所有无标注数据。

可选地,关系获得模块,包括:

委员会模块,用于分别基于每个委员会模型,对无标注数据集进行处理,每个委员会模型获得一组无标注数据集对应的关联关系;

关联关系模块,用于基于无标注数据集的关联关系和至少一对候选数据对,获得每对候选数据对对应的关联关系。

可选地,委员会模块,具体用于分别基于每个委员会模型,获得无标注数据集中每两个无标注数据之间具有相同标签的概率信息;

关联关系模块,具体用于基于候选数据对从概率信息中获得至少一个概率信息;分别对至少一个概率信息进行处理,连接处理后的概率信息作为候选数据对是否对应相同的标签的判别信息。

可选地,委员会模块,具体用于分别基于每个委员会模型,获得无标注数据集中每个无标注数据对应的特征,基于特征确定无标注数据集中每两个无标注数据之间的模型相似度;

关联关系模块,具体用于基于候选数据对从模型相似度中获得候选数据对对应的至少一个模型相似度;分别对至少一个模型相似度进行处理,连接处理后的模型相似度作为候选数据对中两个无标注数据之间的相关相似度。

可选地,委员会模块,具体用于分别基于每个委员会模型,获得无标注数据集中每个无标注数据对应的结构特征数据;

关联关系模块,具体用于基于候选数据对从结构特征数据中获得候选数据对对应的至少一个结构特征数据;分别对至少一个结构特征数据进行处理,连接处理后的结构特征数据作为候选数据对中两个无标注数据的结构特征数据。

可选地,目标确定模块,具体用于基于多层感知机分别对每对候选数据对的关联关系进行处理,确定候选数据对中的两个无标注数据是否成对;当候选数据对中的两个无标注数据成对,确定候选数据对为目标数据对。

在一个或多个可选的实施例中,连通域确定单元52,具体用于将无标注数据集中各无标注数据作为节点,基于至少一对目标数据对为对应的两个无标注数据建立边,基于所有节点和连接节点的边构建一个图;基于图中各节点之间的连接关系,获得至少一个连通域,每个连通域包括至少两个节点。

通过目标数据对确定了所有无标注数据之间的连接关系(边),基于连接关系将所有无标注数据进行连接,即可构成一个图,图中相互连接的多个节点构成一个连通域,可以将连通域中的所有节点设置为相同的标注标签,以实现对神经网络的训练。

本实施例利用图来描述无标注数据的内部结构,相比现有技术直接对样本进行聚类的方法在性能上有极大提升。将分类为正的目标数据对组建成一个新的图,可称作“模型共识驱动的图”,最后在这个图中传播标签。传播标签的时候,在图中寻找连通域,如果连通域包含的节点数量大于一个固定值,则去除连通域内权值较小的部分边,迭代直到连通域包含的节点数量小于等于这个固定值。最后给每个符合要求的连通域分配不同的标签。

可选地,连通域确定单元基于图中各节点之间的连接关系,获得至少一个连通域时,用于将图中通过边连接的至少两个节点确定为一个连通域,获得至少一个连通域。

可选地,连通域确定单元,还用于当连通域中包括的节点数量大于预设阈值时,获得连通域中所有边对应的初始相似度;将小于设定值的初始相似度对应的边删除,将一个连通域分割为至少两个连通域。

在一个或多个可选的实施例中,本实施例装置还可以包括:

数据应用单元,用于基于分配标签后的无标注数据和已标注数据训练神经网络。

其中,神经网络与基础模型和委员会模型对应相同的数据处理任务,标注数据具有标注标签。在实际应用中,本实施例的方法解决了由于无标注数据来源无限制,从而导致的数据噪声多、标签与有标注数据的标签不统一的问题。通过为无标注数据分配标签将无标注数据应用到网络的训练中,可以将无标注数据与已标注数据结合训练神经网络,提高了训练效果。对于半监督学习的设定,多层感知机在已标注的数据上进行训练。

本申请实施例提供的基于模型共识的无标注数据应用装置任一实施例的工作过程以及设置方式均可以参照本申请上述相应方法实施例的具体描述,限于篇幅,在此不再赘述。

根据本申请实施例的另一个方面,提供的一种电子设备,包括处理器,该处理器包括如上任意一项所述的基于模型共识的无标注数据应用装置。

根据本申请实施例的另一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;

以及处理器,用于与上述存储器通信以执行可执行指令从而完成如上任意一项所述基于模型共识的无标注数据应用方法的操作。

本申请实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(pc)、平板电脑、服务器等。下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图:如图6所示,电子设备600包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(cpu)601,和/或一个或多个图像处理器(gpu)613等,处理器可以根据存储在只读存储器(rom)602中的可执行指令或者从存储部分608加载到随机访问存储器(ram)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡,所述网卡可包括但不限于ib(infiniband)网卡,

处理器可与只读存储器602和/或随机访问存储器603中通信以执行可执行指令,通过总线604与通信部612相连、并经通信部612与其他目标设备通信,从而完成本申请实施例提供的任一项方法对应的操作,例如,基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;基于至少一对目标数据对确定至少一个连通域;根据连通域为无标注数据集中的至少两个无标注数据分配标签。

此外,在ram603中,还可存储有装置操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。在有ram603的情况下,rom602为可选模块。ram603存储可执行指令,或在运行时向rom602中写入可执行指令,可执行指令使中央处理单元(cpu)601执行上述通信方法对应的操作。输入/输出(i/o)接口605也连接至总线604。通信部612可以集成设置,也可以设置为具有多个子模块(例如多个ib网卡),并在总线链接上。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的,如图6所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如gpu613和cpu601可分离设置或者可将gpu613集成在cpu601上,通信部可分离设置,也可集成设置在cpu601或gpu613上,等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令,例如,基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;基于至少一对目标数据对确定至少一个连通域;根据连通域为无标注数据集中的至少两个无标注数据分配标签。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本申请的方法中限定的上述功能。

根据本申请实施例的另一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,该指令被执行时执行如上任意一项所述基于模型共识的无标注数据应用方法的操作。

根据本申请实施例的另一个方面,提供的一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,上述设备中的处理器执行用于实现如上任意一项所述基于模型共识的无标注数据应用方法的指令。

可能以许多方式来实现本申请的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1