用于自监督多视图表征学习的局部流形增强的方法及装置

文档序号:31794257发布日期:2022-10-14 16:52阅读:32来源:国知局
用于自监督多视图表征学习的局部流形增强的方法及装置

1.本发明涉及图像处理技术领域,特别涉及一种用于自监督多视图表征学习的局部流形增强的方法及装置。


背景技术:

2.随着利用大量数据进行视觉表示学习的发展,人们开始对自监督学习的兴趣激增,作为一种普遍的自监督学习的范式,多视图自监督学习通过缩短正样本对,同时排斥负样本对或仅最大化正样本对的多视图表示来建模样本间的语义关系。因此,表示学习其中一个关键点是构造多视图数据。
3.相关技术中,为了使得多视图的变化更多样,通常使用手工设计的数据增强技术,它通常使用特定的图像处理操作符对给定的图像进行变换,以引入几何和外观变化。构建数据增强的主要方法是组合各种手工制作的数据增强。
4.然而,由于手工制作的数据增强所带来的变化是有限的,训练过程中难以充分获取丰富多变的视图,导致自监督模型的分类准确率并没有达到最优效果,这种缺陷限制了自监督学习方法的表现。


技术实现要素:

5.本发明提供一种用于自监督多视图表征学习的局部流形增强的方法及装置,以解决表示学习难以充分获取丰富多变的视图,过于依赖手工设计进行数据增广的问题,能够有效地提升预训练模型的性能以及在下游任务中的迁移学习能力。
6.本发明第一方面实施例提供一种用于自监督多视图表征学习的局部流形增强的方法,包括以下步骤:基于预设的局部流形增强应用概率,提取目标图像的每个图像样本的图像数据;基于预设的局部流形增强方法,利用预设的局部流形数据增强模型对所述图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据;以及将所述多视图数据输入至预先构建的自监督多视图表征学习模型,以将所述目标图像投影至表征空间,其中,所述自监督多视图表征学习模型是利用正样本和/或负样本对的表征计算损失函数,并迭代优化初始模型构建得到。
7.在一些实施例中,在利用所述预设的局部流形数据增强模型对所述图像数据进行局部流形数据增强之前,包括:选取一个预训练的网络模型作为特征提取器,通过将所述图像数据在所述预训练的网络模型中前向传播,计算所述每个图像样本的特征,并计算所述每个图像样本特征在特征空间中两两之间的距离;基于所述每个图像样本特征在所述预设特征空间中两两之间的距离,使用预设的knn(k-nearestneighbor,领近算法)算法对所述每个图像样本选取出k个邻近图像样本,得到近邻样本集;
利用生成器,以所述每个图像样本为第一预设条件,生成满足所述第一预设条件的真近邻样本;利用判别器,判别输入样本是否为满足所述第一预设条件的真近邻样本;采样训练样本,并在所述近邻样本集上进行均匀采样,并对损失函数进行优化,交替训练所述条件生成器与所述条件判别器,直至收敛;基于所述特征提取器与训练后的条件生成器,构建局部流形数据增强算子。
8.可选地,所述基于预设的局部流形增强方法,利用预设的局部流形数据增强模型对所述图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据,包括:以均值为0、标准差为1的正态分布中采样得到的高维噪声和样本特征为输入对象,利用所述预设的局部流形数据增强模型对所述图像数据进行局部流形增强,并应用所述预设的手工数据增强方法,得到所述多视图数据。可选地,所述预设的局部流形增强应用概率为,其中,处于预设区间。
9.本发明第二方面实施例提供一种用于自监督多视图表征学习的局部流形增强的装置,包括:特征提取模块,基于预设的局部流形增强应用概率,提取目标图像的每个图像样本的图像数据;生成模块,基于预设的局部流形增强方法,利用预设的局部流形数据增强模型对所述图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据;表征模块,将所述多视图数据输入至预先构建的自监督多视图表征学习模型,以将所述目标图像投影至表征空间,其中,所述自监督多视图表征学习模型是利用正样本和/或负样本对的表征计算损失函数,并迭代优化初始模型构建得到。
10.可选地,在利用所述预设的局部流形数据增强模型对所述图像数据进行局部流形数据增强之前,所述生成模块,包括:选取一个预训练的网络模型作为特征提取器,通过将所述图像数据在所述预训练的网络模型中前向传播,计算所述每个图像样本的特征,并计算所述每个图像样本特征在特征空间中两两之间的距离;基于所述每个图像样本特征在所述预设特征空间中两两之间的距离,使用预设的knn算法对所述每个图像样本选取出k个邻近图像样本,得到近邻样本集;利用条件生成器,以所述每个图像样本为第一预设条件,生成满足所述第一预设条件的真近邻样本;利用条件判别器,判别输入样本是否为满足所述第一预设条件的真近邻样本;采样训练样本,并在所述近邻样本集上进行均匀采样,并对损失函数进行优化,交替训练所述条件生成器与所述条件判别器,直至收敛;基于所述特征提取器与训练后的条件生成器,构建所述局部流形数据增强算子。
11.可选地,所述生成模块,还用于:以均值为0、标准差为1的正态分布中采样得到的高维噪声和样本特征为输入对象,利用所述预设的局部流形数据增强模型对所述图像数据进行局部流形增强,并应用所述预设的手工数据增强方法,得到所述多视图数据。
12.可选地,所述局部流形增强概率为,其中,处于预设区间。
13.本发明第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的用于自监督多视图表征学习的局部流形增强的方法。
14.本发明第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的用于自监督多视图表征学习的局部流形增强的方法。
15.由此,基于局部流形增强概率,对目标图像进行局部流形增强,并应用手工数据增强方法,提取每个样本的多视图数据,并将多视图数据输入至自监督多视图表征学习模型,将图像投影到特征空间,其中,自监督学习模型利用所产生的多视图数据选取正样本和/或负样本对,计算损失函数,迭代优化初始模型。由此,解决了表示学习难以充分获取丰富多变的视图的问题,能够有效地提升模型提取表征的性能以及其在下游任务中的迁移学习能力。
16.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
17.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本发明实施例提供的用于自监督多视图表征学习的局部流形增强的方法的流程示意图;图2为根据本发明一个实施例提供的局部流形增强的方法与传统手工数据增强结合的示意图;图3为根据本发明实施例提供的用于自监督多视图表征学习的局部流形增强的装置的方框示意图;图4为根据本发明实施例提供的电子设备的示意图。
具体实施方式
18.下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
19.下面参考附图描述本发明实施例的用于自监督多视图表征学习的局部流形增强的方法及装置。针对上述背景技术中心提到的表示学习难以充分获取丰富多变的视图的问题,本发明提供了一种用于自监督多视图表征学习的局部流形增强的方法,在该方法中,通过基于局部流形增强概率,对目标图像进行局部流形增强,并应用手工数据增强方法,提取每个样本的多视图数据,并将多视图数据输入至自监督多视图表征学习模型,将图像投影到特征空间,其中,自监督学习模型利用所产生的多视图数据选取正样本和/或负样本对,计算损失函数,迭代优化初始模型。由此,解决了表示学习难以充分获取丰富多变的视图的问题,能够有效地提升模型提取表征的性能以及其在下游任务中的迁移学习能力。
20.具体而言,图1为本发明实施例所提供的一种用于自监督多视图表征学习的局部流形增强的方法的流程示意图。
21.如图1所示,该用于自监督多视图表征学习的局部流形增强的方法包括以下步骤:在步骤s101中,基于预设的局部流形增强应用概率,提取目标图像的每个图像样本的图像数据。
22.其中,目标图像为需要进行数据增强的图像。
23.可选地,在一些实施例中,应用局部流形增强概率为,其中,处于预设区间,优选地,。
24.值得注意的是,本发明实施例中应用的局部流形数据增强技术是一种新形式的数据增强,将目标图像经特征提取器提取的表征作为条件,利用一个预训练的条件生成网络实现增强。在实际实施过程中,使用局部流形增强的概率,一般在实验中设置为,即仅以一定的可能性应用局部流形增强。
25.可选地,基于预设的局部流形增强方法,利用预设的局部流形数据增强模型对图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据,包括:以均值为0、标准差为1的正态分布中采样得到的高维噪声和样本特征为输入对象,利用预设的局部流形数据增强模型对图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据。具体地,在自监督学习中,在数据输入训练网络之前,根据应用局部流形增强概率去提取条件特征作为生成分支的条件,输入均值为0,标准差为1的正态分布中采样的高维随机变量和样本的特征作为生成分支的随机变量,最后生成rgb(red green blue,红绿蓝)图像。
26.本领域技术人员可以理解到的是,由于通常采用的数据增强是手工制作的,仅限于简单的转换,因此无法覆盖数据复杂的变化。在这种情况下,多视图正样本对通常会降低学习表示的一致性,本发明实施例用于自监督多视图表征学习的局部流形增强的方法,首先预训练条件生成模型,对数据的局部流形分布建模,然后从所建模的局部流形分布中采样得到多视图数据,能够创建无限数量的数据视图和复杂的几何形状和外观变化。并且,本发明实施例可以较为广泛地应用到许多利用数据增强方法的自监督多视图表征学习方案中,能够有效地提升表征模型的性能以及其在下游任务中的迁移学习能力。
27.在步骤s102中,基于预设的局部流形增强方法,利用预设的局部流形数据增强模型对图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据。
28.在步骤s103中,将多视图数据输入至预先构建的自监督多视图表征学习模型,以将目标图像投影至表征空间,其中,自监督多视图表征学习模型是利用正样本和/或负样本对的表征计算损失函数,并迭代优化初始模型构建得到。
29.可选地,在一些实施例中,在利用预设的局部流形数据增强模型对图像数据进行局部流形数据增强之前,包括:选取一个预训练的网络模型作为特征提取器,通过将图像数据在预训练的网络模型中前向传播,计算每个图像样本的特征,并计算每个图像样本特征在特征空间中两两之间的距离;基于每个图像样本特征在预设特征空间中两两之间的距离,使用预设的knn算法对每个图像样本选取出k个邻近图像样本,得到近邻样本集;利用条件生成器,以每个图像样本为第一预设条件,生成满足第一预设条件的真近邻样本;利用条件判别器,判别输入样本是否为满足第一预设条件的真近邻样本;采样训练样本,并在近邻
样本集上进行均匀采样,并对损失函数进行优化,交替训练条件生成器与条件判别器,直至收敛;基于特征提取器与训练后的条件生成器,构建局部流形数据增强算子。
30.具体地,本发明实施例可以按照以下步骤进行局部流形数据增强。
31.(1)选取一个预训练的网络模型作为特征提取器,(2)利用(1)特征提取器,将图像通过特征提取器的前向传播计算出每个样本的特征,并计算训练样本特征两两之间的距离。
32.(3)由(2)给出的每个样本特征的之间的距离,使用knn算法选取出每个样本各自k个邻近特征点,将k个邻近特征点对应的样本近邻样本集。
33.(4)训练条件生成对抗网络,条件为样本,在近邻样本集上均匀采样,并设判别器对近邻集内的样本为真,对损失函数进行优化,直至收敛。
34.(5)使用(4)训练出来的条件生成网络作为一种数据增强算子应用到自监督学习中。
35.(6)利用sgd(stochastic gradient descent,随机梯度下降法)优化算法迭代训练整个自监督学习模型,对损失函数进行优化,直至收敛。
36.可以理解的是,进行局部流形增强图像之后,进行应用数据增强,可以在自监督学习模型部分不作任何形式的改变,所提出的数据增强算子与所选择的自监督模型无关,能在任何自监督模型上,具有较强的适用性,为使得本领域技术人员进一步了解本发明实施例的用于自监督多视图表征学习的局部流形增强的方法,下面结合具体实施例进行详细阐述。
37.如图2所示,图2为本发明实施例的局部流形增强方法与传统手工增强方法结合的流程图。
38.本发明实施例的基本结构是以输入样本为条件生成新样本的实例条件生成网络结构,在自监督学习中,在数据输入训练网络之前,根据应用局部流形增强概率去提取条件特征作为生成分支的条件,输入均值为0,标准差为1的正态分布中采样的高维噪声和样本的特征作为生成模块的输入,最后生成rgb图像,其后进行传统的数据增强,作为输入样本的多视图数据。
39.根据本发明实施例提出的用于自监督多视图表征学习的局部流形增强的方法,通过基于局部流形增强概率,对目标图像进行局部流形增强,并应用手工数据增强方法,提取每个样本的多视图数据,并将多视图数据输入至自监督多视图表征学习模型,将图像投影到特征空间,其中,自监督学习模型利用所产生的多视图数据选取正样本和/或负样本对,计算损失函数,迭代优化初始模型。由此,解决了表示学习难以充分获取丰富多变的视图的问题,能够有效地提升模型提取表征的性能以及其在下游任务中的迁移学习能力。
40.其次参照附图描述根据本发明实施例提出的用于自监督多视图表征学习的局部流形增强的装置。
41.图3是本发明实施例的用于自监督多视图表征学习的局部流形增强的装置的方框示意图。
42.如图3所示,该用于自监督多视图表征学习的局部流形增强的装置包括:特征提取模块100、生成模块200和表征模块300。
43.其中,特征提取模块100,基于预设的局部流形增强应用概率,提取目标图像的每个图像样本的图像数据;生成模块200,基于预设的局部流形增强方法,利用预设的局部流形数据增强模型对图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据;表征模块300,将多视图数据输入至预先构建的自监督多视图表征学习模型,以将目标图像投影至表征空间,其中,自监督多视图表征学习模型是利用正样本和/或负样本对的表征计算损失函数,并迭代优化初始模型构建得到。
44.其中,特征提取模块100用于提取目标样本的特征,作为条件生成器的条件输入;生成模块200用于生成条件输入的近邻样本,实现对目标样本的局部流形数据增强;表征模块300,由特征提取模块100与生成模块200构成,用于基于预设的局部流形增强策略,对每个样本进行增强,得到局部流形数据增强的多视图数据。
45.可选地,在一些实施例中,在对数据进行局部流形数据增强之前,训练并构建局部流形数据增强模型,生成模块200还用于:选取一个预训练的网络模型作为特征提取器,通过将图像在模型中前向传播,计算每个图像样本的特征,并计算样本在特征空间中两两之间的距离;基于每个样本特征之间的距离,使用预设的knn算法对每个样本选取出k个邻近,得到近邻样本集;利用条件生成器,以每个样本为条件,生成其近邻样本;利用条件判别器,以每个样本为条件,判别输入样本是否为条件样本的真近邻样本;采样训练样本,并在近邻集上进行均匀采样,并对损失函数进行优化,交替训练条件生成器与条件判别器,直至收敛;基于特征提取器与训练后的条件生成器,构建局部流形数据增强算子。
46.可选地,在一些实施例中,生成模块200,还用于:以均值为0、标准差为1的正态分布中采样得到的高维噪声和样本特征为输入对象,利用预设的局部流形数据增强模型对图像数据进行局部流形增强,并应用预设的手工数据增强方法,得到多视图数据。
47.可选地,在一些实施例中,局部流形增强概率为,其中,处于预设区间,即仅以一定的可能性应用局部流形增强。
48.需要说明的是,前述对用于自监督多视图表征学习的局部流形增强的方法实施例的解释说明也适用于该实施例的用于自监督多视图表征学习的局部流形增强的装置,此处不再赘述。
49.根据本发明实施例提出的用于自监督多视图表征学习的局部流形增强的装置,通过基于局部流形增强概率,对目标图像进行局部流形增强,并应用手工数据增强方法,提取每个样本的多视图数据,并将多视图数据输入至自监督多视图表征学习模型,将图像投影到特征空间,其中,自监督学习模型利用所产生的多视图数据选取正样本和/或负样本对,计算损失函数,迭代优化初始模型。由此,解决了表示学习难以充分获取丰富多变的视图的问题,能够有效地提升模型提取表征的性能以及其在下游任务中的迁移学习能力。
50.图4为本发明实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
51.处理器402执行程序时实现上述实施例中提供的用于自监督多视图表征学习的局部流形增强的方法。
52.进一步地,电子设备还包括:通信接口403,用于存储器401和处理器402之间的通信。
53.存储器401,用于存放可在处理器402上运行的计算机程序。
54.存储器401可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
55.如果存储器401、处理器402和通信接口403独立实现,则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
56.可选的,在具体实现上,如果存储器401、处理器402及通信接口403,集成在一块芯片上实现,则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
57.处理器402可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本发明实施例的一个或多个集成电路。
58.本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的用于自监督多视图表征学习的局部流形增强的方法。
59.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
60.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“n个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
61.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
62.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用
于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或n个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
63.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
64.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
65.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
66.上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1