一种基于多目标动态分布自适应学习方法及装置与流程

文档序号:21203399发布日期:2020-06-23 19:35阅读:325来源:国知局
一种基于多目标动态分布自适应学习方法及装置与流程

本发明涉及迁移学习领域,具体涉及一种基于多目标动态分布自适应学习方法及装置。



背景技术:

在图像识别应用领域里面,由于人工打标签的成本较高,因而带标签的数据总是很少。但是网络上有海量同类别的未带标签数据,如何利用这些大量未带标签数据提高图形分类器的准确度是一个挑战。

现有技术中采用了数据迁移的方法,例如有邻域自适应的数据迁移方法,但是现有的方法中数据迁移学习过程中存在数据分布不均衡的问题。



技术实现要素:

本发明提出一种基于多目标动态分布自适应的图像分类方法及装置,用于解决或者至少部分解决现有方法存在数据分布不均衡的技术问题。

为了解决上述技术问题,本发明第一方面提供了一种基于多目标动态分布自适应学习方法,包括:

s1:获取第一图像数据和第二图像数据,其中,第一图像数据带有标签,第二图像数据不带标签;

s2:采用多目标优化算法获得目标映射空间,包括:初始化种群,将映射空间的情况编码进种群中,利用多目标优化算法搜索最优的种群,其中,最优的种群为满足两个目标的帕累托解集,两个目标为条件分布概率和边缘分布概率;再从帕累托解集中筛选出最优的解,根据最优的解获得目标映射空间;

s3:将第一图像数据映射到目标映射空间,获得第三图像数据;

s4:基于第三图像数据训练出一个图像分类器;

s5:利用训练出的图像分类器对第二图像数据的标签进行预测,对第二图像数据贴标。

在一种实施方式中,s2中初始化种群,将映射空间的情况编码进种群中,包括:

s2.1.1:针对多个种群随机设定对应的映射空间情况;

s2.1.2:将映射空间的参数作为决策变量,根据适应度计算公式,计算出对应的条件分布概率和边缘分布概率,并将条件分布概率和边缘分布概率作为目标函数,其中,映射空间情况由映射空间的参数确定;

s2.1.3:将决策变量和目标函数同时封装进种群个体中,多个个体组成初始种群。

在一种实施方式中,s2中利用多目标优化算法搜索最优的种群,其中,最优的种群为满足两个目标的帕累托解集,包括:

s2.2.1:在当前代中,利用遗传算法的交叉算子和变异算子对当前种群做进化处理,得到子代种群;

s2.2.2:在当前代中,利用反向学习算法,对子代种群进行反向变化,将反向前后的种群合并后,进行非支配排序,得到更优的反向子种群;

s2.2.3:在当前代中,利用烟花算法,计算反向子种群的爆炸半径和火花个数,并基于爆炸半径和火花个数,将反向子种群作为烟花种群来在周边范围内产生火花种群,烟花种群和火花种群进行非支配排序生成下一代种群;

s2.2.4:将下一代种群作为当前代种群,重复执行s2.2.1~s2.2.3,进行迭代进化过程;

s2.2.5:当迭代进化过程满足终止条件时,迭代进化终止,输出帕累托解集。

在一种实施方式中,s2中从帕累托解集中筛选出最优的解,根据最优的解获得目标映射空间,包括:

s2.3.1:在解空间中,连接理论最优点和全局最优点构成参考矢量线,将帕累托解集中各个点到参考矢量线的垂直距离作为解集中该点的距离值;

s2.3.2:根据计算出的距离值,选择出距离值最小的点作为最优的解;

s2.3.3:根据最优的解设置映射空间的参数,得到目标映射空间。

在一种实施方式中,在s5之后,所述方法还包括:

计算预测的准确度;

根据计算出的准确度对多目标优化算法中的种群个体进行更新。

基于同样的发明构思,本发明第二方面提供了一种基于多目标动态分布自适应学习装置,包括:

数据获取模块,用于获取第一图像数据和第二图像数据,其中,第一图像数据带有标签,第二图像数据不带标签;

目标映射空间搜索模块,用于采用多目标优化算法搜索获得目标映射空间,包括:初始化种群,将映射空间的情况编码进种群中,利用多目标优化算法搜索最优的种群,其中,最优的种群为满足两个目标的帕累托解集,两个目标为条件分布概率和边缘分布概率;再从帕累托解集中筛选出最优的解,根据最优的解获得目标映射空间;

映射模块,用于将第一图像数据映射到目标映射空间,获得第三图像数据;

分类器训练模块,用于基于第三图像数据训练出一个图像分类器;

标签预测模块,用于利用训练出的图像分类器对第二图像数据的标签进行预测,对第二图像数据贴标。

基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。

基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本发明提供的一种基于多目标动态分布自适应学习方法,首先获取带有标签的第一图像数据和不带标签的第二图像数据;然后采用多目标优化算法搜索获得目标映射空间,接着将第一图像数据映射到目标映射空间,获得第三图像数据;接下来基于第三图像数据训练出一个图像分类器;最后利用训练出的图像分类器对第二图像数据的标签进行预测,对第二图像数据贴标。

现有技术中,在现有的映射空间中,带标签和未带标签数据表现出独立不同分布的特性,在数据迁移学习过程中存在分布不均衡的问题,本发明通过以条件分布概率和边缘分布概率为目标,映射空间的参数为决策变量,采用多目标优化算法搜索获得目标映射空间,并将带标签的第一图像数据映射到目标映射空间,获得新的带标签的图像数据(第三图像数据);此时,第三图像数据与第一图像数据的标签相同,只是与第一图像数据的映射空间不同,接下来基于第三图像数据训练出一个图像分类器;最后利用训练出的图像分类器对第二图像数据的标签进行预测,对第二图像数据贴标,从而可以将带有标签的第一图像数据和不带标签的第二图像数据映射到新映射空间(目标映射空间),从而使得使分布相同或者类似,解决数据迁移学习过程中数据分布不均衡的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于多目标动态分布自适应学习方法的实现流程示意图;

图2为本发明实施例中采用的多目标优化算法的实现流程示意图;

图3为本发明实施例中一种基于多目标动态分布自适应学习装置的结构框图;

图4为本发明实施例中一种计算机可读存储介质的结构框图;

图5为本发明实施例中计算机设备的结构图。

具体实施方式

本申请发明人通过大量的研究与实践发现:现有方法在数据迁移的过程中,遇到了如下问题:数据迁移的过程需要同时考虑边缘分布目标和条件分布目标。

为此,本发明提出一种多目标动态分布自适应的学习方法及装置,去解决机器学习中的带标签数据过少、数据迁移过程中分布不均衡问题。通过将无标签的数据映射到隐藏空间,在隐藏空间结合有标签数据和无标签数据的特点,给无标签数据预测出准确的标签来实现数据迁移。

本申请与基于聚类分类联合机制的分类器的构建方法的区别是,基于聚类分类联合机制的分类器的构建方法是构建一个贝叶斯分类器,其中的分类核心部分是搜素最优的关系矩阵,其中采用了多目标算法搜索,而本申请则是针对数据迁移学习,核心部分是将映射空间进行变化,多目标搜索算反搜索的是最优的映射空间。即一个是通过多目标算法搜索最优的关系矩阵,构建贝叶斯分类器,而本申请则是通过多目标算法搜索最优的映射空间,从而使得带标签数据与不带标签数据分布相同,解决数据迁移学习过程中的分布不均衡的问题。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本实施例提供了一种基于多目标动态分布自适应学习方法,请参见图1,该方法包括:

s1:获取第一图像数据和第二图像数据,其中,第一图像数据带有标签,第二图像数据不带标签。

具体来说,第一图像数据和第二图像为现有映射空间的数据,第一图像数据和第二图像数据为uci图像数据,第一图像数据作为源样本,第二图像数据作为目标样本。

s2:采用多目标优化算法搜索获得目标映射空间,包括:初始化种群,将映射空间的情况编码进种群中,利用多目标优化算法搜索最优的种群,其中,最优的种群为满足两个目标的帕累托解集,两个目标为条件分布概率和边缘分布概率;再从帕累托解集中筛选出最优的解,根据最优的解获得目标映射空间。

具体来说,映射空间:等同于数据空间或者隐藏空间,在这些空间里面,样本映射之后,样本的分布发生了变化。

对uci图像数据进行特征提取,提取出的特征用二维(或多维)的数组进行表示,即表示样本的分布。映射空间,可以看成换一个坐标系,这些数组的数值就会发生变化产生新值。

帕累托解集是指在两个目标上表现出非支配的解决方案,等同于非支配的映射空间。

s3:将第一图像数据映射到目标映射空间,获得第三图像数据。

具体来说,将第一图像数据映射到目标映射空间,第一图像数据的标签没有发生改变,第一图像数据与第三图像数据包含的原始数据相同,它们是经过不同的映射形成的,二者之间可以通过一次映射进行转换。

s4:基于第三图像数据训练出一个图像分类器。

具体来说,利用目标映射空间得到的第三图像数据作为训练数据,训练出一个图像分类器。

s5:利用训练出的图像分类器对第二图像数据的标签进行预测,对第二图像数据贴标。

具体来说,本步骤主要是利用训练出的图像分类器对不带标签的图像数据进行标签预测,从而对第二图像数据进行贴标,并使得第一图像数据和第二图像数据映射到目标映射空间中使分布相同或者类似,从而实现迁移学习,并解决分布不均衡的问题。

在一种实施方式中,s2中初始化种群,将映射空间的情况编码进种群中,包括:

s2.1.1:针对多个种群随机设定对应的映射空间情况;

s2.1.2:将映射空间的参数作为决策变量,根据适应度计算公式,计算出对应的条件分布概率和边缘分布概率,并将条件分布概率和边缘分布概率作为目标函数,其中,映射空间情况由映射空间的参数确定;

s2.1.3:将决策变量和目标函数同时封装进种群个体中,多个个体组成初始种群。

具体来说,映射空间(隐藏空间)是由映射空间的部分参数确定的,将样本映射到隐藏空间里面,会得到新的分布情况,根据新的分布情况来计算边缘和条件分布概率。通过不同映射空间的映射,可以看做是经过一系列的复杂运算得到数据的特征,比通常的特征提取方式更为复杂。

在一种实施方式中,s2中利用多目标优化算法搜索最优的种群,其中,最优的种群为满足两个目标的帕累托解集,包括:

s2.2.1:在当前代中,利用遗传算法的交叉算子和变异算子对当前种群做进化处理,得到子代种群;

s2.2.2:在当前代中,利用反向学习算法,对子代种群进行反向变化,将反向前后的种群合并后,进行非支配排序,得到更优的反向子种群;

s2.2.3:在当前代中,利用烟花算法,计算反向子种群的爆炸半径和火花个数,并基于爆炸半径和火花个数,将反向子种群作为烟花种群来在周边范围内产生火花种群,烟花种群和火花种群进行非支配排序生成下一代种群;

s2.2.4:将下一代种群作为当前代种群,重复执行s2.2.1~s2.2.3,进行迭代进化过程;

s2.2.5:当迭代进化过程满足终止条件时,迭代进化终止,输出帕累托解集。

具体来说,进化算法中,生成新一代的种群时,为了保证新代种群的多样性,通过反向学习算法,使得种群有一定小概率选择不被适应度偏好的解。因而,步骤s2.2.2中得到的更优的反向子种群。

对于互不支配的染色体,称这些染色体处于同一层.则所有的染色体可以被划分到若干层.非支配排序就是将染色体分层的排序算法,分得的层称为第一级非支配层,第二级非支配层…其中第一级非支配层处于pareto前沿(paretofront)。

烟花算法(fireworksalgorithm),缩写为fwa,是受到夜空中烟花爆炸的启发而提出的一种群体智能算法。烟花算法开始迭代,依次利用爆炸算子、变异算子、映射规则和选择策略,直到达到终止条件,即满足问题的精度要求或者达到最大函数评估次数。

烟花算法的实现包括如下的几个步骤:

1)在特定的解空间中随机产生一些烟花,每一个烟花代表解空间的一个解。

2)根据适应度函数计算每一个烟花的适应度值,并根据适应度值产生火花。火花的个数基于免疫学中的免疫浓度的思想来计算,即适应度值越好的烟花产生火花的数目越多。

3)根据现实中的烟花属性并结合搜索问题的实际情况,在烟花的辐射空间内产生火花。(某个烟花的爆炸幅度的大小由该烟花在函数上的适应度值决定,适应度值越大,爆炸幅度越大,反之亦然)。每一个火花代表解空间中的一个解。为了保证种群的多样性,需要对烟花进行适当变异,如高斯变异。

4)计算种群的最优解,判定是否满足要求,如果满足则停止搜索,没有满足则继续迭代。迭代的初始值为此次循环得到的最好的解和选择的其他的解。

其中,步骤s2.2.5中的终止条件包括:迭代次数满足达到最大迭代次数以及种群整体的变化小于设定的最小种群变化。

请参见图2,为多目标优化算法的实现流程示意图,种群初始化后,在当前代(父代种群中)通过交叉算子和变异算子得到子代种群,然后通过评估操作得到候选种群即更优的反向子种群,接着通过选择操作得到下一代种群。

在一种实施方式中,s2中从帕累托解集中筛选出最优的解,根据最优的解获得目标映射空间,包括:

s2.3.1:在解空间中,连接理论最优点和全局最优点构成参考矢量线,将帕累托解集中各个点到参考矢量线的垂直距离作为解集中该点的距离值;

s2.3.2:根据计算出的距离值,选择出距离值最小的点作为最优的解;

s2.3.3:根据最优的解设置映射空间的参数,得到目标映射空间。

具体来说,选择出距离值最小的点作为最优的解也就是选择最小距离值的解决方案,以此设置映射空间的参数,得到目标映射空间。

在一种实施方式中,在s5之后,所述方法还包括:

计算预测的准确度;

根据计算出的准确度对多目标优化算法中的种群个体进行更新。

具体来说,计算预测的准确度的方法可以采用现有的方法,例如通过分类正确的样本占总样本个数的比例来衡量。

图2中的右下部分,具体展示了种群个体的更新过程,1、生成初始种群,包含不同的数据空间,对应的目标样本形态不同;2、将第一图像数据作为源样本、第二图像数据作为目标样本,通过多目标优化算法计算得到新的映射空间(即目标映射空间),将第一图像数据在新的映射空间下生成新源样本,3、用新源样本训练一个分类器;4、对目标样本进行预测得到准确度,5、按照准确度的情况,对目标样本进行更新,数据空间不同对应的目标样本的分布不同。6、更新目标样本进入下一次迭代。

根据预测的准确度来调整多目标优化算法,例如,1个种群有10个solution(解决方案),一个解决方案对应一个个体,每个solution包含1个映射空间,10个亲代种群产生10个子代种群,更新过程可以按照准确度,从10亲代+10子代,总共20个solution中挑选出10个进入下一次循环。每一次迭代,多目标优化算法会让目标数据的值发生改变,新的目标数据代表新的映射空间,目标数据的值是指多维数组的值(特征值),由这些值可以计算出条件分布和概率分布。

为了验证本发明提供的方法的有效性,将本发明提供的多目标动态分布自适应算法与另外7种先进迁移算法在4个迁移任务上进行了比较,比较预测准确度,实验结果证明本发明的方法比现有的迁移算法的准确度都要高,从而展现出本发明的算法更加优秀。

实施例二

基于同样的发明构思,本实施例提供了一种基于多目标动态分布自适应学习装置,请参见图3,该装置包括:

数据获取模块201,用于获取第一图像数据和第二图像数据,其中,第一图像数据带有标签,第二图像数据不带标签;

目标映射空间搜索模块202,用于采用多目标优化算法获得目标映射空间,包括:初始化种群,将映射空间的情况编码进种群中,利用多目标优化算法搜索最优的种群,其中,最优的种群为满足两个目标的帕累托解集,两个目标为条件分布概率和边缘分布概率;再从帕累托解集中筛选出最优的解,根据最优的解获得目标映射空间;

映射模块203,用于将第一图像数据映射到目标映射空间,获得第三图像数据;

分类器训练模块204,用于基于第三图像数据训练出一个图像分类器;

标签预测模块205,用于利用训练出的图像分类器对第二图像数据的标签进行预测,对第二图像数据贴标。

由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于多目标动态分布自适应学习方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

请参见图4,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于多目标动态分布自适应学习方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思,本申请还提供了一种计算机设备,请参见图5,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于多目标动态分布自适应学习方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1