一种基于多类多标签演化超网络的多目标回归方法

文档序号:26589258发布日期:2021-09-10 20:21阅读:356来源:国知局

1.本发明属于机器学习、人工智能领域,具体涉及一种基于多类多标签演化超网络的多目标回归方法。


背景技术:

2.传统的有监督学习是机器学习领域中研究得最多、应用最广泛的一种学习框架。在这种框架中,学习系统通常用一个属性向量来刻画学习对象的本质,同时用一个类别标记来表示学习对象的语义信息,一个数据样本通过一个属性向量和与该向量相关联的一个类别标记来表示,一个数据样本仅对应一个类别标记,仅具有一种语义。传统监督学习在处理具有明确、单一语义的学习对象上已经取得了巨大的成功。然而,随着信息技术的发展,数据的表现形式不断丰富。学习对象往往会很复杂,且同时具有多种语义。在许多有监督学习的实际应用中,学习系统需要根据相同的输入变量,预测多个输出变量。多标记学习是一种针对同时具有多种语义的学习对象的新的学习框架。多标记学习方法的任务就是通过训练数据学习得到模型,并利用该模型同时预测多个目标变量的输出值。在多标记学习中,当需要预测的目标变量的取值为离散类型时,多标记学习问题被称作多标记分类问题,而当需要预测的目标变量的取值为连续的数值类型时,多标记学习通常被称作多目标回归问题。
3.多目标回归的任务是根据一组共同的输入变量,预测多个相互关联且具有连续取值类型的目标变量的输出值。多目标回归的输出空间包含多个连续型的输出变量。因此,多目标回归又被称作多变量回归或多输出回归。由于其在同时预测多个相互关联的输出变量上具有良好的性能,多目标回归在很多机器学习的现实应用中得到了广泛的关注,目前已经成为机器学习和数据挖掘相关领域的研究热点。在生态模型领域,通过多目标回归模型,根据水质的测量结果,预测植物种类的丰富程度。在经济领域,多目标回归方法被用于根据计量经济学变量,预测股票的价格。在能源生产领域,通过根据历史测量数据和天气信息等数据,建立多目标回归模型,预测风能、太阳能等可再生能源的生产量。在计算机视觉研究领域,多目标回归模型被用于运动场景下的头部姿态的预测。
4.虽然针对多目标回归的研究已经取得了长足的发展,但是多目标回归仍然面临很多问题和挑战。综合来看,多目标回归主要面临以下几个方面的问题:
5.(1)在多目标回归问题中一个数据样本通常具有多个输出目标,而且输出目标之间并非相互独立而是相互关联的。如何有效地挖掘和利用输出目标之间的关联以提高多目标回归的性能,是多目标回归研究的核心问题之一。
6.(2)多目标回归问题需要同时处理输入到多个输出目标之间的映射关系,而这些映射关系可能是线性的,也可能是非线性的,甚至可能一部分是线性的而另一部分是非线性的。因此,如何有效地、灵活地处理输入与输出目标之间的线性的和非线性的映射关系,是多目标回归研究的重要问题。
7.(3)现有的多目标回归方法基本上都是建立在同一个特征表达的基础之上的,这
些方法虽然能够利用多个输出目标之间的关联,但是却忽略了各输出目标的特殊性。在多目标回归问题中,输出目标虽然相互关联,但是不完全相同。如果能够为每个输出目标构建合适的特征表示,将进一步提高多目标回归的预测准确性。
8.总的来说,多目标回归由于具有处理多语义学习对象的能力,以及同时对多个相互关联的输出变量的建模能力,在实际生活中有着广泛的应用。研究多目标回归方法具有很强的理论意义和实践意义。


技术实现要素:

9.本发明旨在解决以上现有技术的问题。提出了一种基于多类多标签演化超网络的多目标回归方法。本发明的技术方案如下:
10.一种基于多类多标签演化超网络的多目标回归方法,应用于包括生态建模在内的各个领域,例如,利用水质预测植物种类的丰富程度;从经济学变量预测股票价格;使用历史天气预报信息预测发电厂能量的产生,等等,其包括以下步骤:
11.101、获取多目标回归问题中的andro数据集,该数据集将历史五天的六个水质变量的值作为特征,将第五天的六个水质变量的值作为标签,通过聚类将多目标回归问题转化成为多类多标签分类问题;
12.102、采用演化超网络模型对多类多标签数据进行建模;
13.103、采用演化超网络模型表示多个输出目标之间的高阶关联;104、将代价敏感学习与演化超网络模型进行融合,处理类别不平衡问题;105、通过建立多类别多标记演化超网络模型同时预测多个相互关联的目标的输出。
14.进一步的,所述步骤101通过聚类将多目标回归问题转化成为多类多标签分类问题,包括以下步骤:
15.s1011、对多目标回归andro数据中每个输出目标y
i
,采用一维kmeans聚类算法,聚类成c
i
个簇;
16.s1012、针对每个输出目标y
i
,其最优聚类个数c
i
,通过聚类离差最速下降方法自适应地确定;
17.s1013、聚类离差最速下降方法首先计算在不同聚类个数下各个聚类中心之间的离差,然后通过回归分析方法拟合聚类离差函数,最后选取聚类离差函数中导数接近于零的点所对应的聚类中心个数最为最优聚类个数;
18.s1014、聚类完成后,每个输出目标被聚类成多个类簇,每个类簇对应一个类别标记,针对每个输出目标的预测转换为一个多分类问题,而针对多目标回归问题中的多个输出目标的预测问题就转换成为一个多类别对标签分类问题。
19.进一步的,s1012最优聚类个数c
i
,通过聚类离差最速下降方法自适应地确定,聚类离差最速下降方法首先计算在不同聚类个数下各个聚类中心之间的离差,然后通过回归分析方法拟合聚类离差函数,最后选取聚类离差函数中导数接近于零的点所对应的聚类中心个数最为最优聚类个数;
20.进一步的,所述步骤102采用演化超网络模型对多类多标签数据进行建模,具体为:
21.s1021、演化超网络模型的构建包括超边顶点的生成、超边匹配阈值的生成、超边
标签向量的生成以及超边权值向量的生成;
22.s1022、超边顶点的生成通过在特征空间站随机选择n个特征实现,超边的顶点表示了特征与输出标签之间的依赖关系;
23.s1023、超边匹配阈值设置为与训练样本与其最近的k个近邻的距离的平均值,超边的匹配阈值反映了超边顶点所代表的的特征覆盖空间范围;
24.s1024、通过将训练样本的多类别多标签向量设置为超边的标签向量,超网络模型用于对多类别多标签数据进行建模和表示;
25.s1025、超边的权值向量中每个数据元素表征了超边顶点所代表的特征在一定范围内对标签向量中各个标签的预测能力,权值越大,预测能力越强。
26.进一步的,所述步骤103采用演化超网络模型表示多个输出目标之间的高阶关联,具体步骤为:
27.s1031、演化超网络结构中,超边的标签向量代表了多个输出目标的输出值,超边的权值向量表征了超边对多个输出目标的分类能力,超网络模型在训练完成后,超边的权值向量反映了不同标签在超边顶点所表示的特征子空间中的相识程度;权值向量中,任意两个权值的差值越小,表示它们所对应的标签在该子空间中的关联性越高;
28.s1032、超边的标签向量同时包含了多个输出标签,超边的权值向量表现了多个输出标签的关联程度,演化超网络结构用于表示多个输出目标之间的高阶关联。
29.进一步的,所述步骤104将代价敏感学习与演化超网络模型进行融合,处理类别不平衡问题,具体为:
30.s1041、针对每个输出目标进行聚类,将多目标回归问题转化为多类别多标签问题后,由于同一个输出目标的不同类别之间存在样本数量上的差距,表现出标签分布的不平衡,不同类别分类错误的代价不一样;
31.s1042、在演化超网络的学习中融合代价敏感学习,通过最小化代价函数j(w,d),学习得到多类别多标签演化超网络模型。
32.进一步的,所述步骤s1041类别分类错误的代价计算方法如下:
[0033][0034]
cost(i,j)表示把第i个类别分类成第j个类别的错分代价,||c
i

c
j
||表示第i个类别的聚类中心与第j个类别的聚类中心的欧式距离;
[0035]
进一步的,代价函数j(w,d)如下所示:
[0036][0037]
其中,w表示超网络中超边权值向量组成的权值矩阵,d表示训练数据集,n表示训练样本的个数,m表示输出目标的个数,y
ij
表示第i个训练样本在第j个输出目标上的真实输出,表示第i个训练样本在第j个输出目标上的预测输出。
[0038]
进一步的,所述步骤105通过建立多类别多标记演化超网络模型同时预测多个相互关联的目标的输出,具体为:
[0039]
s1051、给定未见样本,首先将该样本与超网络中的所有超边进行匹配,计算未见
样本在各个输出目标上的权值之和,然后通过softmax函数计算各输出目标的类别概率,最后选取概率最大的类别作为对应目标的预测类别;
[0040]
s1052、在确定未见样本在各个输出目标上的预测标签之后,将个输出目标别签类别所对应的聚类中心作为多目标回归的预测值,最终得到一个预测向量,该向量同时包含了多个输出目标的预测值。
[0041]
本发明的优点及有益效果如下:
[0042]
本发明提出了一种基于多类多标签演化超网络的多目标回归方法解决多目标回归问题。本发明的优点在于:(1)通过一维聚类技术和聚类离差最速下降方法可以自适应地将多目标回归问题转化为多类多标签分类问题,聚类过程中不需要人工设置聚类个数,而是通过本发明提出的聚类离差最速下降方法自适应地设置;(2)将多目标回归问题转化为多类多标签分类问题后,多目标输出空间被离散化,不仅可以更方便、更有效的表示输出目标之间的关联,还可以利用成熟的多标签分类方法解决多目标回归问题;(3)通过演化超网络对多类多标签问题进行建模不仅可以有效地表示输出目标之间的高阶关联,还可以降低解决多类多标签分类问题的时间复杂度;(4)通过将代价敏感学习与演化超网络融合,可以解决多类多标签分类问题中的类别标记分布不平衡问题;(5)演化超网络模型可以有效利用输出目标之间的关联,同时对多个输出目标进行预测,提高多目标回归问题的预测准确性。本发明的有益效果体现在以下几方面:(1)自适应地将多目标回归问题转化为多类多标签分类问题,可以为利用多标签分类领域的成熟技术解决多目标回归问题,拓展了解决多目标回归问题的技术范围;(2)与其它多目标回归方法相比,本发明采用多类多标签演化超网络解决多目标回归问题,不仅可以有效的发掘和利用输出目标之间的关联,还可以大大降低训练模型需要的时间消耗,在提高多目标回归预测准确性的同时,提高了时间效率。
附图说明
[0043]
图1是本发明提供优选实施例多目标回归问题建模的流程图;
[0044]
图2基于多类多标签演化超网络的多目标回归方法的框架图;
[0045]
图3多目标回归问题转换成多类多标签分类问题的示意图;
[0046]
图4演化超网络模型中超边的结构示意图;
[0047]
图5根据训练集中的第一个训练样本生成的超边的示意图;
[0048]
图6andro数据集中6个输出目标的不同类别所对应的聚类中心以及不同类别的错分代价;
[0049]
图7演化超网络对未见样本的多目标回归预测过程。
具体实施方式
[0050]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0051]
本发明解决上述技术问题的技术方案是:
[0052]
实施例一
[0053]
为进一步阐述本发明方案,特以多目标回归问题中andro数据集对本发明的案进行详尽阐述,andro数据集包含49个数据样本,每个样本由30个特征描述,对应6个输出目
标。图2为一种基于多类多标签演化超网络的多目标回归方法框架图:
[0054]
步骤1通过聚类将多目标回归问题转化成为多类多标签分类问题:
[0055]
首先,对多目标回归数据中每个输出目标,采用一维kmeans聚类算法,聚类成多簇,通过聚类离差最速下降方法自适应地确定最优聚类个数。聚类完成后,每个输出目标被聚类成多个类簇,每个类簇对应一个类别标记,针对每个输出目标的预测转换为一个多分类问题,而针对多目标回归问题中的多个输出目标的预测问题就转换成为一个多类别对标签分类问题,如图3所示。
[0056]
andro数据集中,第6个输出目标对应的最优聚类个数分别为6,2,8,8,8,8。转换成多类多标签分类问题后,andro数据具有6个标签,第1个标签有6个类,对应数字0到5,第2个标签有2个类,对应数字0和1,第3个标签有8个类,对应数字0到7,第4个标签有8个类,对应数字0到7,第5个标签有8个类,对应数字0到7,第6个标签有8个类,对应数字0到7。
[0057]
步骤2采用演化超网络模型对多类多标签数据进行建模:
[0058]
演化超网络模型中,超边的结构如图4所示。演化超网络模型的构建包括超边顶点的生成、超边匹配阈值的生成、超边标签向量的生成以及超边权值向量的生成。超边顶点的生成通过在特征空间站随机选择n个特征实现,超边的顶点表示了特征与输出标签之间的依赖关系。超边匹配阈值设置为与训练样本与其最近的k个近邻的距离的平均值,超边的匹配阈值反映了超边顶点所代表的的特征覆盖空间范围。通过将训练样本的多类别多标签向量设置为超边的标签向量,超网络模型可以对多类别多标签数据进行建模和表示。根据训练集中的第一个训练样本生成的超边如图5所示。超边的权值向量中每个数据元素表征了超边顶点所代表的特征在一定范围内对标签向量中各个标签的预测能力,权值越大,预测能力越强。
[0059]
步骤3采用演化超网络模型表示多个输出目标之间的高阶关联:
[0060]
演化超网络结构中,超边的标签向量代表了多个输出目标的输出值,超边的权值向量表征了超边对多个输出目标的分类能力。超网络模型在训练完成后,其超边的权值向量反映了不同标签在超边顶点所表示的特征子空间中的相识程度。权值向量中,任意两个权值的差值越小,表示它们所对应的标签在该子空间中的关联性越高。超边的标签向量同时包含了多个输出标签,超边的权值向量表现了多个输出标签的关联程度,演化超网络结构可以有效地表示多个输出目标之间的高阶关联。从图5可以看出,第1,2,3,4,6个输出目标在特征x1,x3,x
28
所表示的特征子空间中具有较高的关联度。
[0061]
步骤4将代价敏感学习与演化超网络模型进行融合,处理类别不平衡问题:
[0062]
针对每个输出目标进行聚类,将多目标回归问题转化为多类别多标签问题后,由于同一个输出目标的不同类别之间存在样本数量上的差距,表现出标签分布的不平衡,不同类别分类错误的代价不一样。图6所示的是andro数据集中6个输出目标的不同类别所对应的聚类中心以及不同类别的错分代价。从图6中可以看出,类别中心距离越远,分类错误的代价越高。例如,目标1的类别2的聚类中心为26.631,类别1的聚类中心为15.234,两者的聚类中心最远,把类别2分类为类别1或者把类别1分类为类别2的错分代价最大。通过将代价敏感学习与演化超网络融合,演化超网络在学习过程中可以通过最小化错分代价,处理类别分布不平衡问题。
[0063]
步骤5通过建立多类别多标记演化超网络模型同时预测多个相互关联的目标的输
出:
[0064]
给定未见样本,首先将该样本与超网络中的所有超边进行匹配,计算未见样本在各个输出目标上的权值之和,然后通过softmax函数计算各输出目标的类别概率,最后选取概率最大的类别作为对应目标的预测类别。在确定未见样本在各个输出目标上的预测标签之后,将个输出目标别签类别所对应的聚类中心作为多目标回归的预测值,最终得到一个预测向量,该向量同时包含了多个输出目标的预测值。图7所示的一个未见样本的预测过程。对应给定的待预测样本,通过与超边匹配、softmax函数计算输出概率、选取最大概率的类别作为预测类别,得到的标签预测为2,1,5,5,3,1,与输出目标的聚类中心进行比对,用第1个输出目标的预测标签2所对应的聚类中心26.631作为输出目标1的多目标预测输出,其它输出目标的输出预测以此类推。最终得到待预测样本的多目标预测输出值:26.631,5.129,41.329,34.7,124.833,8.65。
[0065]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0066]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1