不平衡数据集的分类方法与流程

文档序号：15984226发布日期：2018-11-17 00:42阅读：1754来源：国知局

本发明具体涉及一种不平衡数据集的分类方法。

背景技术

分类作为数据挖掘领域的一个重要分支，被广泛应用于科学研究、医疗、金融、以及制造业等领域。随着分类技术在各领域应用中的不断深入，新问题和挑战也伴随而来，例如，在实际的应用中，难免会碰到不平衡数据集，如何针对不平衡数据集进行分类是一个广受关注的问题。不平衡数据集是相对于平衡数据集而言的，它是指在某个数据集中，数据类别的分布不均匀，或者说在该数据集中，类别的分布相差很大。对于某个二分类问题的不平衡数据集，把其中样本量少的类称为正类(也称为小类或者是少类)，反之，把样本量多的类称为负类(也称为大类或者是多数类)。不平衡数据集广泛存在于我们的实际生活中，例如医疗诊断、卫星图像中的石油泄漏、垃圾邮件过滤等。因此，如何针对不平衡数据集的分类问题具有很高的应用价值以及广泛的应用前景。

目前的不平衡数据集的分类方法，往往方法较为复杂，而且精度相对不高，影响了不平衡数据集的分类效果。

技术实现要素：

本发明的目的之一在于提供一种简单可靠且分类效果较好的不平衡数据集的分类方法。

本发明提供的这种不平衡数据集的分类方法，包括如下步骤：

s1.获取训练数据，得到训练数据的候选频繁项集；

s2.对步骤s1得到的候选频繁项集进行过滤；

s3.将候选关联规则分类至相应类别的规则集合中；

s4.衡量规则前件和后件的相关性，从而得到各类别相关的分类关联规则；

s5.以规则强度作为衡量指标对步骤s4得到的分类关联规则进行过滤和排序，从而得到分类器；

s6.采用步骤s5得到的分类器对不平衡数据进行分类。

步骤s1所述的得到训练数据的候选频繁项集，具体为对训练数据采用apriori算法，同时设置最小支持度阈值，从而得到满足最小支持度阈值的候选频繁项集。

步骤s2所述的对候选频繁项集进行过滤，具体为设置最小增比率阈值，然后采用如下规则进行过滤：

若频繁项集的增比率低于最小增比率阈值，则将该频繁项集过滤；

若频繁项集的增比率大于或等于最小增比率阈值，则将该频繁项集保留；

若频繁项集的增比率无穷大，则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值。

所述的增比率，具体为采用如下算式计算增比率：

式中er(x→c)为规则x→c的增比率，csup(x→c)为类支持度且csup(x→c)＝n(x∪c)/n(c)，n(x∪c)表示x和c同时出现在事务集d中的次数，n(c)表示类c在事务集中出现的次数，x表示规则前件，表示类c的补类。

步骤s3所述的将候选关联规则分类至相应类别的规则集合，具体为设置增比置信度阈值，然后采用如下规则进行分类：

若候选关联规则的增比置信度大于或等于增比置信度阈值，则将该关联规则加入到对应类别的规则集合中；

若候选关联规则的增比置信度小于增比置信度阈值，则将该关联规则删除。

所述的候选关联规则的增比置信度，具体为采用如下算式计算增比置信度：

erc(x→c)＝er(x→c)*confidence(x→c)

式中erc(x→c)为规则x→c的增比置信度，er(x→c)为规则x→c的增比率，confidence(x→c)为规则x→c的置信度，x为规则前件，c为规则后件。

步骤s4所述的衡量规则前件和后件的相关性并得到各类别相关的分类关联规则，具体为采用如下步骤进行衡量并得到分类关联规则：

a.采用如下公式计算规则a→b的兴趣度：

式中lift(a→b)为规则a→b的兴趣度，p(a∪b)为a∪b出现的概率，p(a)为a出现的概率，p(b)为b出现的概率；

b.采用如下规则进行判断：

若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值，则将该候选关联规则加入到对应类别的分类关联规则；

若候选关联规则的兴趣度小于设定的最小兴趣度阈值，则进行后续步骤；

c.判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系：

若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系，则得到候选关联规则的负关联规则，计算对应的负关联规则的支持度和置信度；

否则将该规则删除；

d.判断步骤c得到的负关联规则的支持度和置信度与最小阈值之间的关系：

若负关联规则的支持度大于或等于支持度最小阈值且负关联规则的置信度大于或等于置信度最小阈值，则将该候选关联规则加入到对应类别的分类关联规则；

否则将该规则删除。

步骤s5所述的以规则强度作为衡量指标对得到的分类关联规则进行过滤和排序从而得到分类器，具体为采用如下步骤进行过滤、排序并得到分类器：

a.采用如下公式计算分类关联规则的规则强度：

式中rs(a→b)为规则a→b的规则强度，supp为规则a→b的支持度，conf为规则a→b的置信度，er为规则a→b的增比率，lift为规则a→b的的兴趣度；

b.对于任意规则rp和rn，若rp是rn的泛化规则且rs(rp)＞rs(rn)，则认定规则rn是冗余并将规则rn删除；

c.对最终的规则按类别进行排序，从而形成最终的分类器。

本发明提供的这种不平衡数据集的分类方法，结合了增比置信度、负关联规则挖掘、增比率和规则强度定义，通过多种因素的结合，能更全面的衡量规则的优先级，因此本发明方法能够在不平衡数据集中有很好的分类效果，在保证整体分类效果的情况下，能够有效提高分类效果，而且本发明方法简单可靠。

附图说明

图1为本发明方法的方法流程图。

具体实施方式

如图1所示为本发明方法的方法流程图：本发明提供的这种不平衡数据集的分类方法，包括如下步骤：

s1.获取训练数据，得到训练数据的候选频繁项集；具体为对训练数据采用apriori算法，同时设置最小支持度阈值，从而得到满足最小支持度阈值的候选频繁项集；

s2.对步骤s1得到的候选频繁项集进行过滤；具体为设置最小增比率阈值，然后采用如下规则进行过滤：

若频繁项集的增比率低于最小增比率阈值，则将该频繁项集过滤；

若频繁项集的增比率大于或等于最小增比率阈值，则将该频繁项集保留；

若频繁项集的增比率无穷大，则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值；

采用如下算式计算增比率：

式中er(x→c)为规则x→c的增比率，csup(x→c)为类支持度且csup(x→c)＝n(x∪c)/n(c)，n(x∪c)表示x和c同时出现在事务集d中的次数，n(c)表示类c在事务集中出现的次数，x表示规则前件，表示类c的补类；

s3.将候选关联规则分类至相应类别的规则集合中；具体为设置增比置信度阈值，然后采用如下规则进行分类：

若候选关联规则的增比置信度大于或等于增比置信度阈值，则将该关联规则加入到对应类别的规则集合中；

若候选关联规则的增比置信度小于增比置信度阈值，则将该关联规则删除；

采用如下算式计算增比置信度：

erc(x→c)＝er(x→c)*confidence(x→c)

式中erc(x→c)为规则x→c的增比置信度，er(x→c)为规则x→c的增比率，confidence(x→c)为规则x→c的置信度，x为规则前件，c为规则后件；

s4.衡量规则前件和后件的相关性，从而得到各类别相关的分类关联规则；具体为采用如下步骤进行衡量并得到分类关联规则：

a.采用如下算式计算候选关联规则的兴趣度；

式中lift(a→b)为规则a→b的兴趣度，p(a∪b)为a∪b出现的概率，p(a)为a出现的概率，p(b)为b出现的概率；兴趣度常被应用于关联规则的挖掘中，是一种经典的、有效的关联规则相关性衡量标准；

若lift(a→b)＜1，则表示规则前件a和规则后件b是负相关的，即a会抑制b的出现；

若lift(a→b)＝1，则表示规则前件a和规则后件b是独立不想关的，即a出现与否不会影响b的出现；

若lift(a→b)＞1，则表示规则前件a和规则后件b是正相关的，即a会促进b的出现；

b.采用如下规则进行判断：

若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值，则将该候选关联规则加入到对应类别的分类关联规则；

若候选关联规则的兴趣度小于设定的最小兴趣度阈值，则进行后续步骤；

c.判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系：

若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系，则得到候选关联规则的负关联规则，计算对应的负关联规则的支持度和置信度，同时要需要设置一个最小置信度阈值；

否则将该规则删除；

d.判断步骤c得到的负关联规则的支持度和置信度与最小阈值之间的关系：

否则将该规则删除；

s5.以规则强度作为衡量指标对步骤s4得到的分类关联规则进行过滤和排序，从而得到分类器；具体为采用如下步骤进行过滤、排序并得到分类器：

a.采用如下公式计算分类关联规则的规则强度：

式中rs(a→b)为规则a→b的规则强度，supp为规则a→b的支持度，conf为规则a→b的置信度，er为规则a→b的增比率，lift为规则a→b的的兴趣度；

b.通过泛化概念过滤掉冗余的关联规则：假设规则rp:xp→c和rn:xn→c，其中xp和xn分别是规则rp和rn的前件，rp和rn的后件均为c，若则称rp是rn的泛化规则；对于任意规则rp和rn，若rp是rn的泛化规则且rs(rp)＞rs(rn)，则认定规则rn是冗余并将规则rn删除；

c.对最终的规则按类别进行排序，从而形成最终的分类器；

s6.采用步骤s5得到的分类器对不平衡数据进行分类。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李芳芳;段昱;毛星亮
技术所有人：中南大学
我是此专利的发明人

上一篇：一种石斛枫斗的加工方法与流程
上一篇：具有金属强度的复合翼型件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。