基于改进遗传算法的关联规则挖掘方法

文档序号:9667833阅读:408来源:国知局
基于改进遗传算法的关联规则挖掘方法
【技术领域】
[0001] 本发明涉及遗传算法技术领域,尤其涉及一种基于改进遗传算法的关联规则挖掘 方法。
【背景技术】
[0002] 随着现代网络技术的快速发展,知识经济的挑战和全球信息化的趋势,信息资源 的共享和协同已成为时代的主旋律。而对于海量异构式的数据信息资源,对其进行必要的 挖掘和相应的分析处理,对其规律和潜在的联系进行挖掘,为用户提供有价值的信息,以此 指导其做出相应的技术决策和经营管理。而海量的数据积累到一定程度时,普通的穷举搜 索算法显然已经不能满足需求,不仅效率低,而且搜索的信息也不一定具有多少价值,对数 据挖掘的效果不是那么有效和明显。

【发明内容】

[0003] 本发明所要解决的技术问题在于,提供一种基于改进遗传算法的关联规则挖掘方 法,提高了挖掘的效率和有效性。
[0004] 为了解决上述技术问题,本发明提供了一种基于改进遗传算法的关联规则挖掘方 法,包括:
[0005] 步骤1 :根据经预处理的样本数据随机生成初始群体;
[0006] 步骤2 :对初始群体中的个体进行编码,根据用户需求确定属性数据参数以及设 定属性阀值;
[0007] 步骤3 :计算个体的适应度和浓度;
[0008] 步骤4 :根据个体的适应度和浓度计算个体的选择概率,根据选择概率对个体进 行选择,若个体满足条件:没有小于用户设定的最小置信度和兴趣度阀值,则停止计算,执 行步骤11 ;若不满足则执行步骤5 ;
[0009] 步骤5 :去除适应度和浓度低于阈值的个体;
[0010] 步骤6 :保留复制中、适应度高于阈值和浓度值高于阈值的个体到交配池;
[0011] 步骤7 :随机从交配池中选择两个个体,随机选取交叉概率对选择的两个个体进 行交叉操作,生成新个体;
[0012] 步骤8 :判断新个体和父个体适应度和浓度的大小;若小于父个体,则保留父个体 执行步骤10 ;反之,则执行步骤9 ;
[0013] 步骤9 :基于Metropolis准则,以接收概率接收新个体;
[0014] 步骤10 :随机选择变异概率进行变异操作,生成新个体,返回执行步骤3 ;
[0015] 步骤11 :将满足条件的个体作为解输入到优化器中,根据置信度和兴趣度进行关 联规则提取;
[0016] 步骤12 :对提取的关联规则进行解码,即为挖掘后得到关联规则。
[0017] 进一步的,所述步骤1中预处理的具体过程包括:
[0018] 对原始数据进行数据选样;
[0019] 将数据选样得到的数据进行数据转换,其中,所述数据转换包括数据聚类、分类以 及维规约技术处理;
[0020] 对数据转换后得到的数据进行数据清洗操作;
[0021] 对数据清洗早作后得到的样本数据进行无量纲化处理定量属性数据,然后基于模 糊隶属度法,将样本数据进行模糊处理,然后再将处理后的属性值划分不同的重要等级;
[0022] 建立数据虚拟仓库,存储模糊处理后的样本数据,并划分为基础数据、目标数据和 细节数据,其中,基础数据D= {山,d2,d3, . . .,dk,. . .,dj为事务数据仓库,目标数据dk = {p!,p2, · · ·,Pi, · · ·,pj,dk(k= 1,2, · · ·,t)为事务,细节数据Pi(1 = 1,2, · · ·,W)为项目。
[0023] 实施本发明,具有如下有益效果:本发明是一种基于改进遗传算法的关联规则挖 掘方法,不仅去除了样本数据中的噪声、干扰因素以及不相关的属性等,还可以提高数据全 局搜索的能力,还能较好的处理各属性间的相互关系,实现快速有效的关联规则数据挖掘 过程,提高了挖掘的效率和有效性。
【附图说明】
[0024] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0025] 图1是本发明实施例提供的基于改进遗传算法的关联规则挖掘方法的一个实施 例的流程示意图。
【具体实施方式】
[0026] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0027] 图1是本发明实施例提供的基于改进遗传算法的关联规则挖掘方法的一个实施 例的流程示意图,如图1所示,包括:
[0028] 步骤1 :根据经预处理的样本数据随机生成初始群体。
[0029] 其中,预处理的具体过程包括:
[0030] 对原始数据进行数据选样;
[0031 ] 将数据选样得到的数据进行数据转换,其中,所述数据转换包括数据聚类、分类以 及维规约技术处理;
[0032] 对数据转换后得到的数据进行数据清洗操作;
[0033] 对数据清洗早作后得到的样本数据进行无量纲化处理定量属性数据,然后基于模 糊隶属度法,将样本数据进行模糊处理,然后再将处理后的属性值划分不同的重要等级;
[0034] 建立数据虚拟仓库,存储模糊处理后的样本数据,并划分为基础数据、目标数据和 细节数据,其中,基础数据D= {山,d2,d3, . . .,dk,. . .,dj为事务数据仓库,目标数据dk = {p!,p2, · · ·,Pi,· · ·,pj,dk(k= 1,2, · · ·,t)为事务,细节数据Pi(1 = 1,2, · · ·,W)为项目。
[0035] 步骤2 :对初始群体中的个体进行编码,根据用户需求确定属性数据参数以及设 定属性阀值。
[0036] 其中,所述的编码方法采用实数数组编码方法。
[0037] 步骤3 :计算个体的适应度和浓度。
[0038] 其中,个体的适应度和浓度的计算过程分别为:
[0039] 个体的适应度为函数
?中,s(x)表示一个个体关联规则的支持 度,值越大,关系规则就越重要,s_表示设定的最小言持麼.县一个丨種值;
[0040] 个体的浓残
>体的浓度概率
式中,Μ为群体规模, &表示具有相同属性的第j类数目,η为具有相同属性的类数。
[0041] 步骤4:根据个体的适应度和浓度计算个体的选择概率,根据选择概率对个体进 行选择,若个体满足条件:没有小于用户设定的最小置信度和兴趣度阀值,则停止计算,执 行步骤11;若不满足则执行步骤5。
[0042] 其中,个体的选择概率为:
[0043]
式中,f (C为个体C。的适应度值;α 为选择权重系数。
[0044] 步骤5 :去除适应度和浓度低于阈值的个体。
[0045] 步骤6 :保留复制中、适应度高于阈值和浓度值高于阈值的个体到交配池。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1