一种基于改进Apriori算法的雷电活动数据统计方法

文档序号:6515425阅读:498来源:国知局
一种基于改进Apriori算法的雷电活动数据统计方法
【专利摘要】本发明提供的一种基于改进Apriori算法的雷电活动数据统计方法,通过:1)计算加权支持度与加权置信度;2)垂直位矢量格式转换;3)频繁二项图生成;4)候选项集挖掘这四个步骤,结合实际需求对各项目赋予适当权值,将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。另外,算法使用位矢量垂直数据格式存储项目信息,节省存储空间并提高I/O效率,改进后的算法基于自顶向下的思想,利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集,再根据频繁集性质生成所有符合要求的频繁集。该算法不仅在空间和时间上提高Apriori算法的效率,还更贴合实际需求。
【专利说明】—种基于改进Apr i or i算法的雷电活动数据统计方法
【技术领域】
[0001]本发明属于激光【技术领域】,具体涉及一种基于改进Apriori算法的雷电活动数据统计方法。
【背景技术】
[0002]随着计算机网络的迅速发展和数据库技术日渐成熟,人们采集利用数据的能力得到了极大提高,为了从这些大量的、随机的实际应用数据中,抽取出能为人们所利用的信息,数据挖掘技术就应运而生。数据挖掘又称为知识发现,是目前数据库的主要研究方向,是指从大量的、不完整的、有噪声的、模糊的、随机的大型数据中寻找潜在的、不为人们事先知道的、具有潜在价值的模式或知识的过程。
[0003]由R.Agrawal等人于1993年提出的关联规则是数据挖掘领域的一个重要内容。关联规则挖掘是指从大量的数据集项间挖掘出有意义的关联关系,从而为各种决策提供有价值的信息。现有的各种关联规则挖掘算法大致可分为层次法、抽样法、搜索法、数据集划分法等。
[0004]Apriori算法是挖掘完全频繁项集中最具有影响力的方法之一,主要有两个关键步骤:一是根据最小支持度在大量事务中寻找所有的频繁项集;二是根据最小置信度生成频繁项集强关联规则。其核心思想是通过项目集数目不断增长来逐步完成频繁项目集的发现,搜索出用于求得关联规则的频繁项目集L。
[0005]Apriori算法具体步骤为:在第一趟扫描数据库时,搜索出所有支持度大于等于最小支持度的项集组成频繁I项集L1,然后是频繁2项集L2,直到有某个值使L为空时算法结束。在第k趟扫描中,首先以K-1趟扫描中所发现的频繁集Llrl作为种子集来生成新的潜在的K-强项集的集合,即候选集Ck,Ck中的每一个项集是对两个只有一个项不同的属于Llrl的频集做一个(k-2)连接来产生的,计算这些候选集的支持度,最后从候选集Ck确定出满足最小支持度的频繁K项集Lk,并将Lk作为下一趟扫描的种子集。
[0006]Apriori算法中候选项集是逐层迭代产生的,而产生每一层的频集必须要扫描整个数据库一次,然后再结合频集产生下一层级的候选项集合,直到频集无法结合产生候选项集。整个过程需要很大的I/O开销。在实际应用中数据量很大,故而每个阶段会产生大量候选项集(尤其是2-项集),多次扫描庞大的数据,效率往往比较低。为了提高Apriori算法的效率,国内外数据挖掘领域的专家、学者不断对其理论及方法进行优化和改进,提出了很多计算效率高、适用性强的新型挖掘算法,例如:Savasere提出的Partition算法、Toivonen提出的Sampling算法、Park提出的利用DHP哈希技术的改进算法和JiaweiHan提出的FP-Growth算法等。这些算法虽然对Apriori的改进都大有裨益,但依然还存在一些不足。

【发明内容】

[0007]本发明的目的在于针对现有Apriori算法的不足,提出一种基于改进Apriori算法的雷电活动数据统计方法。该算法不仅在空间和时间上提高Apriori算法的效率,还更贴合实际需求。为实现上述目的,本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进。
[0008] 为达上述目的,本发明提供了本发明结合实际需求对各项目赋予适当权值,将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。并利用频繁二项有向图寻找所有符合要求的频繁集,即基于有向图与加权关联规则的Apriori算法的优化方法,主要实现步骤是:
步骤1,计算加权支持度与加权置信度子算法:为每个项目赋予[0,I]之间一个非负实数作为权值,以体现该项目的重要度,并根据该权值计算各项集的权重,进而推出项集的加权支持度与加权置信度。
[0009]本发明中所涉及的支持度与置信度定义如下:项目集合I={ il,i2,…,im}是由m个不同的项组成。交易数据库D中每一笔交易都是I的一个子集.关联规则的形式为X=>Y,其中 X G I,Y G I,且X n Y=0,它的支持度sup (XUY)为XUY在交易数据库中出现的概率,它的信任度conf ( XUY)为在某交易中包含X前提下同对也包含Y的概率.也就是说,关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比;关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比。
[0010]步骤2,垂直位矢量格式转换子算法:将原水平数据格式{事务标志:事务项集}转化为垂直数据格式{项:事务集},然后扫描数据库一次,计算出符合加权支持度与加权置信度的频繁项,并设置它们相应的位矢量。具体做法为:如果该事务中存在对应的项免则设置对应项为1,否则设置对应项为0,当检查完所有事务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目(节点)映射到位图。
[0011]步骤3,频繁二项图生成子算法:根据频繁项计算出符合关联规则的频繁2项集,以各个满足频繁2项集的项目作为节点,绘制出表示各个项目之间关系的有向图。具体方法为:将得到的位图中I出现次数最多的节点放在最上层,若某两项在一次事务中同时出现,并且出现的次数满足最小支持度要求(大于或等于最小支持度),则在有向图中这两个节点之间画一条边。边上用二进制字符串表示(二进制字符串通过两个节点求与运算得到,其中串中I的个数表示这两个节点同时出现的次数)。
[0012]步骤4,候选项集挖掘子算法:通过对频繁2项图的深度优先遍历,找到该图的最长路径,即为最长频繁项集,继而根据任何强项集的子集必定是强项集的性质,找出所有频繁集。
[0013]本发明和现有技术相比,具有以下优点:
本发明中优化的新算法结合实际需求对各项目赋予适当权值,克服了将数据库中的各个项目按照平等的方式进行处理的缺陷,将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。能够挖掘出能带来更大利润的项目,使得挖掘出的关联规则更加满足决策者的需求,也更加符合实际需要。
[0014]本发明使用位矢量垂直数据格式存储项目信息,整个过程只需扫描数据库一次。解决原始算法中多次迭代重复扫描数据库大量数据并消耗I/O的问题,极大提高计算机执行效率。[0015]本发明改进后的算法基于自顶向下的思想,利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集,再根据频繁集性质生成所有符合要求的频繁集。基于图的频繁项集挖掘不需对侯选项目集进行存储,因此极大节省了系统的存储开销。
[0016]下面,结合实施例及其附图,对本算法做进一步详细说明。
【专利附图】

【附图说明】
[0017]图1是垂直位矢量转换流程图。
[0018]图2是根据具体事务集得到的有向图。
[0019]图3是从有向图中寻找候选项集的流程图。
【具体实施方式】
[0020]实施例1
本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进,即基于有向图与加权关联规则的Apriori算法的优化方法,首先要计算加权支持度与加权置信度:
设I={ il, i2,…,im},对应i的权值向量W={ wl, w2,…,wm },第i个事务ti是I的一个子集,ti中第j个项目(记作ti [ij])都有一个权值W。这样每一个项目都与W中的一个值对应起来。
[0021]项集事务权值是一个数据库中项目集中各项目的权值汇总,项目集X在事务ti中
的项目权值计算为:
【权利要求】
1.一种基于改进Apriori算法的雷电活动数据统计方法,其特征在于,包括以下步骤: 1)、计算加权支持度与加权置信度:为每个项目赋予[0,I]之间一个非负实数作为权值,以体现该项目的重要度,并根据该权值计算各项集的权重,进而推出项集的加权支持度与加权置信度,所述支持度与置信度定义是:项目集合I={ U i2,…,ij是由m个不同的项组成,交易数据库D中每一笔交易都是I的一个子集,关联规则的形式为X =>Y,其中XGI,YGI,且Xn Y=,X的支持度sup(XUY)为XUY在交易数据库中出现的概率,X的信任度conf ( XUY)为在某交易中包含X前提下同对也包含Y的概率.也就是说,关联规则X=>Y的支持度为数据库中包含XUY的交易数与总交易数之比;关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比; 2)、垂直位矢量格式转换:将原水平数据格式{事务标志:事务项集}转化为垂直数据格式{项:事务集},然后扫描数据库一次,计算出符合加权支持度与加权置信度的频繁项,并设置它们相应的位矢量; 3)、频繁二项图生成:根据频繁项计算出符合关联规则的频繁2项集,以各个满足频繁2项集的项目作为节点,绘制出表示各个项目之间关系的有向图; 4)候选项集挖掘:通过对频繁2项图的深度优先遍历,找到该图的最长路径,即为最长频繁项集,继而根据任何强项集的子集必定是强项集的性质,找出所有频繁集。
2.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤2)的具体过程是:如果该事务中存在对应的项免则设置对应项为1,否则设置对应项为0,当检查完所有事务集合每个项对应一个二进制位串,然后按照支持数从高到低排序将数据库中的项目映射到位图。
3.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤3)的具体过程是:将得到的位图中I出现次数最多的节点放在最上层,若某两项在一次事务中同时出现,并且出现的次数满足最小支持度要求,大于或等于最小支持度,则在有向图中这两个节点之间画一条边,边上用二进制字符串表示,二进制字符串通过两个节点求与运算得到,其中串中I的个数表示这两个节点同时出现的次数。
4.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,加权支持度与加权置信度的具体计算过程是: 设I={ il, i2,…,im},对应i的权值向量W={ wl, w2,…,wm },第i个事务ti是I的一个子集,ti中第j个项目(记作ti [ij])都有一个权值w, 这样每一个项目都与W中的一个值对应起来,项集事务权值是一个数据库中项目集中各项目的权值汇总,项目集X在事务ti中的项目权值计算为:
5.如权利要求2所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤2)的具体过程是:于有向图与加权关联规则的Apriori算法的优化方法,其特征在,如果该事务中存在对应的项则设置对应项为1,否则设置对应项为0,当检查完所有事务集合每个项对应一个二进制位串,然后按照支持数从高到低排序将数据库中的项目节点映射到位图,设最小支持度计数是2,则在本数据库中频繁项是ip i2,i3,i4,i5 ; 对应 Bn=(100110111),Bi2=(111101011),Bi3=(OOlOimi), Bi4=(010100000),Bi5= (100000010)。
6.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤4)的具体过程是,(I)频繁2项集做深度优先遍历,并记录最长路径D ; (2)D中路径长度为1,如果1=0,说明找不到频繁项集,否则,当1>0时,执行(3); (3)计算D中每一条路径的加权支持度,找出所有满足最小支持度的路径,若存在,它们就是频繁项集,算法到此结束; 否则执行(4); (4)对于D中的每一条路径,找出所有路径的长度为1-1的子集,并利用图1验证它们是否连通,若为连通路径,将该路径记录在D中,返回(2)。
【文档编号】G06F19/00GK103593400SQ201310480978
【公开日】2014年2月19日 申请日期:2013年12月13日 优先权日:2013年12月13日
【发明者】王卫民, 李婧, 雷欣, 田社教, 高莹 申请人:陕西省气象局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1