基于多维分析的数据挖掘方法_2

文档序号：9826297阅读：来源：国知局

频繁模式树由一个根节点(值为null)、项前缀子树(作为子女)和一个频繁项头表组成，所述项前缀子树中的每个结点包括三个域:item_name、count和node_link,其中，item_name域记录该结点所表示的项的标识，count域记录到达该结点的子路径的事务数，node_link域用于连接树中相同标识的下一个结点，如果不存在相同标识的下一个结点，则其值为“null”,并且频繁项头表的表项包括一个频繁项标识域item_name和一个指向树中具有该项标识的第一个频繁项结点的头指针head of node_l ink。其中,对于包含在频繁模式树中某个结点上的项α，将会有一个从根结点到达α的路径，该路径中不包含α所在结点的部分路径称为a的前缀子路径，a称为该路径的后缀，并且在一个频繁模式树中，有可能有多个包含a的结点存在，它们从频繁项头表中的a项出发，通过项头表中的head of node_link和项前缀子树中的node_link连接在一起,频繁模式树中每个包含α的结点可以形成α的一个不同的前缀子路径，所有的这些路径组成α的条件模式基，用α的条件模式基所构建的频繁模式树称为α的条件模式树。在本发明所公开的基于多维分析的数据挖掘方法中，所述频繁模式树的基本构建过程如下:创建频繁模式树的根结点T，以“ nu11 ”标记，将经过步骤(2 )处理的每个事务中的事件元素作为排序后的频繁项表[P I P]，其中P是第一个频繁项，而P是剩余的频繁项，随后调用insert_tree([p|P], T)函数执行如下过程:如果T有子女N使得N.1tem_name=p.1tem_name,则N的计数增加I,否则创建一个新结点N，将其计数设置为1，链接到它的父结点T，并且通过node_link将其链接到具有相同item_name的结点，而如果P非空,贝U递归地调用insert_tree (P,N),由此完成频繁模式树的构建。本发明所公开的频繁模式树存储了用于挖掘频繁项集的全部信息。该频繁模式树所占用的内存空间与树的深度和宽度成比例，树的深度是单个事务中所含项目数量的最大值，而树的宽度是平均每层所含项目的数量。
[0016]优选地，在本发明所公开的基于多维分析的数据挖掘方法中，所述步骤(A2)进一步包括:在按照频数从大到小的顺序对所有事件元素进行排序以得到事件元素频次列表后，将其支持度小于预定阈值(例如0.01)的事件元素剔出，其中，事件元素的支持度由如下公式计算:事件元素支持度=频次/总事务数。
[0017]优选地，在本发明所公开的基于多维分析的数据挖掘方法中，所述步骤(A3)进一步包括:以如下方式筛选与预先确定的某个目标事件元素相关联的频繁项:(1)从所述频繁模式树中找到所有该事件元素的节点，并向上遍历它的祖先节点，得到所有路径，从而获得该事件元素在所述频繁模式树中的条件模式基；(2)将所述条件模式基当作原始事务集构建该目标事件元素的条件模式树，从而得到该目标事件元素的所有频繁项集；(3)根据预定的最小置信度从所获得的频繁项集中筛选出与该目标事件元素相关联的频繁项。例如，假设在事件事务集中事件元素(mcc_l$15)出现的频次是10000，从频繁模式树中找到的某个频繁项(mcc_l$15，mcc_2$16)的频次是1250，则表示持卡人在15时到mcc_l类型商户消费过后，很有可能在接下来的一个小时里到mcc_2类型的商户再次消费，其可能性为1250/10000=0.125，这就是该频繁项的置信度，由此，可以通过调节最小置信度来筛选发生可能性高的频繁项。
[0018]由上可见，本发明所公开的基于多维分析的数据挖掘方法具有下列优点:能够适应分布式环境下的并行计算；能够处理海量数据，从而覆盖全体样本以获得较高的分析准确性；(3)能够实现基于多维的数据关联分析。
[0019]尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。
【主权项】
1.一种基于多维分析的数据挖掘方法，所述基于多维分析的数据挖掘方法包括下列步骤: (Al)从数据库中提取出原始事件记录，并对提取出的原始事件记录进行筛选和转换以形成基于时间序列的事件记录事务集，其中，所述事件记录事务集由多个事务组成，并且每个事务由若干事件元素组成； (A2)基于所述事件记录事物集生成频繁模式树； (A3)根据所生成的频繁模式树筛选出与预先确定的目标事件元素相关联的频繁项。2.根据权利要求1所述的基于多维分析的数据挖掘方法，其特征在于，所述步骤(Al)进一步包括: (1)根据设定的筛选条件从数据库中提取出原始事件记录； (2)针对每个提取出的原始事件记录，选择其中预定的若干字段并按预定格式形成基础事件记录，每个基础事件记录表示一次实际发生的事件，并且每个基础事件记录至少包括事件主体字段，事件类型字段以及事件发生时间字段； (3)至少按预定规则以事件主体字段和事件发生时间字段的值作为主键对所有基础事件记录进行分组； (4)分别对每个分组中的记录进行清洗，即将每个分组中事件类型字段和事件发生时间字段的值相同的基础事件记录合并为一个基础事件记录； (5)将每个分组中的基础事件记录作为以“事件类型$事件发生时间”形式表示的事件元素，并将同一分组中的所有事件元素合并以形成事件记录事务，其被表示为〈事件类型1$事件发生时间1，事件类型2$事件发生时间2，…，事件类型事件发生时间i，…〉，其中，“事件类型事件发生时间i”表示该事件记录事务中第i个事件元素，由此，所有分组对应的事件记录事务构成所述事件记录事务集。3.根据权利要求2所述的基于多维分析的数据挖掘方法，其特征在于，所述步骤(A2)进一步包括: (1)遍历所述事件记录事务集，计算每个事件元素出现的总频数，并且按照频数从大到小的顺序对所有事件元素进行排序以得到事件元素频次列表； (2)针对所述事件记录事务集中的每个事务，将该事务中的每个事件元素按照所述事件元素频次列表中事件元素的顺序重新排序； (3)创建频繁模式树的根节点，再次遍历所述事件记录事务集，将经过步骤(2)处理的每个事务中的事件元素作为频繁项插入到所创建的频繁模式树中。4.根据权利要求3所述的基于多维分析的数据挖掘方法，其特征在于，所述步骤(A2)进一步包括:在按照频数从大到小的顺序对所有事件元素进行排序以得到事件元素频次列表后，将其支持度小于预定阈值的事件元素剔出，其中，事件元素的支持度由如下公式计算:事件元素支持度=频次/总事务数。5.根据权利要求4所述的基于多维分析的数据挖掘方法，其特征在于，所述步骤(A3)进一步包括:以如下方式筛选与预先确定的某个目标事件元素相关联的频繁项: (1)从所述频繁模式树中找到所有该事件元素的节点，并向上遍历它的祖先节点，得到所有路径，从而获得该事件元素在所述频繁模式树中的条件模式基； (2)将所述条件模式基当作原始事务集构建该目标事件元素的条件模式树，从而得到该目标事件元素的所有频繁项集； (3)根据预定的最小置信度从所获得的频繁项集中筛选出与该目标事件元素相关联的频繁项。
【专利摘要】本发明提出了基于多维分析的数据挖掘方法，所述方法包括：从数据库中提取出原始事件记录。并对提取出的原始事件记录进行筛选和转换以形成基于时间序列的事件记录事务集，其中，所述事件记录事务集由多个事务组成，并且每个事务由若干事件元素组成；基于所述事件记录事物集生成频繁模式树；根据所生成的频繁模式树筛选出与预先确定的目标事件元素相关联的频繁项。本发明所公开的基于多维分析的数据挖掘方法能够适应分布式环境下的并行计算并且能够处理海量目标数据。
【IPC分类】G06F17/30
【公开号】CN105589900
【申请号】CN201410671003
【发明人】王骏, 杨鸿超
【申请人】中国银联股份有限公司
【公开日】2016年5月18日
【申请日】2014年11月21日

完整全部详细技术资料下载

当前第2页1 2