基于多维分析的数据挖掘方法

文档序号:9826297阅读:894来源:国知局
基于多维分析的数据挖掘方法
【技术领域】
[0001]本发明涉及数据挖掘方法,更具体地,涉及基于多维分析的数据挖掘方法。
【背景技术】
[0002]目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,针对海量的事件记录数据(例如金融领域中的交易记录数据)进行数据挖掘以发现不同的事件发生之间的关联性(例如金融领域中不同的用户消费事件之间的关联性,例如,某一类持卡人在某个时刻在某类商户消费之前,可能在什么时刻在什么类型商户消费过,概率是多少;之后又可能在什么时刻去什么类型的商户消费,概率是多少)变得越来越重要。
[0003]在现有的技术方案中,通常在单机上进行与序列模式分析(其是指从数据库中挖掘出相对于时间或其他模式而言出现频率高的模式)相关的过程,以发现不同数据之间的潜在关联。
[0004]然而,现有的技术方案存在如下问题:(I)仅能在单机上实施分析过程,故难于适应分布式环境下的并行计算;(2)能够处理的数据量有限,无法覆盖全体样本,从而导致分析结果的准确性较低;(3)仅能针对单一维度进行分析,无法实现基于多维的数据关联分析。
[0005]因此,存在如下需求:提供能够适应分布式环境下的并行计算并且能够处理海量目标数据的基于多维分析的数据挖掘方法。

【发明内容】

[0006]为了解决上述现有技术方案所存在的问题,本发明提出了能够适应分布式环境下的并行计算并且能够处理海量目标数据的基于多维分析的数据挖掘方法。
[0007]本发明的目的是通过以下技术方案实现的:
一种基于多维分析的数据挖掘方法,所述基于多维分析的数据挖掘方法包括下列步骤:
(Al)从数据库中提取出原始事件记录。并对提取出的原始事件记录进行筛选和转换以形成基于时间序列的事件记录事务集,其中,所述事件记录事务集由多个事务组成,并且每个事务由若干事件元素组成;
(A2)基于所述事件记录事物集生成频繁模式树;
(A3)根据所生成的频繁模式树筛选出与预先确定的目标事件元素相关联的频繁项。
[0008]在上面所公开的方案中,优选地,所述步骤(Al)进一步包括:
(1)根据设定的筛选条件从数据库中提取出原始事件记录;
(2)针对每个提取出的原始事件记录,选择其中预定的若干字段并按预定格式形成基础事件记录,每个基础事件记录表示一次实际发生的事件,并且每个基础事件记录至少包括事件主体字段,事件类型字段以及事件发生时间字段;
(3)至少按预定规则以事件主体字段和事件发生时间字段的值作为主键对所有基础事件记录进行分组;
(4)分别对每个分组中的记录进行清洗,即将每个分组中事件类型字段和事件发生时间字段的值相同的基础事件记录合并为一个基础事件记录;
(5)将每个分组中的基础事件记录作为以“事件类型$事件发生时间”形式表示的事件元素,并将同一分组中的所有事件元素合并以形成事件记录事务,其被表示为〈事件类型1$事件发生时间1,事件类型2$事件发生时间2,…,事件类型事件发生时间i,…〉,其中,“事件类型事件发生时间i”表示该事件记录事务中第i个事件元素,由此,所有分组对应的事件记录事务构成所述事件记录事务集。
[0009]在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:
(1)遍历所述事件记录事务集,计算每个事件元素出现的总频数,并且按照频数从大到小的顺序对所有事件元素进行排序以得到事件元素频次列表;
(2)针对所述事件记录事务集中的每个事务,将该事务中的每个事件元素按照所述事件元素频次列表中事件元素的顺序重新排序;
(3)创建频繁模式树的根节点,再次遍历所述事件记录事务集,将经过步骤(2)处理的每个事务中的事件元素作为频繁项插入到所创建的频繁模式树中。
[0010]在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:在按照频数从大到小的顺序对所有事件元素进行排序以得到事件元素频次列表后,将其支持度小于预定阈值的事件元素剔出,其中,事件元素的支持度由如下公式计算:事件元素支持度=频次/总事务数。
[0011]在上面所公开的方案中,优选地,所述步骤(A3)进一步包括:以如下方式筛选与预先确定的某个目标事件元素相关联的频繁项:
(1)从所述频繁模式树中找到所有该事件元素的节点,并向上遍历它的祖先节点,得到所有路径,从而获得该事件元素在所述频繁模式树中的条件模式基;
(2)将所述条件模式基当作原始事务集构建该目标事件元素的条件模式树,从而得到该目标事件元素的所有频繁项集;
(3)根据预定的最小置信度从所获得的频繁项集中筛选出与该目标事件元素相关联的频繁项
本发明所公开的基于多维分析的数据挖掘方法具有以下优点:能够适应分布式环境下的并行计算;能够处理海量数据,从而覆盖全体样本以获得较高的分析准确性;(3)能够实现基于多维的数据关联分析。
【附图说明】
[0012]结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的基于多维分析的数据挖掘方法的流程图。
【具体实施方式】
[0013]图1是根据本发明的实施例的基于多维分析的数据挖掘方法的流程图。如图1所示,本发明所公开的基于多维分析的数据挖掘方法包括下列步骤=(Al)从数据库中提取出原始事件记录。并对提取出的原始事件记录进行筛选和转换以形成基于时间序列的事件记录事务集,其中,所述事件记录事务集由多个事务组成,并且每个事务由若干事件元素组成;(A2)基于所述事件记录事物集生成频繁模式树;(A3)根据所生成的频繁模式树筛选出与预先确定的目标事件元素相关联的频繁项(即不同于目标事件元素并与其相关的其他事件元素)。
[0014]优选地,在本发明所公开的基于多维分析的数据挖掘方法中,所述步骤(Al)进一步包括:(I)根据设定的筛选条件从数据库中提取出原始事件记录(例如交易记录,每个记录表示一次实际发生的交易);(2)针对每个提取出的原始事件记录,选择其中预定的若干字段(例如卡号、交易时间、商户类型等字段)并按预定格式形成基础事件记录,每个基础事件记录表示一次实际发生的事件(例如某个持卡人在某个时刻在某个类型的商户进行了一次消费),并且每个基础事件记录至少包括事件主体字段(例如卡号字段),事件类型字段(例如商户类型字段)以及事件发生时间字段;(3)至少按预定规则以事件主体字段和事件发生时间字段的值作为主键对所有基础事件记录进行分组(例如,同一卡号同一天的所有交易记录被分到同一个组里);(4)分别对每个分组中的记录进行清洗,即将每个分组中事件类型字段和事件发生时间字段的值相同的基础事件记录合并为一个基础事件记录;(5)将每个分组中的基础事件记录作为以“事件类型$事件发生时间”形式表示的事件元素,并将同一分组中的所有事件元素合并以形成事件记录事务(例如,一个事务表示一个卡号在某一天里发生过的所有交易商户类型及交易时间),其被表示为 < 事件类型1$事件发生时间1,事件类型2$事件发生时间2,…,事件类型事件发生时间i,…〉,其中,“事件类型事件发生时间i”表示该事件记录事务中第i个事件元素,由此,所有分组对应的事件记录事务构成所述事件记录事务集。
[0015]优选地,在本发明所公开的基于多维分析的数据挖掘方法中,所述步骤(A2)进一步包括:(I)遍历所述事件记录事务集,计算每个事件元素出现的总频数,并且按照频数从大到小的顺序对所有事件元素进行排序以得到事件元素频次列表;(2)针对所述事件记录事务集中的每个事务,将该事务中的每个事件元素按照所述事件元素频次列表中事件元素的顺序重新排序;(3)创建频繁模式树的根节点(其以“null”标记),再次遍历所述事件记录事务集,将经过步骤(2)处理的每个事务中的事件元素作为频繁项插入到所创建的频繁模式树中。其中,所述
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1