一种低消耗的Apriori方法

文档序号:9471522阅读:393来源:国知局
一种低消耗的Apriori方法
【技术领域】
[0001] 本发明设及一种低消耗的Apriori方法。
【背景技术】
[0002] 如何在海量的数据中,挖掘其中隐藏的、人们感兴趣的知识,已经成为了一个研究 的热点。Agrawal等在1994年提出使用Apriori方法对顾客交易的数据库项之间的关联规 则进行挖掘,运种方法分成W下两部分来完成:首先,找出数据库中所有出现频率比最小支 持度大或者相等的频繁项集;然后,根据所得到的频繁项集来制定强关联规则,同时运些强 关联规则必须要满足最小可信度W及最小支持度运两个基本的条件。
[0003] 从上面方法实现的两个部分可W看出,Apriori方法的实现分成W下两个步骤: 1、首先使用迭代方法对数据集中的所有项集进行扫描,并且设定一个支持度阔值,筛选出 数据集中的所有频繁项集,即将支持度低于阔值的项集全部淘汰掉,而将支持度高于运个 阔值的项集认为是频繁项集;2、得到所有的频繁项集之后,就可W利用它挖掘出强关联规 贝1J,对于每个频繁项集1产生强关联规则的基本步骤可W总结为W下两步:a、生成1所有的 非空真子集;b、对于1的每个非空真子集1,,如果1的支持度除W1,的支持度大于或等于 min_corif,则输出强关联规则1,一(1-1,)。
[0004] 传统Apriori方法其挖掘对象的事务数据库中,内部的事务条目只具有空间属 性,不适用于挖掘移动节点移动轨迹关联规则。 阳0化]另外,如果将传统的Apriori方法直接移植到硬件资源有限的移动终端中应用, 效率会变得非常低,首先在于执行过程中需要消耗较高的存储空间来保存大量的候选项 集,其次需要消耗较长时间的CPU资源对整个移动轨迹数据集进行多次重复的扫描来获得 全部候选项集。因此,如何使Apriori算法变得更加低耗就显得尤为的重要。

【发明内容】

[0006] 本发明所要解决的技术问题是针对上述现有技术提供一种低消耗的Apriori方 法。
[0007] 本发明解决上述技术问题所采用的技术方案为:低消耗的Apriori方法,用于对 智能移动终端的移动轨迹的关联移动规则进行挖掘,其特征在于:包括如下步骤:
[0008] 步骤一、使用迭代方法挖掘智能移动终端的移动轨迹数据集中所有频繁项集,并 记录每个频繁项集的日期,计算每个频繁项集的支持度;
[0009] 步骤二、利用步骤一得出的频繁项集,生成移动节点所有可能的关联移动规则,并 计算每条移动规则的置信度,记录移动节点每条关联移动规则的日期W及计算每条关联移 动规则日期的远近变动因子;同时,根据记录的日期和计算的日期远近变动因子,计算每条 关联移动规则的日期加权值TWei曲t(R),从而得到强关联性移动规则;其中,每条关联移 动规则日期对应的远变动因子m和近变动因子n计算公式如下:
[0010]
[0011] 每条关联移动规则的日期加权值TWei曲t(R)计算公式如下:
[0012]
[0013] 其中,Ruinate、MaxDateW及MinData分别表示移动规则的日期、移动轨迹数据 集中最近的记录日期与最远的记录日期;m为移动轨迹数据集中的最近记录日期MaxDate 的变动因子,即近变动因子;n为移动轨迹数据集中的最远记录日期MinData的变动因子, 即远变动因子;K为该移动规则日期Ruinate所在月的总天数,Ruld)atek表示该月中第k 天的日期值;
[0014] 步骤=、根据移动节点当前轨迹及步骤二生成的关联移动规则,预测移动节点下 一个移动轨迹:
[001引假定当前移动节点的移动轨迹为T: (C。,t。)一(Cm,tm),遍历所有关联移动规则, 如果关联移动规则R包含移动轨迹T则说明关联移动规则R是匹配的移动规则,然后根据 下式计算关联移动规则R的匹配度,匹配度越高则越有可能是移动节点下一个移动轨迹: [0016]Score(R) =Confidence(R)+TWei曲t(R) 阳017] 其中,Score(R)为关联移动规则R的匹配度,Confidence(R)为关联移动规则R的 置信度,TWei曲t(R)为关联移动规则R的日期加权值;其中,
[0018] 在步骤一中,将智能移动终端的移动轨迹的时间属性与空间属性一同作为挖掘对 象数据,用事务数据库D表示智能移动终端的移动轨迹数据集,每条事务条目用移动轨迹 记录表示,每条移动轨迹记录则用多个轨迹数据组成,轨迹数据用Pl,化,…Pn2,Pn1,Pn表 示,其中Pn= {(c。,t。)|c正C,t正T},代表移动节点在时间点t。接入了路由器C。,集合C代 表移动节点日常经过的所有接入路由器,T代表每天划分的X个时间段集合,X= 12或24 或48或72 ;并引入记录ID号来标识每一条智能移动终端的移动轨迹;所述步骤一具体由 如下方式实现:
[0019] (1)、首先遍历整个事务数据库D获得1-候选项集Ci,然后计算1-候选项集C冲 每个候选项的支持度,同时标识出包含该候选项的所有记录ID号,最后删除1-候选项集。 中支持度小于最小支持度阔值的候选项,就得到了 1-频繁项集Li;
[0020] 似、利用1-频繁项集Li进行内连接运算计算出2-候选项集C2,计算2-候选项 集C2中每个候选项的支持度是通过将2-候选项集C2中每个2-候选项拆分成若干个单独 的1-频繁项;
[0021] (3)、找出所有(2)拆分出的1-频繁项中支持度最小的1-频繁项,同时找出所有 包含该1-频繁项的记录ID号; 阳02引 (4)、遍历做中得到的记录ID号的移动轨迹记录来计算每条候选频繁项的支持 度;
[0023] 巧)、3-频繁项集L3的获取同样是需要将3-频繁项拆分成若干个单独的1-频繁 项,其余计算过程和2-频繁项集L2相同,依次类推,算出k-频繁项集Lk,直到无法再生成 频繁项为止。
[0024]与现有技术相比,本发明的优点在于:将移动节点移动轨迹的时间属性与空间属 性一同作为挖掘对象数据,充分考虑了移动轨迹的时间和空间双重属性,并且在由候选频 繁项集生成频繁项集的过程中,缩小了移动轨迹数据集扫描范围,减少了获取候选项集的 时间,从而达到低消耗的目的,相较于传统Apriori方法,本发明提供的Apriori方法适用 用于挖掘智能移动终端的移动轨迹关联规则。
【附图说明】
[0025] 图1为本发明实施例中低消耗的Apriori方法流程图。
【具体实施方式】
[0026]W下结合附图实施例对本发明作进一步详细描述。
[0027] 如图1所示的低消耗的Apriori方法,用于对智能移动终端的移动轨迹的关联移 动规则进行挖掘,其特征在于,包含如下步骤:
[0028] 步骤一、使用迭代方法挖掘对象数据集中所有频繁项集,并记录每个频繁项集的 日期,计算每个频繁项集的支持度;该步骤中,将智能移动终端的移动轨迹的时间属性与空 间属性一同作为挖掘对象数据,用事务数据库D表示智能移动终端的移动轨迹数据集,每 条事务条目用移动轨迹记录表示,每条移动轨迹记录则用多个轨迹数据组成,轨迹数据用 Pl,P2,…Pn2,Pn表示,其中Pn=KCn,0kEC,t正T},代表移动节点在时间点tn接入了路 由器C。,集合C代表移动节点日常经过的所有接入路由器,T代表每天划分的X个时间段集 合,X= 12或24或48或72 ;并引入记录ID号来标识每一条智能移动终端的移动轨迹;所 述步骤一具体由如下方式实现:
[0029] (1)、首先遍历整个事务数据库D获得1-候选项集。,然后计算1-候选项集。中 每个候选项的支持度,同时标识出包含该候选项的所有记录ID号,最后删除1-候选项集。 中支持度小于最小支持度阔值的候选项,就得到了 1-频繁项集Li;
[0030] 似、利用1-频繁项集Li进行内连接运算计算出2-候选项集C2,计算2-候选项 集C2中每个候选项的支持度是通过将2-候选项集C2中每个2-候选项拆分成若干个单独 的1-频繁项;运里内连接运算为现有常规技术;
[0031] (3)、找出所有(2)拆分出的1-频繁项中支持度最小的1-频繁项,同时找出所有 包含该1-频繁项的记录ID号; 阳03引(4)、遍历做中得到的记录ID号的移动轨迹记录来计算每条候选频繁项的支持 度,最后删除2-候选项集C2中支持度小于最小支持度阔值的候选项就得到了 2-频繁项集 L2;
[0033] 巧)、3-频繁项集L3的获取同样是需要将3-频繁项拆分成若干个单独的1-频繁 项,其余计算过程和2-频繁项集L2相同,依次类推,算出k-频繁项集Lk,直到无法再生成 频繁项为止;
[0034] 步骤二、利用步骤一得出的频繁项集,生成移动节点所有可能的关联移动规则,并 计算每条移动规则的置信度;该步骤中生成移动节点所有可能的关联移动规则过程与传统 Apriori方法相同,计算每条移动规则的置信度的方法也与传统Apriori方法相同,即为现 有常规技术,此处不再详细描述现有常规技术;
[0035] 但不同的是,在该步骤中,需要同时记录移动节点每条关联移动规则的日期W及 计算每条关联移动规则日期的远近变动因子;同时,根据记录的日期和计算的日期远近变 动因子,计算每条关联移动规则的日期加权值TWei曲t(时,从而得到强关联性移动规则,其 中,每条关联移动规则日期对应的远变动因子m和近变动因子n计算公式如下:
[0036]
[0037] 每条关联移动规则的日期加权值TWei曲t(R)计算公式如下:
[0038]
[0039] 其中,Ruinate、MaxDateW及MinData分别表示移动规则的日期、移动轨迹数据 集中最近的记录日期与最远的记录日期;m为移动轨迹数据集中的最近记录日期MaxDate 的变动因子,即近变动因子;n为移动轨迹数据集中的最远记录日期MinData的变动因子, 即远变动因子;K为该移动规则日期Ruinate所在月的总天数,Ruld)atek表示该月中第k 天的日期值;例如,该移动规则日期Rul油ate为2月27日,则K= 28 ;Ruld)ate25= 25 ;又 如,该移动
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1