一种随机型分布式数据流频繁项集挖掘系统及其方法

文档序号:6602848阅读:206来源:国知局
专利名称:一种随机型分布式数据流频繁项集挖掘系统及其方法
技术领域
本发明属于数据流处理技术,具体地说,是一种随机型分布式数据流频繁项集挖 掘系统及其方法。
背景技术
数据流是由一系列高速、实时、无限、有序到达的数据组成的数据序列,数据流数 据广泛地存在于日常生活的多个领域中,例如,网络流量监控、气象监测、传感器网络数据 管理、Web日志分析等。在这些领域中,发现事务数据流的频繁模式具有很重要的意义,例 如,在网络流量监控中,频繁模式可能意味着网络堵塞,而网络堵塞正可能是网络受到攻击 的征兆,当网络中目的地址相同的IP数据包大量出现时,则可能发生了拒绝服务攻击;在 气象监测领域,气象台每天都要实时地处理由气象卫星传输回地球的卫星云图、地表状况、 大气湿度分布、降水区和降水量的分布等重要的气象信息;在传感器网络中,传感器时刻 检测其工作区域内的情况,从而产生大量的检测数据,同时通过无线网络将数据源源不断 地传输到处理中心,处理中心的数据分析服务器必须实时地对这些检测数据进行分析和处 理,来判断受监控的区域是否正常。在数据挖掘中,频繁模式挖掘无论在理论还是应用上均得到了广泛的研究并取得 了非常多的成果,出现了许多经典的算法,但是这些算法难以增量式更新,不适合数据流挖 掘,因为挖掘频繁模式是一系列连续操作的集合,在看到所有过去和将来的数据之前,任何 项集的计算不可能完整地完成,使得在数据流环境中挖掘和更新频率模式变得困难;与对 静态数据集的挖掘相比,数据流有更多信息要追踪和更复杂的情况要处理,频繁项集会随 着时间而变化,非频繁项在后来可能成为频繁项也不容忽视,存储结构需要动态调整以反 映频繁项集随时间变化的情况。目前,传统的数据流频繁项集挖掘方法都是基于事务数据项,采用集中式的挖掘 模式,时间效率和空间效率都比较低,对于大量的数据不能满足用户实时性的要求。

发明内容
本发明所要解决的技术问题是,提供一种挖掘精度和运行效率高,能够满足用户 大量数据流应用实时性要求的随机型分布式数据流频繁项集挖掘系统,并提供内存空间占 用小,响应速度快,同时能够通过增加频繁项集挖掘器数量或反馈次数来确保模式挖掘的 覆盖率的随机型分布式数据流频繁项集挖掘方法。本发明基于数据项事务的频繁项集挖掘模式的构思,解决其技术问题采用的技术 方案是,一种随机型分布式数据流频繁项集挖掘系统,其特征是,它包含有—数据项分割器,用于将事务中所包含的不同项按项进行分割,并将分割的若干 数据项分别发送至η个频繁项集挖掘器;η个频繁项集挖掘器,根据基于频繁项事务的频繁项集挖掘方法,对若干个数据项 挖掘频繁项集;
一频繁项集存储器,用于汇总存储挖掘器挖掘出的频繁项集;一频繁项随机混合器,将数据项顺序随机混合后,反馈n+1次至数据项分割器。一种随机型分布式数据流频繁项集挖掘方法,其特征是,它包括以下步骤(1)当数据流到达数据项分割器时,根据数据流中不同事务到达的顺序将前N个 事务组成的一个基本窗口《,对窗口中的每个不同项im用一个长度为N+1的一维数组存储, 其中所述一维数组中的第一项表示频繁项,后N项表示N个事务中是否包含此频繁项,包含 则取1,否则取0,将生成的m个数组分成[m/n]组,分别发送至η个频繁项集挖掘器;(2)在频繁项集挖掘器中通过对不同的“频繁项_事务”进行与操作以挖掘频繁项 集,并将挖掘出的频繁项集汇总至频繁项集存储器存储,设定最小支持度阈值s和用户允 许误差ε,其中s的取值范围为(0,1),0< ε << s,将产生的m个一维数组两两与运算, 生成新的长度为N+1的数组,其中第一项为频繁项集,将新生成的数组的后N项求和,如果超出最小支持度计数,则生成频繁项集,其中 所述最小支持度计数为最小支持度阈值s与事务数N的乘积,重复对窗口中的每个不同项 im用一个长度为N+1的一维数组存储,并重复将生成的m个数组分成[m/n]组,分别发送至 η个频繁项集挖掘器,直到产生的频繁项集为空为止;(3)将数据项通过频繁项随机混合器反馈n+1次至数据项分割器,再进行深层次 挖掘。本发明一种随机型分布式数据流频繁项集挖掘系统,首先通过数据项分割器将基 本窗口数量的事务中所包含的不同项分别发送至η个频繁项集挖掘器,不同的数据项附有 其所属事务号,在频繁项集挖掘器中通过对不同的频繁项事务进行与操作以挖掘频繁项 集,并将挖掘出的频繁项集汇总至频繁项集存储器存储,最后将数据项通过频繁项随机混 合器反馈n+1次至数据项分割器,提高挖掘精度。由于频繁项集挖掘器的并行处理以及频 繁项事务的引入,大大提高了数据流挖掘的精度和运行效率高,能够有效的满足用户大量 数据流应用的实时性要求。其方法科学,内存空间占用小,响应速度快,同时能够通过增加 频繁项集挖掘器数量或反馈次数来确保模式挖掘的覆盖率。


图1为本发明的一种随机型分布式数据流频繁项集挖掘系统结构方框图。图2为本发明的一种随机型分布式数据流频繁项集挖掘方法流程图。
具体实施例方式下面利用附图和实施例对本发明作进一步说明。参照图1,一种随机型分布式数据流频繁项集挖掘系统,它包含有一数据项分割器,用于将事务中所包含的不同项按项进行分割,并将分割的若干 数据项分别发送至η个频繁项集挖掘器;η个频繁项集挖掘器,根据基于频繁项事务的频繁项集,对若干个数据项挖掘频繁 项集;一频繁项集存储器,用于汇总存储挖掘器挖掘出的频繁项集;一频繁项随机混合器,将数据项顺序随机混合后,反馈n+1次至数据项分割器。其中n频繁项集挖掘器数目;N基本窗口中事务数#基本窗口 ;im第m个数据项;m数据项个 数、亦即一维数组个数;s最小支持度阈值;ε用户允许误差。数据项分割数据见表1 当数据流中N个事务到达时组成一个基本窗口 W,对窗口中的每个不同项im用一 个长度为N+1的一维数组存储,其中所述一维数组中的第一项表示频繁项,后N项表示N个 事务中是否包含此频繁项,包含则取1,否则取0。参照图2,一种随机型分布式数据流频繁项集挖掘方法,它包括以下步骤(1)当数据流到达数据项分割器时,根据数据流中不同事务到达的顺序将前N个 事务组成的一个基本窗口《,对窗口中的每个不同项im用一个长度为N+1的一维数组存储, 其中所述一维数组中的第一项表示频繁项,后N项表示N个事务中是否包含此频繁项,包含 则取1,否则取0,将生成的m个数组分成[m/n]组,分别发送至η个频繁项挖掘器;(2)在频繁项集挖掘器中通过对不同的“频繁项_事务”进行与操作以挖掘频繁项 集,并将挖掘出的频繁项集汇总至频繁项集存储器存储,设定最小支持度阈值s和用户允 许误差ε,其中s的取值范围为(0,1),0< ε << s,将产生的m个一维数组两两与运算, 生成新的长度为N+1的数组,其中第一项为频繁项集,将新生成的数组的后N项求和,如果超出最小支持度计数,则生成频繁项集,其中 所述最小支持度计数为最小支持度阈值s与事务数N的乘积,重复对窗口中的每个不同项 im用一个长度为N+1的一维数组存储,并重复将生成的m个数组分成[m/n]组,分别发送至 η个频繁项挖掘器,直到产生的频繁项集为空为止;(3)将数据项通过频繁项随机混合器反馈n+1次至数据项分割器,再进行深层次 挖掘。本发明的数据项分割器为浪潮英信若干F5280服务器;频繁项集挖掘器为浪潮英 信若干F5120服务器;数据项集存储器为浪潮英信若干F5280服务器;频繁项随机混合器 为浪潮英信若干F5120服务器;均为市售产品。数据项分割器、频繁项集挖掘器、数据项集存储器和数据项集存储器的各软件程序依据各自的功能和用途,采用信息自动化、计算机 处理等技术编制,其软件程序的编制是本领域技术人员所熟悉的技术。
权利要求
一种随机型分布式数据流频繁项集挖掘系统,其特征是,它包含有一数据项分割器,用于将事务中所包含的不同项按项进行分割,并将分割的若干数据项分别发送至n个频繁项集挖掘器;n个频繁项集挖掘器,根据基于频繁项事务的频繁项集,对若干个数据项挖掘频繁项集;一频繁项集存储器,用于汇总存储挖掘器挖掘出的频繁项集;一频繁项随机混合器,将数据项顺序随机混合后,反馈n+1次至数据项分割器。
2.一种随机型分布式数据流频繁项集挖掘方法,其特征是,它包括以下步骤(1)当数据流到达数据项分割器时,根据数据流中不同事务到达的顺序将前N个事务 组成的一个基本窗口《,对窗口中的每个不同项im用一个长度为Ν+1的一维数组存储,其中 所述一维数组中的第一项表示频繁项,后N项表示N个事务中是否包含此频繁项,包含则取 1,否则取0,将生成的m个数组分成m/n组,分别发送至η个频繁项集挖掘器;(2)在频繁项集挖掘器中通过对不同的“频繁项_事务”进行与操作以挖掘频繁项集, 并将挖掘出的频繁项集汇总至频繁项集存储器存储,设定最小支持度阈值s和用户允许误 差ε,其中s的取值范围为(0,1),0< ε << s,将产生的m个一维数组两两与运算,生成 新的长度为N+1的数组,其中第一项为频繁项集,将新生成的数组的后N项求和,如果超出 最小支持度计数,则生成频繁项集,其中所述最小支持度计数为最小支持度阈值s与事务 数N的乘积,重复对窗口中的每个不同项im用一个长度为N+1的一维数组存储,并重复将生 成的m个数组分成m/n组,分别发送至η个频繁项挖掘器,直到产生的频繁项集为空为止;(3)将数据项通过频繁项随机混合器反馈n+1次至数据项分割器,再进行深层次挖掘。
全文摘要
本发明是一种随机型分布式数据流频繁项集挖掘系统,采用全新的频繁项事务的分布式数据流挖掘模式,并引入随机型频繁项混合器提高挖掘精度,数据流中到达基本窗口数量的新事务时,按事务中所包含的不同项根据数据项分割方法分别发送至n个频繁项集挖掘器,不同的数据项附有其所属事务号,在频繁项集挖掘器中通过对不同的频繁项事务进行与操作以挖掘频繁项集,并将挖掘出的频繁项集汇总至频繁项集存储器存储。最后将数据项通过频繁项随机混合器反馈至数据项分割器,进行深层次挖掘。其方法与其它方法相比,具有内存空间占用小、响应速度快等优点,同时能够通过增加频繁项集挖掘器数量或反馈次数来确保模式挖掘的覆盖率。
文档编号G06F17/30GK101887450SQ20101017944
公开日2010年11月17日 申请日期2010年5月19日 优先权日2010年5月19日
发明者孟凡奇, 张亮, 曲朝阳, 李鹏, 王敬东, 程成, 董如意 申请人:东北电力大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1