分布式模式发现的制作方法_4

文档序号:9732067阅读:来源:国知局
类的方法。类似地, 其他设备可W能够从其他非暂时性机器可读存储介质读指令,W实施像方法300、500、600 等运样的方法。作为获取和执行指令的替代或除了获取和执行指令之外,处理器710可包括 包含用于实施指令722、724、726的功能的多个电子组件的至少一个集成电路(1C)、其他控 制逻辑、其他电子电路、或其结合。
[0067] 机器可读存储介质720可为包含或存储可执行指令的任意电子的、磁性的、光学 的、或其他物理的存储设备。因此,机器可读存储介质可为例如随机存取存储器(RAM)、电可 擦除可编程只读存储器巧EPROM)、存储驱动、光盘只读存储器(CD-ROM),等等。因此,机器可 读存储介质可为非暂时性的。如本文详述的,机器可读存储介质720可被编码有用于建立候 选项集的一系列可执行指令。
[0068] 计算设备可执行通信指令726, W向其他设备发送通信W及从其他设备接收通信。 在一个实施例中,计算设备从一个或多个单项计数节点104接收单项项集。计算设备700可 表示一组事务项集生成器节点中的一个节点。可基于负载均衡方法,决定对应的单项项集 被发送至计算设备700、或由计算设备700接收。在一些示例中,可使用映射/归约方法或 STORM。此外,单项项集可对应于其对应的事务集大小大于阔值(例如,大于阔值Cl)的对应 项。运些可W在可从一组事务项节点102接收项对的一个或多个单项计数节点104处被处 理。如上所述,事务项节点102可从数据收集器接收要分析的数据。
[0069]计算设备可维护事务-频繁项集表。当项集及其事务ID的新对流入时,可执行项集 计数器指令724W检查该表。如果其为新的单项集或项集大小未达到事务的阔值(例如,最 大项大小),则可执行项集生成器指令722, W尝试建立所有可能的新候选项集,该项集具有 大小=[进入的项集].大小+1,且元素为进入的项集元素加上事务ID的(未在进入的项集中 的)频繁单项中的一个。因此,如果对应的单项项集是新的项项集,或对应的单项项集的对 应事务集的项集大小低于阔值,则针对对应的单项项集建立新候选项集。输出与其事务ID 配对的新候选项集。在一些示例中,如上所述,输出是到一组项集计数器节点的输出。
【主权项】
1. 一种用于分布式模式发现的系统,包括: 多个节点,各自包括至少一个处理器和存储器, 其中所述节点中的第一节点是从多个其它节点接收多个项集和事务标识符对的事务 项集生成器节点; 其中所述第一节点确定所述项集和事务标识符对与频繁项集表相比是否是新的; 其中所述第一节点确定对应的项集和事务标识符对是否具有低于事务的阈值项集大 小的计数;以及 如果所述对应的项集和事务标识符对具有低于所述阈值项集大小的所述计数,则所述 第一节点生成与其对应的事务标识符配对的新候选项集,并向所述节点中的第二节点发送 所述新候选项集对。2. 根据权利要求1所述的系统,进一步包括: 所述节点中的作为接收所述新候选项集对的项集计数器节点的所述第二节点; 其中所述第二节点追踪所述新候选项集对中的每个的多个事务集,并且将所述对应的 事务标识符与相同的候选项集的事务集合并,以生成新的元组。3. 根据权利要求2所述的系统, 其中所述第二节点基于一组规则确定所述新的元组是否是频繁项集;且 其中如果所述新的元组是频繁项集,则所述新的元组被发送至所述节点中的第三节 点。4. 根据权利要求3所述的系统,进一步包括: 作为模式输出节点的所述第三节点,其中所述模式输出节点接收所述新的元组并生成 与所述新的元组关联的模式数据。5. 根据权利要求1所述的系统,进一步包括: 所述节点中的维护单项-事务集表的第四节点, 其中如果单项的事务集及其对应的事务标识符的大小大于阈值,则所述单项被标记为 频繁单项,且所述项集和事务标识符对中的一个被生成。6. 根据权利要求5所述的系统,进一步包括: 所述节点中的第五节点,所述第五节点从数据收集器接收事务数据,生成所述单项和 对应的事务标识符,并且向所述第四节点输出所述单项和对应的事务标识符。7. -种用于分布式模式发现的方法,包括: 在第一组节点处接收来自收集器的事务数据; 根据所述事务数据确定多个单项和事务标识符对; 向第二组节点输出所述单项和事务标识符对, 其中所述第二组节点确定所述单项中的每个的事务集的事务大小是否大于阈值,且如 果是,则将对应的单项标记为对应的频繁单项,并生成对应的单项项集, 其中向第三组节点发送所述对应的单项项集和所述对应的事务集。8. 根据权利要求7所述的方法,进一步包括: 在所述第三组节点处接收所述对应的单项项集; 确定所述对应的单项项集是否是新的单项集或者所述对应的事务集的项集大小是否 低于阈值,针对所述对应的单项项集建立新的候选项集; 向第四组节点输出所述新的候选项集和对应的事务标识符。9. 根据权利要求8所述的方法,进一步包括: 在所述第四组节点处接收所述新的候选项集; 将所述新的候选项集事务标识符与所述候选项集的相应事务集合并,以生成新的元 组。10. 根据权利要求9所述的方法,进一步包括: 检查所述新的元组,以基于一组规则确定所述新的元组是否使所述候选项集为频繁项 集。11. 根据权利要求10所述的方法,进一步包括: 向第五组节点输出所述新的元组,其中所述第五组节点生成所述频繁项集的关联模 式。12. -种存储指令的非暂时性机器可读存储介质,所述指令如果由用于分布式模式发 现的设备的至少一个处理器执行,则使所述设备: 接收单项项集; 如果对应的单项项集是新的单项集,或所述对应的单项项集的对应事务集的项集大小 低于阈值,则针对所述对应的单项项集建立新的候选项集,以及 向一组节点输出所述新的候选项集和对应的事务标识符。13. 根据权利要求12所述的非暂时性机器可读存储介质,其中所述对应的单项项集从 多个节点被接收,且与对应的事务集大小大于阈值的对应项相对应。14. 根据权利要求13所述的非暂时性机器可读存储介质,其中所述对应的单项项集进 一步基于在其它多个节点处被处理的数据收集器。15. 根据权利要求13所述的非暂时性机器可读存储介质,其中所述设备被选择为基于 负载均衡接收所述对应的单项项集。
【专利摘要】本文公开的示例实施例涉及分布式模式发现。接收单项项集。如果对应的单项项集是新的单项集,或对应的单项项集的对应事务集的项集大小低于阈值,则针对对应的单项项集建立新的候选项集。向一组节点输出新的候选项集和对应的事务标识符。
【IPC分类】G06F21/55, H04L29/06
【公开号】CN105493096
【申请号】CN201380079165
【发明人】高飞, 赵志鹏, 阿努拉克·辛格拉
【申请人】慧与发展有限责任合伙企业
【公开日】2016年4月13日
【申请日】2013年8月28日
【公告号】EP3039566A1, US20160212158, WO2015030741A1
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1