用于统计显著性模式的搜索大数据空间的方法

文档序号:9631565阅读:456来源:国知局
用于统计显著性模式的搜索大数据空间的方法
【技术领域】
[0001] 本发明涉及一种用于统计显著性模式的搜索大数据空间的方法,更具体地,涉及 一种利用树结构、截断算法、划分方案以及分布式处理系统来统计显著性模式的搜索大数 据空间的方法。本发明的应用包括但不限于在分布式处理系统上处理大数据,例如社会媒 体数据、科研数据以及工业处理数据。
【背景技术】
[0002] 在大数据分析时代,自动发现定性和定量统计显著性模式已经成为一项基本任 务。然而,随着现有数据量的日益增长,尤其是当数据太大而不能存储于单个计算机时,发 现完整的固有模式和规律被证明是很重要的,尤其是当域知识不可用、太薄弱或者不理想 时的假设生成阶段。
[0003] 假设分析域由N个属性(特征或变量)表示。对于该N个属性中的每个属性,都 具有可能值的值域。模式发现的目的在于通过观察到的发生发现该属性和/或其值之间的 关系。如果该关系本身是统计的,并且我们需要努力发现统计显著性关系,该模式就变成利 用包含Μ个观察数据(样品或记录)的观察集D,在由N个属性作为特征的域内搜索统计显 著性关系的过程。
[0004] 首先,严格意义来讲,在统计模式发现中,高阶模式不会由低阶模式引出,反之亦 然。这意味着只有通过统计显著性检验的模式才算是模式。从另一角度看,它意味着必须对 整个问题域进行探索。在处理穷举检索尚为可行的小问题域中,这种现象重要性较低。然 而当处理的问题域变大时,我们就要面对严峻的考验。
[0005] 由于维数的原因,对不同阶的候选项进行穷举域检索不再可行。减小搜索空间的 策略变得有必要。此外,如果域非常大,则在单计算单元上运行搜索空间减小策略在计算上 又会变得不可行。理想化地,解决方案应该是允许大量独立的候选项生成辅助在子域同时 工作,同时不会彼此影响的分布式算法。对于较大的问题,工作辅助的数量会增加,而对于 较小的问题,工作辅助的数量会减少。从统计检验角度上看,数据的原子操作为对出现次数 计数。当数据变大时,尤其是当数据不能存储在单个计算单元的主存储器或者甚至本地物 理存储时,发生次数计数的性能就会受到影响。
[0006] 需要提供一种以分布且可扩展的方式为高阶统计模式搜索大数据空间的改进的 系统和方法,从而提供一种利用传统计算设备分析极大数据集合的能力。

【发明内容】

[0007] 本发明实施例提供了一种用于搜索不同阶模式候选项的大数据域的自组织候选 项树算法,该算法利用多种辅助可支持分布计算。在数据域中具有排好序的原子事件列表, 符合要求的树结点通过将其右侧的兄弟结点一一如果存在的话一一变成其子结点,生长到 下一阶(生成下一阶)。
[0008] 有益地,通过这种方式创建的候选项列表可以保证不会遗漏潜在的候选项,同时, 也不存在被重复检验的候选项。
[0009]此外,从任何一个符合条件的结点起,生成的更高阶的候选项具有仅由该直接父 结点包含的信息,这就是它被命名为自组织树的原因。在分布计算环境中,由于工作单元不 需要与其他结点通信,因此这是非常理想的。
[0010] 此外,本发明的实施例提供了一种候选项树删减策略,以删除无信息候选项,从而 避免穷举搜索。该策略可在支持分布计算的本地树分支上操作。如果不再对域的一个子空 间进行探索,则根据删减标准取消结点,然后不会再生成该子空间的其他候选项。
[0011] 本发明实施例提供了一种数据划分方法,该方法在多个分布计算存储之间横向分 布数据,利用多种辅助有效地对发生次数计数。所有表格数据集合为横向划分的。每一个 划分均具有所有属性,但是只具有一部分观察数据,并且位于分布存储系统如Hadoop分布 式文件系统的一个结点上。这种划分策略可保证在对每个分段上的发生计数进行总计,从 而可以获得完整的数据集合中的发生总计数,这使得分布系统如HapoopMapReduce以及 Spark的计数操作极其有效。
[0012] 本发明实施例提供了一种用于从大数据集合中发现高阶统计显著性模式的分布 系统设计。该系统得益于多代理结构,并且可以通过添加新的计算和存储结点处理任意大 数据集。
[0013] 考虑到一般性、通用性、有效性以及灵活性,本发明实施例非常适用于任意大数据 集合的自动模式发现、假设生成、预测模型以及趋势监测。这在大数据分析、数据挖掘、社会 媒体分析、卫生保健、生产以及需要数据分析的其他领域具有明显应用。
[0014] 根据本发明第一方面,提供了一种用于统计显著性模式的搜索大数据空间的方 法。该方法包括以下步骤:从具有多个观察数据的数据集合中采集具有多个属性的原始事 件;通过设置虚拟根,并以排序顺序将不同属性的原始事件作为虚拟根的下一级别的结点, 初始化树结构;通过每次选择结点中的一个叶结点,并将被选择叶结点右侧的兄弟结点变 成其子结点,每个叶结点逐次进行,使树结构生长到下一级别;通过从虚拟根遍历到叶结 点,从树结构中生成具有至少两个具有不同属性的原始事件的复合事件;验证每个复合事 件是否满足预先确定的标准;如果该复合事件不能满足预先确定的标准,则将包含该不符 合条件的复合事件的其他复合事件从树结构中取消;如果该复合事件满足预先确定的标 准,则它变成模式候选项,然后验证该模式候选项是否为统计显著性模式;以及在生长树结 构的步骤后重复这些步骤,直到该树结构的级别达到预定义的阶限制或者不能再生成新的 子结点。
[0015] 根据本发明第二方面,提供了一种用于统计显著性模式的搜索大数据空间的分布 式处理系统。该系统包括多个存储结点,该存储结点用于存储从具有多个观察数据的数据 集合中划分的数据片、从具有多个观察数据的数据集合中采集具有多个属性的原始事件, 并且通过设置虚拟根,并以排序顺序将原始事件作为虚拟根的下一级别的叶结点,初始化 树结构,还包括多个计算结点,该计算结点为属于同一父结点的具有不同属性的结点集合 而分配,并且为该结点集合执行以下步骤:通过每次选择结点组合中的一个叶结点,并将被 选择叶结点右侧的兄弟结点变成其下一级别的子结点,每个叶结点逐次进行,使树结构生 长到下一级别;从树结构中生成具有至少两个具有不同属性的原始事件的复合事件;验证 每个复合事件是否满足预先确定的标准;如果该复合事件不能满足预先确定的标准,则将 包含该不符合条件的复合事件的其他复合事件从树结构中取消;如果该复合事件满足预先 确定的标准,则将它变成模式候选项,然后验证该候选项是否为统计显著性模式;以及在生 长树结构的步骤后重复这些步骤,直到该树结构的级别达到预定义的阶限制或者不能再生 成子结点。
[0016] 根据本发明第三方面,提供了一种包括用于统计显著性模式的搜索大数据空间的 程序代码的计算机可读介质。该程序代码执行以下步骤:从具有多个观察数据的数据集合 中采集具有属性的原始事件;通过设置虚拟根,并以排序顺序将不同属性的原始事件作为 虚拟根的下一级别的叶结点,初始化树结构;通过每次选择结点中的一个叶结点,并将被选 择叶结点右侧的兄弟结点变成其下一级别的子结点,使树结构生长到下一级别;通过从虚 拟根遍历到叶结点,从树结构中生成具有至少两个具有不同属性的原始事件的复合事件; 验证每个复合事件是否满足预先确定的标准;如果该复合事件不能满足预先确定的标准, 则将包含该不符合条件的复合事件的其他复合事件从树结构中取消;如果该复合事件满足 预先确定的标准,则它变成模式候选项,然后验证该候选项是否为统计显著性模式;在生长 树结构的步骤后重复这些步骤,直到该树结构的级别达到预定义的阶限制或者不能再生成 子结点。
[0017] 通过下文详细描述并结合附图,本发明的特征和有益效果会更加明显。从这方面 讲,在详细解释本发明至少一个实施例之前,需要理解本发明的应用并仅不限于下文描述 及其提供的示例中,或者附图描述中提出的结构细节以及元件的布置。本发明可能根据其 他实施例实现,并且可以多种方式实现和执行。此外,应该理解此处采用的用语和术语仅做 描述和协助理解的目的,不作为对本发明的限制。
【附图说明】
[0018] 图1A-1D描述了根据本发明一实施例的一种生成树结构的方法,其可用于通过提 取给定原始事件的所有组合以生成复合事件;
[0019] 图2为描述利用自组织候选项树和截断方案发现统计模式的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1