大量数据关系的表示的制作方法_2

文档序号:9631564阅读:来源:国知局
个数据事件表示为顶点;将该多个数据关系表示为超边;并将该数据事件和数据关系的 性质表示为分别与该顶点或超边相关的属性。
[0023] 根据本发明的第三个方面,提供了一种利用数据关系操作大数据的方法。该方法 包括以下步骤:提供具有多个数据事件、两个或多个数据事件之间的数据关系,其中该数据 事件表示为顶点,而该数据关系表示为超边,并且该数据事件和数据关系的性质分别表示 该顶点和该超边的属性;数据集合由数据源生成,满足无论在数据集合中是否存在任何统 计模式,该数据源中的所有数据事件被收集;并且当数据事件、数据关系以及性质中的至少 一个发生改变时,更新数据集合。
[0024] 根据本发明的第四个方面,提供了一种利用数据关系检索大量数据的方法。该方 法包括以下步骤:提供具有多个数据事件、该多个数据事件之间的数据关系,其中该数据事 件表示为顶点,而该数据关系表示为超边,并且该数据事件和数据关系的性质分别表示该 顶点和该超边的属性;数据集合由数据源生成,满足无论在数据集合中是否存在任何统计 模式,该数据源中的所有数据事件被收集;接收标准;检索与该标准相关的顶点和/或超 边;以及输出检索结果。
[0025] 通过下面的详细描述并结合附图,本发明的特征和优势会更加明显。
【附图说明】
[0026] 图1为根据本发明一实施例的表示数据集合的方法的流程图;
[0027] 图2显不了根据本发明一实施例的具有8个顶点和5个超边的不例性超图;
[0028] 图3显示了根据本发明一实施例的具有X0R关系的模式的数据集合表示。
【具体实施方式】
[0029] 在本发明中,对给定要素的描述或者在具体附图中对具体要素标号的考虑和使 用,或者在对应描述性内容中对附图的参考均包括同样的、等同的或者类似的要素,或者在 另一附图中确定的要素的标号,或者与其相关的描述性内容。除特别说明外,附图或相关文 本中使用的"/"应理解为"和/或"。
[0030] 根据本发明一实施例,该属性超图应该用于表示数据关系,理由如下:
[0031] 首先,由于引起多于两个事件的模式为关注焦点,因此必须使用可以表示多事件 之间的关系的框架。第二,在概率推理和很多其他AI技术中,网络表示被广泛应用。网络 是一种可以被看作超图特例的图形。网络清楚地描述了两个节点之间的关系。然而,网络 很难表示任何两个关系之间均不相关的三个事件之间的关系。为了阐述这一问题,人们会 想到珀尔的文章中描述的实验:有两个硬币和一个响铃,当两个硬币的结果相同时,响铃发 出响声。如果忽略响铃,则硬币结果 称之为C1和C2 彼此独立,但是如果注意到响 铃(B),则通过习知一个硬币的结果,就会改变对另一个硬币的想法,即C1和C2不再彼此独 立。如何利用图形(或网络)表示硬币和响铃,或者任何导致共同结果的两个原因的简单 相关性呢?如果采用朴素法并将链接分配给(B,C1)和(B,C2),使C1和C2无链接,则可获 得图形C1-B-C2。该图形表明在B给定的情况下,C1和C2为不相关的。如果将链接添加到 C1和C2之间,则图形就会演变为完整的图形,该图形不再反映两个硬币实际不相关的明显 事实。
[0032] 实际上,这些类型的相关性随处可见。近些年来,定向非循环图形已经开始用来表 示这些相关性。虽然定向非循环图形表示比非定向图形表示更灵活,并且可获取更大集合 的概率独立性,但是它还存在一些重要的缺点。首先,不是所有的由非定向图形表示的相关 性都可以由定向非循环图形表示。第二,相比于非定向图形表示,其计算和表示复杂度会增 加。第三,该定向非循环图形不能表示珀尔在文章中提到的概率模型引起的相关性类型。珀 尔在文章中包括以下内容:
[0033] "……图形表示不能区分集合间连通性和其元素之间的连通性。换言之,在定向和 非定向图形中,两集合顶点之间的分离由其对应单独元素间的成对分离确定。另一方面,在 概率论中,元素的独立性并不意味着集合的独立性......"
[0034] 然而根据本发明的属性超图表示,低阶关系不会引起高阶关系。这种表示法不依 赖成对链接。该超图为显示其中元素之间的关联的集合,其中该元素本身也可以是集合。然 而,所提出的超图表示的基本元素不是变量,而是原始事件或者数据事件。即相关性发生在 事件之间,而非变量之间。在响铃-硬币实验中,如果响铃可以发出三种声音,只有第一种 声音,例如哔声两次,表示两个硬币是否出现相同的结果。其他信号与硬币无关(例如,它 们表示其他事件的情况)。则事件【B=哔声两次】,而非B,与硬币的结果相关。在超图表 示中,超图【B=哔声两次;C1=正面;C2=正面】和【B=哔声两次;C1=反面;C2=反面】 显示了它们之间的关系。
[0035] 不同大小的超图反映了不同级别的概括。超边中顶点数量越多,概念(模式)中 包含的细节就越多。较小的超图通常表示更通用的概念(模式)。超图表示的一个优势在 于,它可以很容易地在不同的通用性级别之间移动,而图形和网络表示是做不到(或者具 有更高的难度)的。
[0036] 构建属性超图的过程是完全面向世界"透明"的。
[0037]与关系(或列存储)数据库不同,基于AHG的系统在存储器被填充数据之前不需 要进行大量的结构设计。链接和索引动态创建,并且不需要归一化。自然地,支持即席查询。 AHG表示从概念上讲是高效的。与其他图形表示相同,各种成熟算法可直接用于实现如搜 索、匹配和转换的目标。该AHG表示在计算上同样是高效的。
[0038]根据本发明一实施例,数据关系可以作为超图存储在计算机或计算机网络中,以 备查询和进一步分析。该表示法简单但具通用性,足以直接对从数据源、大数据库或具有任 意属性的原始数据关系中发现的不同阶的关联模式进行编码。定性(A和B是否相关)和 定量关系(A和B在95%的时间里相关)均被表示为属性超图。该表示不仅在可视化方面 明晰且透明,而且可用于操作和检索。
[0039]根据本发明一实施例的表示方法支持即席和复杂关联查询,同时不需要预先结构 设计或者重构。因此,计算机存储和检索系统(例如数据库)可以容易地实现存储并且以 AHG形式操作大量的关系。这对于来自于包括但不限于社会媒体、生产和科研的机器和人类 生成数据源的统计模式非常重要和有用。
[0040] 根据本发明的一实施例,计算机系统中的包含数据事件形式的大量数据的数据集 合可以用下述数据关系表示。
[0041] 假设做了有限次观察的数据域的数据集合,根据本发明,该观察总体构成了变量 及其值的有限集合,D=Xl 11 =i=M,其中Μ为有限整数。D的分量为数据集合中具有意 义的任何可能值。例如,成年=真,可以为分量,同样如果它们属于同一个数据集合,年龄范 围在(25, 50)或者薪水=$60, 000也可以是分量。成年、年龄和薪水为变量,而这些变量均 具有值:真、(25, 50)以及$60, 000。
[0042]数据事件、原子事件,或者简称事件,被定义为数据集合的分量。因此,该数据集合 中的任何值,如成年=真以及年龄e(25,50)可以是该数据集合中的数据事件。如果有意 义,两数据事件间的关系也可以是数据事件,如Xi〈X2,Xi#XjPXi/X2= 2. 5。
[0043] 复合事件,或简称为合成,为数据事件的集合和/或另一复合事件。该复合事件的 阶为其基数。任何第一阶复合事件为数据事件。因此,【成年=真,年龄e(25,50)】为第二 阶复合事件。合成的子合成为该合成的子集合。
[0044]任何数据事件或者分量事件在数据域内可具有如其发生概率的性质或属性,或者 更复杂的条件。例如,在挖掘统计重要关联中,如果复合事件通过重要测试T时,c成为重 要的模式。根据测试T,该元素c则具有统计重要关联,或者他们仅为关联的。在这种情况 下,该复合事件可与具有可信度和其他统计条件的T发生联系。这可以是该复合事件的性 质或属性。
[0045] 为了描述和帮助理解,下面定义一些基本概念。
[0046] "超图"被定义为表示数据结构的图。令Y= {y^yyyn}为有限集合(n〈 °°)。Y上的超图为Y子集的族Η=沉,E2,…,Em) (m〈 )的表示,满足:
[0047]1.E#Φ(i= 1,2,…,m),以及
[0048] 2. 〇场:::丫 ,;w{
[0049] 超图由顶点、超边以及其属性构成。Y的元素yi,y2-yn被称为顶点,并且集合Eρ Ε2,…,E"(Y的子集)为该超图的边,或者简单地称为超边。
[0050] "简单超图"被定义为超边(EpE;;,…上)满足Ei=E>i=j的超图H。除非 特别指出,本说明书中提到的超图表示简单超图。
[0051] "超图Η的阶"用n(H)表示,为该超图顶点的个数。该边的个数用m(H)表示。此 外,Η的秩为该超边中顶点的最大数量,即而反秩为超边中顶点数的最小数 量,即S(H)=
[0052] 对于集合JC{丨,2….},族:
[0053] Hr =(EjljeJ)
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1