大量数据关系的表示的制作方法_3

文档序号:9631564阅读:来源:国知局
[0054] 被定义为由集合J生成的"部分超图"。顶点集合H'为Y的非空子集。
[0055] 对于集合ACY,族:
[0056] Ha= (EjflAll^ij^im,EjflA^Φ)
[0057] 被定义为由集合Α引起的"子超图"。
[0058] 超图的"属性"为与超边或顶点相关的数据结构。该顶点和超边的属性为与该顶 点和超边相关的数据事件和数据关系的性质。并且"属性超图"或"AHG"为满足每个超边 和顶点具有属性的超图。
[0059] 根据本发明一实施例的AHG表示,每个顶点表示一个分量,或者数据域或数据集 合的数据事件。每个模式或者顶点之间的关联为由超边表示的合成。该超边的秩(反秩) 为该模式的最高(最低)阶。
[0060] 需要注意,在本发明中,由超边表示的顶点之间的关联不一定必须为模式、统计性 的重要模式或者统计模式。任何种类的关联,即使是在数据集合中发现的任意成对变量及 其值者可以用顶点表示。换言之,在给定数据集合中发现的所有数据事件都可以是或者是 被收集并表示为顶点。如下文将要描述的,这使得本发明的实施例可以提供用于进一步分 析的方法,例如从数据集合中操作和检索数据。
[0061] 对于事件e,超图Η中具有中心e的星H(e)表示所有与事件e相关的模式。令A 为所有分量的子集,则超图Η中由A引起的子超图表示A中的事件关联。
[0062] 下面的列表给出了本发明实施例中模式表示中的一些超图术语及其对应的意义。
[0063] 鲁超图中的每个顶点为数据域中的分量(或数据事件或原子事件);
[0064] 鲁每个超边为合成,表示数据域中的关系(或模式);
[0065] 鲁超图的阶为在数据域中出现的分量的数量;
[0066] 鲁超图的秩为该模式在数据域中的最高阶;类似的,反秩为模式的最低阶;
[0067] ?对于分量(数据事件或者原子事件)xi,超图Η中具有中心xi的星H(xi)表示 与分量xi关联的所有模式;
[0068] ?令A为所有分量的子集,则由A引起的超图Η的子超图表示A中组件之间的关 联。
[0069] 顶点和超边的属性均可依赖考虑范围内的应用(s)以及数据集合。为了分析和建 模目的,用于后续推理过程的必要信息要包括在属性中。
[0070] 在本发明一实施例中,每个顶点的属性为对应分量的边缘概率。每个超边的属性 可包括该合成(复合事件)的概率,该合成的期望概率,或者低一阶的子合成的概率。所有 这些属性用于检索和/或推理过程。因此根据本发明,超边描述或表示了其基本顶点之间 的定性关系,而与该超边和顶点相关的属性定量或者表示该关系。
[0071] 图1描述了根据本发明一实施例的表示数据集合的方法的流程图。
[0072] 在步骤S11中,提供了一种具有多个数据事件、多个数据事件之间的多个数据关 系以及该数据事件和数据关系的属性的数据集合。替换性地,该数据集合为m个数据关系 R= {η,r2,…,rn}的有限集合,其中r; (1彡i彡m)为包含m个数据事件或原子事件的有 限集合的数据关系,即A=X| 1彡j彡m。
[0073] 需要注意的是,数据集合不一定要包含模式、统计性的重要模式或者统计模式。并 且无论在多个超边中是否存在统计模式,所有的数据事件都可以从该数据集合中收集。该 数据事件可以是见于该数据集合中的任何变量-值对。
[0074] 在步骤S12中,多个数据事件表示为顶点。即在该表示中,所有的原子数据事件 Xj(例如变量-结果对)为顶点。
[0075] 在步骤S13中,多个数据关系表示为超边。两个或多个数据事件或者多个数据事 件之间的任何关系A均被表示为超边。
[0076] 在步骤S14中,属性超图中的每个顶点或超边具有与其关联的数据结构,其属性 表示其性质。该数据事件和数据关系的性质表示为与该顶点或超边关联的属性。整个数据 关系R构成了属性超图(AHG)。
[0077] 根据利用AHG的数据集合表示,该数据集合可被操作和更新。此外,利用该数据集 合表示,可以直接检索数据关系。
[0078] 例如,根据实施例,可以通过创建无顶点、超边和属性的空AHG构建或初始化该数 据集合。通过将顶点、超边及其可选属性添加到已经存在的数据集合表示中,创建该数据集 合的数据区或数据事件。通过改变属性、添加新的顶点以及/或者超边,移除顶点及其关联 超边/属性,以及删除超边实现对该数据集合的更新。根据给定标准或关键字搜索出顶点、 超边和属性,从数据集合中检索出数据。可通过删除所有相关顶点、超边,它们的属性以及 对应的数据本身实现对数据区或数据事件的移除。
[0079] 此外,如果新的实例中需要对数据域& (变量或其值)进行分类,仅包含有数据 事件或者&中其性质的超边令人感兴趣。如果该系统在之后被要求寻找与事件乂 2 =真 相关的模式,则仅关注包含该事件的超边。由于存在大量图形方面的成熟的算法,这些 操作在计算上是高效的。如Agrawal,Imielinski和Swami在1993年12月发表于EEE Trans,onKnowledgeandDataEngineering,5 (6) : 914 - 925 的题为"Databasemining:A performanceperspective"的文章中指出的,大多数数据库挖掘问题可分为三类:关联性、 分类以及顺序/排序。在AHG框架中,事件之间的关联性用超边表示。当类标签被当作具 有特殊属性的分量时,分类永远可以被看作利用与该特殊区相关的模式来预测新对象的归 属关系。该序列问题只是与作为其中一个属性的时间标记关联的特例。
[0080] 基于根据一实施例的前述表示,可以设计并实现数据模式操作功能。基本运算符 与其他数据管理系统中可用的运算符类似。
[0081] 根据本发明一实施例,AHG专用运算符如下:
[0082] ·HighestOrderO和LowestOrderO,用于查找检测关系的最高(最低)阶;
[0083] ·GetOrder(),用于获取给定数据模式的阶;
[0084] 鲁LinkO,用于确定两个分量是否是任何方式与特定事件关联,以及用于提取的 FindSubEvent()〇
[0085] 图2显示了根据本发明一实施例中,具有8个顶点和5条超边的示例性超图。 [0086] 在图2所示的超图中,具有8个顶点(x^x2,x3,x4,x5,x6,x7,xs)和5条超边 (ΕρE2,E3,E4,E5)。顶点用点表示,而超边用连接或者包围该关联点的线表示。如图2所示, 已 1超边表示X3、xJPX5之间的关系;E2表示X5和Xs之间的关系;E3表示X6、x#PXs之间的 关系,E4表示x2、x3、x7之间的关系,而E5表示XJPx2之间的关系。即使图2中并没有指出 任何属性,但是每个顶点和超边都具有其属性。
[0087] 例如,假设数据集合中包含关于动物的数据。该数据集合描述了具有变量的生物, 例如羽毛、乳汁、有齿、#条腿、尾巴、卵生、水栖以及类型。则顶点包括羽毛=真、羽毛=假、# 条腿=2、#条腿=4、类型=鸟类、类型=哺乳类等等。假定超图E1表示关系(羽毛=真、 乳汁=假、类型=鸟类),另一个超图假定为E2,表示另一种关系(水栖=假,#条腿=4、卵 生=假),诸如此类。
[0088] 每一个顶点和超边具有与其相关的属性,使其成为属性超图。根据一实施例,一个 可能的属性为数据集合的发生边缘概率。与顶点对应的数据事件的概率可为顶点的属性, 而与超边对应的复合事件的概率为给定数据集合中的超边的属性。
[0089] 对于上述示例,数据事件发生的概率可以是边缘概率,即该数据事件在数据集合 中发生的概率。此外,该复合事件的概率可以是复合事件在数据集合中发生的概率。该复 合事件的概率可以是真实的发生概率,或者是基于构成该复合事件的数据事件的边缘概率 计算的概率。
[0090] 根据本发明的实施例的数据表示可应用于数据模式。图3显示了具有X0R关系的 模式的数据集合表示。该数据集合包含有三个参数及其逻辑值。总计具有6个顶点和4个 超边。每个超边表示模式。该顶点的属性显示在括弧中,而该超边用箭头表示。
[0091] 在图3中,属性为复合事件的概率。超边定量地表示了数据事件之间的关联性,而 该属性描述了这些关联模式的数值属性。每个超边的显著水平可以通过其观察或期望概率 计算。在图3中,仅第三阶模式存在于X0R关系中。
[0092] 在图3中,超边21包括顶点(A=F、C=T、B=T)。超边21的期望发生概率通 过将每个顶点的概率相乘计算,即1/2*1/2*1/2 = 1/8。然而,实际或观察到的发生概率为 O. 25,远远高于期望发生概率1/8( = 0. 125)。因此,可以说超边21表示模式。以相同的方 式,可以说超边22和23表示或者为模式。
[0093] 总之,根据本发明的属性超图表示可直接反映数据集合的本质。根据其包含的
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1