大量数据关系的表示的制作方法

文档序号:9631564阅读:413来源:国知局
大量数据关系的表示的制作方法
【技术领域】
[0001] 本发明涉及一种表示大量数据关系的方法,更具体地,涉及一种利用属性超图 (AHG)表示数据事件之间的大量数据关系的方法,从而以有效的方式存储和检索该大量的 数据关系,以用于分析。
【背景技术】
[0002] 对于大多数AI应用,包括机器学习、数据库中的知识发掘(knowledgediscovery fromdatabases,KDD)以及大数据分析,对知识表达的选择是一项困难的任务。由W.A.伍 兹于 1983 年 10 月在Computer,16(0)发表的题为 "What'simportantaboutknowledge representation"的文章中(下文用"伍兹"表示)提出应该使用两个衡量标准去评价知识 表达的性能,即表达充分性和计数效率;并且基本作为模式存储、检索和操作的范式。
[0003] 在数据挖掘,或者数据库中的知识发掘中,尤其是在大数据时代中,数据事件关系 形式的大量模式需要被合适表达,表达形式应适于KDD系统用户实现目标。由于涉及到该 系统的目标通常定义模糊并且随时间变化,因此数据和数据关系表示对于KDD系统而言要 比传统的事物处理系统更重要。除了伍兹提出的要求外,还需要考虑其他方面。首先,表示 方案应该提供简单知识重组机制,或者将焦点集中于某部分知识,从而实现变化的目标。第 二,该表示方案应该是可扩展的,并且支持大量关系的快速查询和检索。由于现实世界中的 数据通常包含噪声和不确定性,因此从KDD系统中提取的模式通常是概率性的。除逻辑基 准之外,该表示还应该支持数字基准。最后,由于从大数据库中检测的模式可能是不同阶 的,并且由于低阶关系不能够生成高阶模式,因此需要清楚地表示不同阶的模式。进一步的 信息提供于A.K.C.黄(Wong)和Y.王在1995年于温哥华.BC.加拿大发表在Proc.OfThe 1995IEEEInt'lConf.OnSMC,第二卷,第 1142-1148 页的题为"Discoveryofhighorder patterns" 的文章。
[0004] 这些年来,已经出现多种数据关系的表示方案。最受欢迎的一种为E.F.科德发 表于CommunicationoftheACM,13 (6) : 377-387,1970 的题为"Arelationalmodelof dataforlargeshareddatabanks"的文章中提出的数据关系模型,该关系模型形成了关 系型数据库实现的基础。尽管关系模型对于事务处理有效且广泛适用,但是众所周知,它在 数据分析中效率低下。关于此的进一步细节可见于J.V.霍曼和P.J.科瓦奇发表于Issues inInformationSystem,X(l):208_213,2009 的题为"Acomparisonoftherelational databasemodelandassociativedatabasemodel" 的文章;以及由D.克伦克所著的书 籍"DatabaseProcessing:fundamentalsandimplementation',,PrenticeHall,第 7 版, 2000(下文用"克伦克"表示)中的选录。
[0005] 关系数据模型需要提前进行结构设计,并且严重依赖操作问题领域的知识(例 如索引和键约束)。除了关系数据模型,还存在其他表示数据及数据关系的概念,尤其用 于支持数据分析(而非事务处理),例如由D.C.Tsichritzis和F.H.Lochovsky在ACM ComputingSurveys,8(l) :15-123 发表于 1976 年 3 月的题为"Hierachicaldata-base management:Asurvy"的文章中描述的层级模型;由R.盘格鲁和C.古铁雷斯于2008年 2 月在ACMComputingSurveys,40(l) :1-1:39 发表的题为"Survyofgraphdatabase models"(下文用"盎格鲁"表示)的文章中描述的网络/图形模型;并且尤其用于知识管 理、规则模型和逻辑模型。
[0006] 层级数据模型将数据组织为树形结构。数据被存储为彼此通过链接连接的记录。 它使每个子记录仅具有一个根源,而每个父记录可以具有一个或多个子记录。为了检索数 据,需要遍历整个树。就其本质而言,树仅将第一阶关系直接表示为父子链接。
[0007] 可以将树看作特殊形式的图形。图形表示,如贝叶斯和马尔科夫网络,以及源自 定向图的数据模型(见盎格鲁),通常提供更通用的方法来表示模型。它们直接通过链接 表示两个节点之间的第一阶关联。然而,如泊尔发表的文章ProbalilisticReasoningin IntelligentSystems:NetworksofPlausibleInference,摩根考夫曼,1988 的文章(下 文用"珀尔"表示)观察到的,包括树和网络在内的基于图形的表示不能够区分集合连通性 和其元素间连通性。因此,它们不够通用,不足以表示不同阶的模型。
[0008] 生产式(如果-那么)规则是广泛应用于专家系统和面向分类任务的另一方案。 它明确表示了一组观察(左手先导)和一个属性值(右手结果)之间的关联。规则被认为 比树更容易理解。然而,在KDD应用中,随着每个兴趣的变化,必须要预测不同属性的值。此 外,需要获得大量的规则。这在现实世界中有时是不现实的。见A.K.C.黄(Wong)和Y.王在 IEEETrans.OnKnowledgeandDataEngineering,9 (6): 877-893,1997 发表的文章"High orderpatterndiscoveryfromdiscrete-valueddata"。在这种情况下,我们需要一种 可以容易地为该系统的不同目标重组表示知识的方案。
[0009] 除基于属性(命题)的表示以外,如霍恩子句(概述见克伦克)的关系表示和一阶 逻辑也用于学习系统。S.马格尔顿在"InductiveLogicProgramming",学术出版社,1992 中提供了概述。它们是非常有力并具表现力的形式体系。因为它们起初被设计用于形式化 数学推理,并在之后用于逻辑编程,因此其中的模式是确定性的,而非概率性的。为了做概 率性推理,必须采用特殊形式。该问题还存在于结构表达中,如语义网络。此外,基于逻辑 的表示被认为比基于图形的表示更加不容易理解,并且更难以可视化。

【发明内容】

[0010] 本发明实施例的一个目的在于表示框架内的定性和定量数据关系,用于数据存 储、操作和检索,以支持涉及大量或非常大量数据的分析和建模。
[0011] 本发明的进一步的目的包括提供:
[0012] 1.数据关系的新的数据/知识表示方案;
[0013] 2.可以编码定性和定量模式并且易于访问以分析和建模的知识和数据关系表示 语言;以及
[0014] 3.消除现有数据库模型中的缺点,即在表示复杂关系中的不够通用、过多数据冗 余以及分析和建模效率低。
[0015] 通过下文的描述,本发明的实施例的其他目的和进一步的应用范围会更加明显; 然而应该注意的是,由于在详细说明的基础上,在本发明保护范围内作出多种变化和改进 对于本领域技术人员是明显的,因此详细的说明表示本发明的具代表性或者优选实施例, 仅作描述目的。
[0016] 为了实现上述目的,提供下述方案,作为新的数据关系表示模型的部分:
[0017] 1.基于属性超图(AHG)的表示语言,该表示语言足够通用,以在多个抽象级别上 编码信息,并且足够简单,以量化其组织结构的信息内容。
[0018] 2.用于操作数据关系的对属性超图数据模型的操作,包括构建、更新、检索、删除 以及其他域特定功能。
[0019] 3.设计并执行数据管理系统以存储数据关系,用于深度分析和建模的基础。
[0020] 本发明因其通用性、多功能性、有效性及灵活性而非常适于存储和检索大量数据 关系产品。本发明自然支持数据分析和建模。在需要数据分析的数据和知识管理、数据挖 掘、统计建模、机器学习和其他领域具有明显应用。
[0021] 根据本发明的第一个方面,提供了一种利用数据关系表示大量数据的方法。该方 法包括以下步骤:提供具有多个数据事件、该多个数据事件之间的多个数据关系,以及该数 据事件和数据关系的性质的数据集合;数据集合由数据源生成,满足无论在多个超边中是 否存在统计模式,该数据源中的所有数据事件被收集;将该多个数据事件表示为顶点;将 该多个数据关系表示为超边;并将该数据事件和数据关系的性质表示为分别与该顶点或超 边相关的属性。
[0022] 根据本发明的第二个方面,提供了一种含有利用数据关系表示大量数据的程序代 码的计算机可读介质。该程序代码执行以下步骤:提供具有多个数据事件、该多个数据事件 之间的多个数据关系,以及该数据事件和数据关系的性质的数据集合;数据集合由数据源 生成,满足无论在多个超边中是否存在统计模式,该数据源中的所有数据事件被收集;将该 多
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1