一种多源异构割裂结构化数据转化方法及系统与流程

文档序号:11250907阅读:609来源:国知局
本发明涉及数据处理
技术领域
:,尤其涉及一种多源异构割裂结构化数据转化方法及系统。
背景技术
::据ibm公司的分析,人类文明有90%的数据是在过去两年内产生的,到2020年,全世界所产生的数据规模将达到今天的44倍。而我国截至2015年12月,已经拥有6.88亿的互联网用户,13.06亿的手机用户,每天可产生海量的数据。大数据无论在大型企业,还是政府部门都发挥着相当的作用。2015年8月国务院印发了《促进大数据发展行动纲要》(国发〔2015〕50号),明确强调“数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响”。该文件同时指出大数据的特点为“数量巨大、来源分散、格式多样”,要求通过“采集、存储和关联分析,从中发现新知识、创造新价值”。在体量巨大之外,大数据的明显特征是“碎片化”。具体来说是同一个数据可能碎片化存储或者来源于不同的数据源,相互独立;同一对象的不同侧面和不同维度的数据碎片化存储于不同的地方,互不关联;同一侧面和维度的数据可能采用不同的结构和模式进行组织和表示,互不相同。总结而言,大数据的碎片化形成了多源、割裂、异构的数据形态。因此,如何将多源、割裂、异构的数据融合是一个值得研究的问题。而在现有的系统中,对结构化数据的描述都具有独特性的。在多源的情况下,相同的信息在不同的系统具有不同的描述方式及不同的表达结构。因此,现有的数据融合及实体识别的方法都是基于特定结构的数据,一旦用于不同结构的数据,算法效果将大大降低。所以,在数据融合的过程中,不同的描述方式严重影响数据融合的质量及增加了数据融合的成本。现有的技术主要采用基于模式集成方式,即通过模式转换实现不同数据库之间的转换,只能描述数据模型的结构信息,缺少了语义信息。同时根据1所说,现有的数据融合及实体识别的方法都是基于特定结构的数据。而yodsawalaichodpathumwan提出的一种独立表达方式的转换方法只针对于特定的两个能转换的数据库。但在现实的情况中,并不是所有的数据库的图结构都可以相互转换的。技术实现要素:为了解决上述技术问题,本发明的目的是提供一种能提高信息完整度的一种多源异构割裂结构化数据转化方法及系统。本发明所采取的技术方案是:一种多源异构割裂结构化数据转化方法,包括以下步骤:将多个数据源映射到对应的局部映射图;将各局部映射图组成总映射图。作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述的将多个数据源映射到对应的局部关系图,这一步骤具体包括:将数据源的各数据表分别映射到对应的局部映射图中对应的节点;将数据源中各数据表的外键引用关系分别映射到对应的局部映射图中对应的边。作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述的节点包括结构信息和语义信息。作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述结构信息包括表结构、字段、字段类型和具体值。作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述语义信息包括数据表名、属性名称、具体属性和约束条件。本发明所采用的另一技术方案是:一种多源异构割裂结构化数据转化系统,包括:局部映射单元,用于将多个数据源映射到对应的局部映射图;映射组成单元,用于将各局部映射图组成总映射图。作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述的局部映射单元具体包括:节点映射单元,用于将数据源的各数据表分别映射到对应的局部映射图中对应的节点;边映射单元,用于将数据源中各数据表的外键引用关系分别映射到对应的局部映射图中对应的边。作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述的节点包括结构信息和语义信息。作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述结构信息包括表结构、字段、字段类型和具体值。作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述语义信息包括数据表名、属性名称、具体属性和约束条件。本发明的有益效果是:本发明一种多源异构割裂结构化数据转化方法及系统通过将多源割裂异构的数据通过转化为图模型进行统一的描述,使得相同的信息具有相同的表达结构。而且在图模型中添加了语义信息,使得图模型对数据库的信息表达更加完整,有效提高描述的准确性。附图说明下面结合附图对本发明的具体实施方式作进一步说明:图1是本发明一种多源异构割裂结构化数据转化方法的步骤流程图;图2是本发明一种多源异构割裂结构化数据转化方法中局部映射的步骤流程图;图3是本发明一种多源异构割裂结构化数据转化系统的模块方框图;图4是本发明实施例的图模型转化图。具体实施方式参考图1,本发明一种多源异构割裂结构化数据转化方法,包括以下步骤:将多个数据源映射到对应的局部映射图;将各局部映射图组成总映射图。参考图2,进一步作为优选的实施方式,所述的将多个数据源映射到对应的局部关系图,这一步骤具体包括:将数据源的各数据表分别映射到对应的局部映射图中对应的节点;将数据源中各数据表的外键引用关系分别映射到对应的局部映射图中对应的边。进一步作为优选的实施方式,所述的节点包括结构信息和语义信息。进一步作为优选的实施方式,所述结构信息包括表结构、字段、字段类型和具体值。进一步作为优选的实施方式,所述语义信息包括数据表名、属性名称、具体属性和约束条件。参考图3,本发明一种多源异构割裂结构化数据转化系统,包括:局部映射单元,用于将多个数据源映射到对应的局部映射图;映射组成单元,用于将各局部映射图组成总映射图。进一步作为优选的实施方式,所述的局部映射单元具体包括:节点映射单元,用于将数据源的各数据表分别映射到对应的局部映射图中对应的节点;边映射单元,用于将数据源中各数据表的外键引用关系分别映射到对应的局部映射图中对应的边。进一步作为优选的实施方式,所述的节点包括结构信息和语义信息。进一步作为优选的实施方式,所述结构信息包括表结构、字段、字段类型和具体值。进一步作为优选的实施方式,所述语义信息包括数据表名、属性名称、具体属性和约束条件。本发明实施例中,采用有向图描述数据库具体如下:g=〈v,e〉:有向无环图(dag),表示数据库的关系图,其中vi:图中的一个节点,对应数据库中的一个表i。v={v1,v2,···,vk|1≤k≤n}:图中的点集,表示数据库中所有表的集合。e=(vi,vj):图中的一条有向边,表示数据库中表ti外键引用表tj。其中ti:表示数据库中的一个表,t:表示数据库中表的集合。e={(vi,vj)|1≤i,j≤n,i≠j}:图中的边集,表示数据库中所有外键引用关系以及逻辑依赖关系的集合。当在存在多个数据源的情况时,每个数据源映射到一个图。多个图组成一个更大的图,描述多个数据源的整体情况,每个小图描述一个单一数据源的情况。本实施例是可在不需要理解数据库的语义信息及其业务逻辑的情况下将数据库转为图模型,极大降低了转换成本。完成了数据源的图建模后,拟将数据融合过程相关的计算和操作映射到图上进行处理,包括数据汇聚、实体识别、实体消歧、关系发现、实体扩展等操作。因此,建立图模型时需定义实体与图之间的映射关系。实体是对物理或抽象存在的事物的一个描述。因此,对事物的不同方面的描述应该是能够唯一地关联和绑定在一起,形成对实体的相对更加全面的刻画。实体的映射图是一个中心连通图,即该图中存在一个中心节点,对图中任何一个点,都存在一条从该点到中心节点的路径。中心连通图数学化描述如下:对于一个图g=<v,e>,g是一个中心连通图当且仅当∃v_0∈v,对∀v∈v,至少存在一条从v到v_0的路径。基于此,一个图中的每一个中心连通子图可能都对应一个实体。在此描述方式下,本发明假设已知中心连通子图是一个实体,具有实体的结构信息及其语义信息。描述模型当中,节点包括表结构信息及语义信息,以数据表的外键关系为边与以数据库表结构及语义信息为节点构建图描述模型。将图中所有中心连通子图提取出来,进行相似性比较。参考图4,本发明实施例中,将需要比较的实体转化为通过中心连通子图进行描述,将数据库中表的结构及语义信息都包含到节点中,具体的节点描述如下:节点包括表结构部分及语义部分:1、结构信息:结构部分主要是节点包含对应数据表的所有信息,包括表结构、字段、字段类型、具体值等信息。2、语义信息:将节点对应的数据表及其属性进行规范化定义,将其语义信息包含到节点当中。数据项是指数据表中的一个属性,数据项的语义与它所属的数据表的语义环境相关,数据项的语义信息存在语义及应用场景的特定条件约束。一个数据项(属性)si的语义可表示为一个四元关系组:si=<table,name,iskey,constraint>,其中table是属性所在的数据表名,name是属性名称,iskey表示是否为主键,constraint是属性的约束条件。一个数据表st的语义可表示为一个三元关系组:st=<tablename,context,dataitems>,tablename是数据表的名称,context是数据表所在的应用语境,dataitems是数据表所有数据项(属性)的集合,存在一定的隐含约束条件。以数据表的外键关系为边与上述定义的节点构建图模型,描述一个数据源的数据库。多个数据源的数据库统一以上述图模型的方式描述,从而形成统一的表达方式,可用于实体识别及相似性查询,极大降低了数据融合的成本。从上述内容可知,本发明一种多源异构割裂结构化数据转化方法及系统通过将多源割裂异构的数据通过转化为图模型进行统一的描述,使得相同的信息具有相同的表达结构。而且在图模型中添加了语义信息,使得图模型对数据库的信息表达更加完整,有效提高描述的准确性。以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1