本发明涉及数据融合,具体地说,涉及一种基于图数据实现风险异源数据标准化融合的系统及方法。
背景技术:
1、在风险救灾场景中会产生大量格式多样、来源不同的数据,为提高风险救灾效能和挖掘数据潜在价值,建立风险多源异构数据管理系统势在必行。现有技术或系统在异构数据融合或整合时,对于语义层面的融合考虑较浅,如有学者设计了多源异构数据融合处理系统,对结构化数据、半结构化数据和非结构化数据实行分层分类存储,其中结构化数据映射为数据表,图片、音频、视频等半结构化数据按表-内容描述-内容三字段存储,非结构化数据按列存储为分布式列数据库;在数据整合方面设计有效性验证规则,消除同名异义和异名同义数据,删除冗余数据。但这仅考虑了删除冗余数据等融合方法,对于语义可能存在相同的实体未考虑实体合并方法。
2、现有异构数据管理系统,仅考虑了对于非结构化、结构化、半结构化等异构数据融合的管理过程,如有学者提出基于neo4j图数据库的数据空间模型,以松耦合方式集成管理多源异构数据,设计保证器对多源异构数据统一表示为主体-谓词-客体格式的rbf三元组,导入neo4j建立图数据库。而现实风险管理应用中,不同应用场景的动态性和复杂性提出的不同格式数据的查询和导出需求未纳入系统功能的考虑,从而导致风险异构数据管理系统停留在数据格式统一和数据存储和查询的层面上,下游数据的应用困难。
3、现有异构数据管理系统在数据查询方面功能较为单一,只能查询记录或属性,对于不同粒度的数据查询要求未做功能设计,同时对于多源数据间复杂关系的探索分析也未提供算法支持。
技术实现思路
1、本发明的内容是提供一种基于图数据实现风险异源数据标准化融合的系统及方法,其能够有效整合风险异源数据,同时为风险救灾数据管理、使用、挖掘等提供技术支持。
2、根据本发明的基于图数据实现风险异源数据标准化融合的系统,其包括依次相连的数据格式统一模块、语义统一模块和数据挖掘模块;
3、数据格式统一模块包括数据导入组件和数据导出组件,数据导入组件用于接收不同来源不同数据格式的数据,并将这些数据转为原始属性图;数据导出组件用于将数据属性图转化为其他数据格式;
4、语义统一模块包括模式统一组件和实体统一组件,模式统一组件用于将数据库中表、列、视图、关系、主键、外键、数据类型的集合采用基于元数据中心的模式对齐算法进行模式对齐;实体统一组件用于对数据实例提供实体层面的统一,即将属性图中具有相同语义的实体去重;
5、数据挖掘模块用于提供元数据级、实体级和关系级的数据查询与探索分析功能。
6、作为优选,数据导入组件中,数据转换基于多种预定于的数据转换规则:
7、1)将数据关系表中的每个元组转化为属性图中的节点;
8、2)将数据关系表中的属性转化为属性图中节点的属性;
9、3)将关系表中的外键转换为属性图中节点间的关系。
10、作为优选,基于元数据中心的模式对齐算法步骤为:计算原始数据模式与被对齐的元数据中心预定义的模式相似度,如果相似度高于阈值则进行模式对齐,低于阈值则更新元数据中心。
11、作为优选,实体统一组件中,将实体去重任务建模为二分类问题,使用基于预训练模型的深度实体匹配模型,深度实体匹配模型使用在大规模语料库上预训练的bert模型,结合em算法层估计实体匹配程度;
12、同时采取两种剪枝策略来加速实体对齐过程:
13、(1)相似度过滤,设计相似度过滤器,基于相似度过滤部分待匹配实体;
14、(2)预匹配,基于随机森林模型对实体进行预匹配,将随机森林模型匹配置信度不高的样本交给深度实体匹配模型进行匹配,以减轻深度学习模型的运算量。
15、作为优选,数据挖掘模块中,具体包括:
16、a)元数据级:用户能通过类sql语句查询各类元数据;
17、b)实体级:用户能查询实体和其属性,以及计算平均值、极值、分位数、偏度、峰度和最短路径、中心度;
18、c)关系级:用户能查询实体之间的一跳one-hop或多跳multi-hop关系。
19、本发明提供了基于图数据实现风险异源数据标准化融合的方法,其采用上述的基于图数据实现风险异源数据标准化融合的系统。
20、本发明的有益效果如下:
21、1)针对现有技术在多源异构数据融合方面对数据语义的整合程度较浅的问题,本发明提出数据格式统一组件和语义统一组件结合的数据融合模块以从数据格式和语义等多维度对数据进行深度融合,其中数据格式统一组件对多源异构数据格式进行转化统一为图结构,同时支持导出图结构数据为其他格式数据;语义统一组件封装模式统一和实体统一等两类算法,实现不同来源的数据在语义层面的消歧和整合;
22、2)对于现有系统仅停留于数据融合和存储、查询等功能,未考虑风险数据下游应用需求多样性和动态性的不足,本发明设计了数据导出功能,支持存储为图结构的数据导出为其他不同格式的数据,从而满足了风险救灾数据多样化的数据应用需求;
23、3)针对现有异构数据管理系统在数据查询分析粒度较粗和多源数据间关联关系分析存在的不足,本发明设计了数据探索组件,支持用户查询实体层、关系层和元数据层等三种不同粒度的数据,并封装了图聚类、社区检测等算法为用户进行数据挖掘提供支持。
1.基于图数据实现风险异源数据标准化融合的系统,其特征在于:包括依次相连的数据格式统一模块、语义统一模块和数据挖掘模块;
2.根据权利要求1所述的基于图数据实现风险异源数据标准化融合的系统,其特征在于:数据导入组件中,数据转换基于多种预定于的数据转换规则:
3.根据权利要求2所述的基于图数据实现风险异源数据标准化融合的系统,其特征在于:基于元数据中心的模式对齐算法步骤为:计算原始数据模式与被对齐的元数据中心预定义的模式相似度,如果相似度高于阈值则进行模式对齐,低于阈值则更新元数据中心。
4.根据权利要求3所述的基于图数据实现风险异源数据标准化融合的系统,其特征在于:实体统一组件中,将实体去重任务建模为二分类问题,使用基于预训练模型的深度实体匹配模型,深度实体匹配模型使用在大规模语料库上预训练的bert模型,结合em算法层估计实体匹配程度;
5.根据权利要求4所述的基于图数据实现风险异源数据标准化融合的系统,其特征在于:数据挖掘模块中,具体包括:
6.基于图数据实现风险异源数据标准化融合的方法,其特征在于:采用如权利要求1-5中任一所述的基于图数据实现风险异源数据标准化融合的系统。