基于众包专业知识图谱的数据整合方法与流程

文档序号:30064784发布日期:2022-05-18 00:38阅读:256来源:国知局
基于众包专业知识图谱的数据整合方法与流程

1.本发明涉及数据分析技术领域,尤其涉及一种基于众包专业知识图谱的数据整合方法。


背景技术:

2.随着工业信息化系统越来越多,制造过程全流程的多源异构数据量越来越大,数据后处理越来越复杂,如何根据分析目的快速有效地将各个系统中的有关数据和信息进行准确的集成整合,成为了工业大数据整合领域的关键问题。但是,在工业领域,现有的工业大数据整合方法无法准确地找出与分析目的相关的数据,常会出现数据冗余、关键数据缺失等问题。鉴于此,如何提出一种数据查询准确性高且查询效率高的技术是本发明所要解决的技术问题。


技术实现要素:

3.本发明提供一种基于众包专业知识图谱的数据整合方法,实现提高数据查询准确性并提高查询效率。
4.为达到上述目的,本发明采用如下技术方案:本发明提供了一种基于众包专业知识图谱的数据整合方法,包括:步骤1、通过众包方式构建专业知识图谱;步骤2、基于专业知识图谱进行数据建模;步骤3、根据数据建模构建多维数据视图。
5.进一步的,所述步骤1,具体为:依据专业资料进行元数据标准定义,以定义专业知识图谱的本体、属性和关系,建立专业知识图谱。
6.进一步的,所述步骤1还包括:步骤11、本体定义:首先列举出领域内所有的本体以及对本体的详细解释;然后,对领域内的本体进行分类组织,并将本体模块化;最后,对所建立的本体分类结构进行检验,确保没有重复的本体。
7.进一步的,所述步骤1还包括:步骤12、属性和关系定义:从该领域的关系数据库中抽取出关系模式,分析关系数据库中表的信息和字段信息,建立相应的本体模型。
8.进一步的,所述步骤1还包括:步骤13、关联关系构建:对本体与本体之间的关系进行定义,将本体与属性之间的关系进行定义。
9.进一步的,所述步骤2,具体为:根据专业知识图谱通过本体建模法进行数据建模。
10.进一步的,所述步骤2还包括:步骤21、数据准备:根据专业知识图谱,选择数据建模所需的数据;
步骤22、数据建模:根据专业知识图谱中对应的本体与属性关系以及属性与属性之间的关系,建立数据的关联关系,输出数据模型。
11.进一步的,所述步骤3还包括:步骤31、制定视图主题:根据数据分析的要求,利用专业知识图谱,找出所有与数据分析的主题相关的数据模型;步骤32、建立数据稀疏表示框架:在数据分析过程中,根据对数据复用需求,建立数据的稀疏表示框架 ;步骤33、建立多维视图:采用维度成员字典 的在线学习方法,根据指定尺度下的维度成员分布对数据进行按列簇聚类 ,建立数据的多维分类视图。
12.本发明的技术方案相对现有技术具有如下技术效果:通过采用众包的方式来构建专业知识图谱,并在构建专业知识图谱的基础上进行数据建模和多维数据可视化,这样,便可以在后期信息查询过程中,利用多维数据视图准确的查询数据,实现高效的工业大数据整合,提高了数据查询准确性并提高查询效率。
附图说明
13.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1为本发明基于众包专业知识图谱的数据整合方法实施例的流程图之一;图2为本发明基于众包专业知识图谱的数据整合方法实施例的流程图之二;图3为本发明基于众包专业知识图谱的数据整合方法实施例的流程图之三;图4为本发明基于众包专业知识图谱的数据整合方法实施例的流程图之四。
具体实施方式
15.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
16.如图1所示,本实施例基于众包专业知识图谱的数据整合方法,包括:步骤s1、通过众包方式构建专业知识图谱;步骤s2、基于专业知识图谱进行数据建模;步骤s3、根据数据建模构建多维数据视图。
17.具体的,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示数据的核心结构、发展历史、前沿领域以及整体架构,达到多种数据融合目的的现代理论,它能为数据研究提供切实的、有价值的参考。
18.在对于专业技术领域中,将专业知识图谱应用在工业大数据整合领域,其可以为工业大数据研究提供切实的、有价值的参考。使用合理的方法构建了专业知识图谱,方便在
后续步骤中准确地找出与分析目的相关的数据。
19.根据专业知识图谱,可以找出所有与目的领域相关的数据。对结构化、半结构化和非结构化数据进行统一建模,可以将数据转换为全局数据模型。
20.进行多维数据可视化,可以构建面向目的的多维数据视图,从多个维度对数据进行展示和分析,为后期的决策提供支持。
21.其中,对于所述步骤s1,在进行构建专业知识图谱的过程中,需要依据专业资料进行元数据标准定义,以定义专业知识图谱的本体、属性和关系,建立专业知识图谱。
22.具体的,因为工业领域的知识具有较高的专业性,所以需要工业领域专业人员根据领域内的原始资料,经过分析、归纳、整理,确定元数据的标准定义,包含本体、属性和关联关系定义三种,并将其录入系统中。而元数据所对应的原始资料的主要来源为工业领域内的业务系统、专业数据库、专业网站等。
23.另外,如图2所示,所述步骤s1还包括如下步骤:步骤s11、本体定义:首先列举出领域内所有的本体以及对本体的详细解释;然后,对领域内的本体进行分类组织,并将本体模块化;最后,对所建立的本体分类结构进行检验,确保没有重复的本体。
24.具体的,针对本体定义,首先列举出领域内所有的本体以及对本体的详细解释,在工业领域内,这些本体就是与工业领域相关的专业术语。然后,对领域内的本体进行分类组织,从而描述领域本体间的类属关系,并将本体模块化。本体分类组织最后可以形成一个由本体组成的树形结构,这个结构清晰地表达了本体之间的类属关系。每一棵子树都对应领域内一个独立的、模块化的知识模型。最后,对所建立的本体分类结构进行检验,确保没有重复的本体,避免冗余定义。
25.步骤s12、属性和关系定义:从该领域的关系数据库中抽取出关系模式,分析关系数据库中表的信息和字段信息,建立相应的本体模型。
26.具体的,关联关系包含两种,一种是属性,一种是关系。属性和关系是本体的内在表现和外在关联,内在表现就是属性,属性值就是个字面量。如果是外在关联那就是本体间的关系。针对本体要列出所有可能属性,每个属性都有对应属性值。可以从领域的关系数据库中抽取出关系模式,分析关系数据库中表的信息和字段信息,建立相应的本体模型,如将关系模式中的表名转换为本体中的本体名;表与表间的关系转换为本体中的本体与本体的关系;将关系模式中的字段名转换为本体的属性名等。
27.步骤s13、关联关系构建:对本体与本体之间的关系进行定义,将本体与属性之间的关系进行定义。
28.具体的,知识图谱的关联关系构建包括本体属性构建和本体关系构建。通过关联关系构建可以将本体与本体之间的关系进行定义,也可以将本体与属性值之间的关系进行定义。建立三元组完成关系的构建,主要包含三种:本体与本体之间的关系构建、本体与属性关系构建、以及属性与属性值关系构建。具体过程为,在文本中选择要识别的本体,选择“作为主语”、“作为宾语”完成两个本体的识别。关系构建,选择已定义的关系,建立本体与本体之间的关系。选择需要识别的属性,选择“作为宾语”,完成属性的识别。关系构建,选择已定义的关系,建立本体与属性之间的关系。选择需要识别的属性,选择“作为宾语”,完成属性的识别。关系构建,选择已定义的关系,建立本体与属性之间的关系。
29.进一步的,步骤1还可以进一步的包括专业人员对初步生成的专业知识图谱进行同行评议。
30.具体的,邀请其他未参与上述过程的专业人员对初步生成的专业知识图谱进行同行评议。显示所有新建的本体、关系、以及本体、关系等信息,向相应的领域专家进行开放;由领域专家对所有知识图谱进行投票;根据投票结果,选择票数最多作为最终结果。并最终对专业知识图谱进行修改。最终,评议通过的专业知识图谱将正式发布。
31.业内专业人员的参与保证了知识图谱的专业性,便于将其应用到实际的生产场景之中。广泛的专业领域原始资料库提供了大量的资料供专业人员进行查阅,辅助其进行准确的元数据标准定义。同行评议环节的引入加强了知识图谱的客观性、规范性,确保其适用于对目的领域数据的分析。
32.另外,通过框架匹配和实例对齐,把分散的知识资源融合起来以提高知识图谱的质量。针对发现两个具有相同名称的本体,如果代表现实世界中同一事物,可以选择知识融合,将两个本体进行合并,丰富和拓展知识图谱。
33.进一步的,如图3所示,对于所述步骤2而言,其根据专业知识图谱通过本体建模法进行数据建模。所述步骤2还包括:步骤21、数据准备:根据专业知识图谱,选择数据建模所需的数据。
34.具体的,工业数据分析中,最为重要且关键的一步是要将业务需求转化为可解且可达成的数据分析问题。这一步骤中经常会出现仅关注数据本身,不结合现实进行分析,导致分析结果和实际工况不匹配、无价值的情况。为避免这种情况的发生,基于前期建立的专业的专业知识图谱,选择数据建模所需的数据。
35.步骤22、数据建模:根据专业知识图谱中对应的本体与属性关系以及属性与属性之间的关系,建立数据的关联关系,输出数据模型。
36.具体的,借助专业知识图谱的本体与属性关系以及属性与属性之间的关系,建立数据的关联关系,输出数据模型,定义数据的多维度语境和相应度量值。
37.优选地,在数据模型建模完成后,进行模型验证与评估。模型的验证是对分析模型从数据和技术的角度进行充分检验评估,确认数据分析的结果或模型是否满足具体工业应用场景的使用需求。
38.又进一步的,如图4所示,所述步骤3还包括:步骤31、制定视图主题:根据数据分析的要求,利用专业知识图谱,找出所有与数据分析的主题相关的数据模型。
39.具体的,根据数据分析的要求,如质量、订单、设备、能源等主题,根据专业知识图谱,找出所有与主题相关的数据模型。
40.步骤32、建立数据稀疏表示框架:在数据分析过程中,根据对数据复用需求,建立数据的稀疏表示框架 。
41.具体的,在数据分析过程中存在着对制造数据复用需求,比如订单和设备分析都会使用到某些设备的运行数据,考虑在多维数据库中存在大量稀疏矩阵,需要建立制造大数据的稀疏表示框架。
42.步骤33、建立多维视图:采用维度成员字典 的在线学习方法,根据指定尺度下的维度成员分布对数据进行按列簇聚类 ,建立数据的多维分类视图。
43.具体的,采用维度成员字典的在线学习方法,根据指定尺度下的维度成员分布对数据进行按列簇聚类,快速建立制造数据的多维分类视图。
44.本发明的技术方案相对现有技术具有如下技术效果:通过采用众包的方式来构建专业知识图谱,并在构建专业知识图谱的基础上进行数据建模和多维数据可视化,这样,便可以在后期信息查询过程中,利用多维数据视图准确的查询数据,实现高效的工业大数据整合,提高了数据查询准确性并提高查询效率。
45.本发明引入了基于众包专业知识图谱的工业大数据整合方法,可以根据分析目的快速有效地将各个系统中的有关数据和信息进行准确的集成整合,解决了工业大数据整合中常会出现的数据冗余、关键数据缺失等问题。该方法能够提供给使用者准确的数据,便于使用者对数据进行分析,大大提高分析效率;也确保了数据的完整性,使用者无需再次查找资料、查漏补缺,节省了工作时间。
46.以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1