一种面向地质灾害领域的知识图谱自动化构建方法及系统

文档序号:30606865发布日期:2022-07-01 22:40阅读:435来源:国知局
一种面向地质灾害领域的知识图谱自动化构建方法及系统

1.本发明涉及地震预测领域,尤其涉及一种面向地质灾害领域的知识图谱自动化构建方法及系统。


背景技术:

2.知识图谱概念起源于2012年5月,最初由谷歌公司提出,旨在揭示知识领域的动态发展规律。在知识图谱中,实体、关系和属性是组成要素,通常用节点表示语义符号,用边表示语义之间的关系。随着信息向知识的转变,知识图谱与地学知识的结合融合了语义关系和空间信息的特点,从而具备人、地、空多层次知识的大规模关联和因果分析的能力。
3.在地学领域中,周成虎等人提出从现有大量的地学文献中提取地学知识,实现地学知识图谱的构建,扩展地学知识所特有的时空特征,融合多源地学要素,建立地学知识表达模型。而在灾害知识图谱构建方面,一般以本体为基础理论用于灾害知识建模,形成灾害知识的可视化表达。在灾害知识图谱构建方面,目前已有多位学者做了相关研究,一般以本体为基础理论用于灾害知识建模,形成灾害知识的可视化表达,但由于地质灾害数据具有多源异构的特质,因而从自然语言表达的角度构建地质灾害链知识图谱,将灾害发生的环境、灾害本体、地理对象以及应急处理实现多层次知识的关联,达到不同来源数据的集成、融合和存储的目的。目前大多数研究是通过构建不同来源的本体知识对灾害事件单一要素进行描述,分析灾害事件的演化过程与关联的关系,但不能全面分析由原生灾害引起的次生灾害的过程,难以整体及准确地描述地质灾害发生机理。


技术实现要素:

4.为了解决以上问题,本技术提供的一种面向地质灾害领域的知识图谱自动化构建方法,具体包括以下步骤:
5.s101:采用自上而下的方法构建地质灾害链本体模型;采用五元组方法对所述本体模型进行逻辑结构描述;根据先验知识对本体模型进行语义关系表达;
6.s102:采用自下而上的方法,根据建立的本体模型,利用知识抽取技术从中已有地质灾害报告中抽取地质灾害实体、属性及其关系;
7.s103:对抽取的地质灾害实体、属性及其关系,进行要素分解,建立具体要素与本体模型的映射关系,最终通过对齐、融合方式自动生成知识图谱。
8.进一步地,所述本体模型包括:地质环境本体、地质灾害本体、地理对象本体和应急处置本体。
9.进一步地,对本体模型进行逻辑结构描述,具体为:
10.onto=(con,rel,prop,rule,ins)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
11.其中,con指概念,代表一系列具有相同特性的事物的集合总称;rel指关系,代表概念之间、概念与实例之间的层次关系,以及实例之间的时空关系及语义关系;prop指属性,代表实例对象间的关联性以及实例与数值间的关联性;rule指规则,代表对领域概念及
实例的取值范围、类型及组合方式的约束表达。
12.进一步地,根据先验知识对本体模型进行语义关系表达,具体为:
13.地质环境本体为地质灾害本体的孕灾环境;
14.应急处置本体为地质灾害本体的响应及应对措施;
15.地理对象本体为地质灾害本体的承灾体;
16.地理对象本体又为应急处置本体的处理对象。
17.一种面向地质灾害领域的知识图谱自动化构建系统,所述系统包括:
18.地质灾害链本体模型构建模块:采用自上而下的方法构建地质灾害链本体模型;采用五元组方法对所述本体模型进行逻辑结构描述;根据先验知识对本体模型进行语义关系表达;
19.知识抽取模块:采用自下而上的方法,根据建立的本体模型,利用知识抽取技术从中已有地质灾害报告中抽取地质灾害实体、属性及其关系;
20.知识图谱生成模块:对抽取的地质灾害实体、属性及其关系,进行要素分解,建立具体要素与本体模型的映射关系,最终通过对齐、融合方式自动生成知识图谱。
21.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种面向地质灾害领域的知识图谱自动化构建方法的步骤。
22.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述一种面向地质灾害领域的知识图谱自动化构建方法的步骤。
23.与现有技术相比,本发明的有益效果包括:
24.1、本发明以知识图谱理论与方法为指导,构建了地质灾害链统一逻辑表达框架,对地质灾害领域中的地质灾害事件、地质环境本体、地理对象本体及应急处置本体四类核心要素进行了定义与构建,对其中的概念间、实例间属性及语义关系进行了本体层上的分类及定义。
25.2、本发明有效解决了单一灾体的建模无法准确描述地质灾害所存在的局限性等问题。
26.3、能清晰及准确表达地质灾害实体间、实体与属性间丰富的语义关系,有效验证了本发明所提出的地质灾害知识图谱构建方法的可行性与有效性,为地学知识图谱的构建与研究提供了一种思路。
附图说明
27.图1是本发明方法的流程图;
28.图2是地质灾害知识图谱构建示意图;
29.图3是地质灾害链本体实例构建示意图(部分);
30.图4是基于时空演化的地质灾害知识图谱示意图(部分);
31.图5是面向过程的地质灾害链知识图谱示意图(部分)。
具体实施方式
32.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
33.本发明提供了一种面向地质灾害领域的知识图谱自动化构建方法。请参考图1,图1是本发明方法的流程图;本发明方法包括以下步骤:
34.s101:采用自上而下的方法构建地质灾害链本体模型;采用五元组方法对所述本体模型进行逻辑结构描述;根据先验知识对本体模型进行语义关系表达;
35.需要说明的是,对地质灾害链本体的建模,是以地质灾害事件为核心,通过本体实现地质灾害概念及实例的形式化与逻辑化表达,用以支持地学知识发现与知识推理。
36.地质灾害事件其基本要素包括时间、空间和现象等,具有典型的时空特征,其信息的抽取与知识表达需要考虑时空问题。
37.本技术中,地质灾害链本体模型包含地质环境本体、地质灾害本体、地理对象本体和应急处置本体四个部分。请参考图2所示,图2是知识图谱构建的具体可视化流程示意图。
38.为了在统一的语义表达框架下,将地质领域知识进行归纳及整理,从而构建知识体系之间的逻辑关联,最终服务于信息抽取及知识推理,本发明对地质灾害链本体进行了逻辑结构表达;
39.具体的说,由于五元组表示方法可满足对地质灾害及其作用下的地质环境、地质对象进行整体性描述,所以本发明选用五元组作为本体的描述框架,最终形成知识的统一表达,其表示为:
40.onto=(con,rel,prop,rule,ins)
ꢀꢀꢀꢀ
(1)
41.其中,con指概念,代表一系列具有相同特性的事物的集合总称;rel指关系,代表概念之间、概念与实例之间的层次关系,以及实例之间的时空关系及语义关系;prop指属性,代表实例对象间的关联性以及实例与数值间的关联性;rule指规则,代表对领域概念及实例的取值范围、类型及组合方式的约束表达,从而支持语义推理;
42.需要说明的是,由于地质灾害知识图谱模式层次包含概念节点集合、概念边关系结合两部分,代表的是地质灾害领域中概念节点及概念之间关系的表征。因此,本发明依据已有先验知识,对地质灾害领域中的地质灾害事件、地质灾害环境、地理对象及应急处置四类要素进行概念层次的划分,并对概念间属性关系及语义关系进行定义。
43.地质环境本体为地质灾害本体的孕灾环境;
44.应急处置本体为地质灾害本体的响应及应对措施;
45.地理对象本体为地质灾害本体的承灾体;
46.地理对象本体又为应急处置本体的处理对象。具体的说:
47.(1)地质灾害本体,对其描述其重点在于地质灾害分类与灾害间的关系表达,根据《中华人民共和国国土资源行业标准(dz-2000)地质灾害分类分级》和《中华人民共和国地质矿产行业标准(dz0238-2004)地质灾害分类分级》中具体概念及层次关系,地质灾害按照类别可以划分为滑坡、崩塌、泥石流、地裂缝、地面沉降和地面塌陷等13种地质灾害,各个类别又可以继续划分为小类,如崩塌可分为巨型崩塌、大型崩塌、中型崩塌和小型崩塌等。此外,不同类别地质灾害间往往还存在诱发关系,最终导致灾害链的产生,同时不同类别地质
灾害的产生机理及影响的对象不同,产生的灾害链也不相同。
48.地质灾害本体中的基础框架包括概念及相关关系,而实例、属性及约束进一步丰富并完善了本体框架的逻辑结构。就地质灾害属性而言,时空属性是其典型的一种特性,还包括非时空属性,同时还需考虑不同地质灾害间通用属性与特有属性信息,部分地质灾害通用属性与特有属性如表1所示。
49.表1地质灾害属性描述(部分)
[0050][0051]
(2)地理对象本体,对其描述主要依据《基础地理信息要素分类与代码》(gb 13923-2006)中地理信息要素分类层次结构及其相关概念。地理对象本体中概念的属性既包含面积、距离、长度、数量等几何度量属性,也包括名称等语义描述。地理对象关系包含空间关系与非空间关系两大类。前者含方位关系、拓扑关系等,后者包含等价关系、从属关系、部分/整体关系等描述概念与概念、概念与实例之间以及实例与实例之间的语义关系。
[0052]
(3)地质环境本体,由于在地质灾害作用下的地质环境本体建模涉及自然因素及人为因素引起的诸多地质环境对象,所以其基本概念和关系的制定依据《地质灾害调查规范》中的概念及具体层次关系。
[0053]
地质环境关系描述包括典型的空间关系与语义关系描述两类:地质环境中的空间关系描述主要采用地理中常见的拓扑关系、方位关系及度量关系三类。拓扑关系设计常见的六种基本关系(如包含、被包含、相等等),方位关系代表常见的八种基本关系(如东、南、西、北等),度量关系代表的两个空间位置的相对距离之间的度量;语义关系的描述代表概念之间、概念与实体之间、实例与实例之间的关系表达。常见的语义关系包括父子关系、整体与部分关系、互斥关系、等价关系。实例之间语义关系包括功能关系、属性关系、结构关系等。
[0054]
(4)应急处置本体,对其描述依据《地质灾害防治条例》、《国家突发公共事件总体应急预案》等相关文件,将地质灾害发生的全过程划分成为灾前、灾中和灾后三个不同阶段层次,其每个阶段目标及任务不同。
[0055]
s102:采用自下而上的方法,根据建立的本体模型,利用知识抽取技术从中已有地质灾害报告中抽取地质灾害实体、属性及其关系;
[0056]
s103:对抽取的地质灾害实体、属性及其关系,进行要素分解,建立具体要素与本体模型的映射关系,最终通过对齐、融合方式自动生成知识图谱。
[0057]
一种面向地质灾害领域的知识图谱自动化构建系统,所述系统包括:
[0058]
地质灾害链本体模型构建模块:采用自上而下的方法构建地质灾害链本体模型;采用五元组方法对所述本体模型进行逻辑结构描述;根据先验知识对本体模型进行语义关
系表达;
[0059]
知识抽取模块:采用自下而上的方法,根据建立的本体模型,利用知识抽取技术从中已有地质灾害报告中抽取地质灾害实体、属性及其关系;
[0060]
知识图谱生成模块:对抽取的地质灾害实体、属性及其关系,进行要素分解,建立具体要素与本体模型的映射关系,最终通过对齐、融合方式自动生成知识图谱。
[0061]
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种面向地质灾害领域的知识图谱自动化构建方法的步骤。
[0062]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述一种面向地质灾害领域的知识图谱自动化构建方法的步骤。
[0063]
实施例一、
[0064]
本发明在基于地质灾害链领域本体库概念语义框架基础上,针对区域地质灾害报告这一知识源,基于规则及机器学习算法对实体及关系进行抽取,最终将抽取实体关系形成三元组存储到图数据库neo4j数据库中。具体步骤如下所示:
[0065]
(1)数据源
[0066]
本发明所选取的原始数据为来自全国的地质资料馆(http://www.ngac/cn/)的地质灾害报告,全文共350页,约11,0000字。在本发明中,我们将其转化为word格式作为输入数据的格式。
[0067]
(2)实体及关系抽取
[0068]
本发明在进行实体及关系抽取时,采用的标注体系为bio,其中b代表实体的起始位置,i代表实体中除起始位置的其他位置,o则代表非实体;评价指标主要采用准确率、召回率和综合度量f值,最终本发明采用bert-bilstm-attention-crf模型,此外为了验证该模型的效果,同时进行了规则匹配、bilstm、bilstm-crf、bilstm-attention-crf等四种实验,实验结果对比如表2和表3所示。相比其他四种模型,bert-bilstm-attention-crf模型效果明显更优。
[0069]
表2模型方法实体识别实验结果
[0070]
模型准确率/%召回率/%f度量规则匹配88.1089.2088.65bilstm93.3093.8093.55bilstm-crf94.5094.6094.55bilstm-attention-crf95.2095.6095.40bert-bilstm-attention-crf96.1096.5096.30
[0071]
表3模型方法实体关系识别实验结果
[0072]
模型准确率/%召回率/%f度量bilstm68.1065.1066.57bilstm-crf69.2368.4568.84bilstm-attention-crf71.5670.2370.89bert-bilstm-attention-crf75.1974.2374.71
[0073]
(3)知识存储
[0074]
通过上述描述的抽取及处理流程,将地质报告中的信息数据通过算法转换为结构化的知识。由于图数据库对结构层次清晰、面向实体关系及实体属性类的数据具有明显的存储优势,能够实现对地质灾害链知识图谱从概念层次、实体层次、属性层次等多个维度进行可视化展示,所以针对实体关系及实体属性信息,图数据库存储时以(实体,关系,实体)及(实体,属性,属性值)三元组形式形成多条知识,首尾部分存储为图中的节点,属性信息及关系信息存储为边,以期实现结构化知识到图数据库中三元组知识间的映射,基于构建的地质灾害链知识图谱,基于图查询语言及挖掘算法能够实现知识图谱的补全及知识推理等应用。
[0075]
实施例二、
[0076]
本发明采用prot
égé
本体建模工具结合owl dl语言对地质灾害链本体进行建模。在本发明中,结合泥石流对区域地质灾害报告中地质灾害知识的结构化及规范化表达进行阐述,构建由不同灾害所引起的一系列次生灾害所形成的地质灾害链,如图3所示。其中地震及降雨会引发滑坡、崩塌和泥石流等灾害,进而会对周边区域地理对象造成较大影响,如滑坡会造成农作物减产、交通中断、村镇可能被埋等,继而造成大量的经济损失。同时救援机构会采取相应的救治及处置措施,包括搬迁、专业监测、工程治理、群测群防等,这些形成地质灾害信息抽取的基础。
[0077]
利用本发明中所提出的深度学习方法对处理后的地质灾害报告进行实体及关系的抽取,最后利用图数据库neo4j对抽取的实体、关系及属性值进行存储,部分地质灾害知识图谱如图4所示。
[0078]
实施例三、
[0079]
地质灾害的发生不仅仅包含单一类型的灾害,往往会伴随多种类型的次生或衍生灾害发生。同一类型的灾害也会存在不同状态,其对应的属性及影响也不同。所以本发明以九寨沟地震为例,构建了面向过程的地质灾害链知识图谱,如图5所示。
[0080]
综合而言,本发明以知识图谱理论与方法为指导,构建了地质灾害链统一逻辑表达框架,对地质灾害领域中的地质灾害事件、地质环境本体、地理对象本体及应急处置本体四类核心要素进行了定义与构建,对其中的概念间、实例间属性及语义关系进行了本体层上的分类及定义。
[0081]
以区域地质报告为例进行了实验案例分析,通过数据预处理、基于深度学习的地质灾害实体及关系抽取构建了地质灾害知识图谱。
[0082]
本发明的有益效果是:
[0083]
1、本发明以知识图谱理论与方法为指导,构建了地质灾害链统一逻辑表达框架,对地质灾害领域中的地质灾害事件、地质环境本体、地理对象本体及应急处置本体四类核心要素进行了定义与构建,对其中的概念间、实例间属性及语义关系进行了本体层上的分类及定义。
[0084]
2、本发明有效解决了单一灾体的建模无法准确描述地质灾害所存在的局限性等问题。
[0085]
3、能清晰及准确表达地质灾害实体间、实体与属性间丰富的语义关系,有效验证了本发明所提出的地质灾害知识图谱构建方法的可行性与有效性,为地学知识图谱的构建
与研究提供了一种思路。
[0086]
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1