一种基于事件知识图谱构建的流域旱涝事件长期预测方法与流程

文档序号:26009859发布日期:2021-07-23 21:29阅读:141来源:国知局
一种基于事件知识图谱构建的流域旱涝事件长期预测方法与流程

本发明涉及流域旱涝预测技术领域,尤其是一种基于事件知识图谱构建的流域旱涝事件长期预测方法。



背景技术:

地球系统是一个各圈层复杂交互的整体,某个区域的降水往往受到多种外界因素的影响。以长江流域为例,科学家们发现长江流域降水受到海温、副热带高压、中高纬环流场、高原积雪、极地海冰等多种要素的影响,利用这一系列影响关系来进行旱涝事件预测是一种常用的统计预测方法。

由于影响流域旱涝分布的因素繁多、关系复杂,采用传统统计方法预测时难以考虑到各种因素的影响,现有方法多凭人工经验选取几种偏好的因子进行预测分析,这种做法耗时耗力、损失了大量有用信息的同时还带有强烈的主观性,因此会给预报带来较大的不确定性。



技术实现要素:

本发明针对背景技术中的不足,提供了一种基于事件知识图谱构建的流域旱涝事件长期预测方法。

本发明为解决上述现象,采用以下技术方案,一种基于事件知识图谱构建的流域旱涝事件长期预测方法,预测方法包括如下:

s1,在进行数据的获取时,可以对两种数据进行获取,一种是结构化数据,另一种是非结构化数据;

s2,在进行抽取时可以从互联网文献库中抽取相关的事件信息,并进行结构化表示,如什么对象,什么时间,发生了什么事情,事件指数如何定义;

s3,从文献中抽取事件之间的逻辑关系,包括共指关系、从属关系、时序关系、因果关系等;

s4,利用上述抽取出的知识和关系构建知识图谱模型,由于因素复杂,最终指向旱涝事件的应该有多种关系;

s5,利用前述的结构化历史数据和模式历史预测数据,与上述抽取的事件相互对应,定义相应阈值,构建事件知识历史序列;

s6,将s5中构建的事件历史序列带入知识图谱模型当中,通过大量数据集的训练确定事件关系影响权重和事件触发机制;

s7,将最新的事件背景情况输入知识图谱模型中进行预测,并实现知识的不断迭代更新。

作为本发明的进一步优选方式,步骤s1中,其中结构化数据为长江流域气象水文站点历史降水资料,海温场、冰雪场、大气场等格点历史再分析数据、国家气候中心130项环流指数资料等,而非结构化数据为庞大的互联网文献库,需要根据实际情况进行选择。

作为本发明的进一步优选方式,步骤s2中,在进行对文献知识的抽取时,采用关键字提取算法textrank来实现,该方法通过提取文献中的关键词作为关键知识,由于机器提取方法有时难以判断复杂的逻辑关系,因此在机器提取的基础上还需要人工经验来进行校正。

作为本发明的进一步优选方式,步骤s3中,抽取的逻辑关系包括事件的共指关系,如赤道中东太平洋海温异常偏暖与发生厄尔尼诺事件是同一件事,其次从属关系如:长江中下游降水偏多包含两湖水系降水偏多、江西省降水偏多等子事件,时序关系如:冬季发生青藏高原积雪异常偏少事件,次年夏季发生长江流域暴雨洪涝事件,最后因果关系如:前期赤道中东太平洋海温异常偏暖有利于长江中下游降水异常偏多。

作为本发明的进一步优选方式,步骤s4中,首先需要对步骤2和步骤3中抽取的知识和关系进行整合,如将从属和共指关系的事件进行合并,将时序和因果关系的事件进行联系,构建的知识图谱结构示意图如图2所示,其中的因子空间属性、时间属性、量级属性用指数来表示。依据上述知识图谱结构,将所有搜索到的降水事件、气候事件、气候事件指数定义知识作为节点,将提取的关系作为边,利用边将各个节点相互联系起来,形成如图3所示的事件知识图谱,图中实线箭头表示直接关系(也称直接边),即直接影响降水的事件,虚线箭头表示间接关系(也称间接边),即表示气候因子之间或者气候因子与指数之间的关系。

作为本发明的进一步优选方式,步骤s5中,在构建事件知识历史序列时,需要给定相应的阈值,并计算其强度,计算时分为降水事件和气候事件两类。降水事件通过流域面雨量序列来计算,如:定义长江中下游降水偏多20%以上的事件为一次长江中下游涝/旱事件,即可构建长江中下游旱涝事件历史序列,并利用降水的距平百分比值作为降水事件的强度;气候事件分为前期气候事件(提前于降水事件发生)和同期气候事件(与降水事件同一时期发生),前期气候事件通过z-score标准化后的实况气候指数来定义,若指数绝对值大于0.5个标准差,认为发生一次气候异常事件,事件强度按照指数转化为百分制来定义,若指数绝对值大于或等于1个标准差,认为强度达到100。同期气候事件作为预测时段的变量,无法利用实况资料直接获取,采用模式预测的指数和前期气候因子相关分析两种方法获取,由于目前的模式预测不确定性还较大,此处定义当统计关系和模式预测指数均表明发生一次气候事件时,认为发生一次强的事件(强度为100),当统计关系和模式指数预测发生气候事件不一致时,认为发生一次弱的事件(强度为60),当二者均表明不发生气候事件时,认为不发生事件(强度为0)。

作为本发明的进一步优选方式,步骤s6中,利用上述构建的大量历史事件知识序列训练知识图谱模型,得到直接边的影响权重,权重具体计算方法为:统计影响降水事件的所有直接气候事件总数目,标记历史数据中各直接气候事件与降水事件的一致次数,通过总数目和各事件的一致次数计算影响权重。在建立触发机制时,利用气候事件强度与影响权重的乘积,计算各种降水事件的得分,若某一降水事件的得分在各事件中最高,且分值高于60分,即可触发该事件。

作为本发明的进一步优选方式,步骤s7中,将最新的事件背景情况输入知识图谱模型中进行预测,并实现知识的不断迭代更新,具体的预测流程见图4。

本发明通过利用知识图谱来构建流域旱涝汛期事件预测模型,在充分利用信息的基础上实现预报的客观化和自动化,无需由人工来进行选取和预测分析工作,这样在预测的过程中就不会受到外部影响因素过多的情况,关系复杂的数据也能够进行较好的处理。

附图说明

图1为本发明的预测流程图。

图2为知识图谱结构示意图

图3为事件知识图谱示例图。

图4为预测算法流程图。

具体实施方式

下面将结合本发明实施例中,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供一种技术方案:一种基于事件知识图谱构建的流域旱涝事件长期预测方法,预测方法包括如下:

s1,在进行数据的获取时,可以对两种数据进行获取,一种是结构化数据,另一种是非结构化数据;

s2,在进行抽取时可以从互联网文献库中抽取相关的事件信息,并进行结构化表示,如什么对象,什么时间,发生了什么事情,事件指数如何定义;

s3,从文献中抽取事件之间的逻辑关系,包括共指关系、从属关系、时序关系、以及因果关系等;

s4,利用上述抽取出的知识和关系构建知识图谱模型,由于因素复杂,最终指向旱涝事件的应该有多种关系;

s5,利用前述的结构化历史数据,与上述抽取的事件相互对应,构建事件知识历史序列;

s6,将s5中构建的事件历史序列带入知识图谱模型当中,通过大量数据集的训练确定事件关系影响权重和事件触发机制;

s7,再将最新的事件背景情况输入知识图谱模型中进行预测,并实现知识的不断迭代更新。

步骤s1中,其中结构化数据为长江流域气象水文站点历史降水资料,历史序列资料,海温场、冰雪场、大气场等格点历史再分析数据、国家气候中心130项环流指数资料等,而非结构化数据为庞大的互联网文献库,需要根据实际情况进行选择。

步骤s2中,在进行对文献知识的抽取时,采用关键字提取算法textrank来实现,该方法通过提取文献中的关键词作为关键知识,由于机器提取方法有时难以判断复杂的逻辑关系,因此在机器提取的基础上还需要人工经验来进行校正。textrank方法首先将文献分成完整的句子[s1,s2,…,sn],对句子进行分词和词性标注,过滤无意义词,从而将句子sn分为一组单词[wn,1,wn,2,…,wn,i],算法根据这些单词构建候选关键字网络g=(v,e),v是所有单词的集合,e则是由代表单词之间共现关系的边组成的集合,共现关系是指一对词在长度为k的文本窗口内共现。根据公式(1)迭代计算各节点的rank(vi)直到收敛,再选择rank(vi)的数值较大者作为关键词。

式中:d为用于平滑的参数;in(vi)是vi的前继节点,out(vj)为vj的后继节点。若抽取的关键词中同时出现关注区域、降水事件和气候事件,则通过人工校正的方式确认文献中的各事件,并记录具体的气候因子指数定义公式。

步骤s3中,抽取的逻辑关系包括事件的共指关系,如赤道中东太平洋海温异常偏暖与发生厄尔尼诺事件是同一件事,其次从属关系如:长江中下游降水偏多包含两湖水系降水偏多、江西省降水偏多等子事件,时序关系如:冬季发生青藏高原积雪异常偏少事件,次年夏季发生长江流域暴雨洪涝事件,最后因果关系如:前期赤道中东太平洋海温异常偏暖有利于长江中下游降水异常偏多。考虑文本中的关系复杂,机器抽取有时难以判断,因此在抽取关系时同样需要人工来进行确认。

步骤s4中,首先需要对步骤2和步骤3中抽取的事件知识和关系进行整合,如将从属和共指关系的事件进行合并,将时序和因果关系的事件进行联系,构建的知识图谱结构示意图如图2所示,其中的因子空间属性、时间属性、量级属性用指数来表示。依据上述知识图谱结构,将所有搜索到的降水事件、气候事件、气候事件指数定义知识作为节点,将提取的关系作为边,利用边将各个节点相互联系起来,形成如图3所示的事件知识图谱,图中实线箭头表示直接关系(也称直接边),即直接影响降水的事件,虚线箭头表示间接关系(也称间接边),即表示气候因子之间或者气候因子与指数之间的关系。

步骤s5中,在构建事件知识历史序列时,需要给定相应的阈值,并计算其强度,计算时分为降水事件和气候事件两类。降水事件通过流域面雨量序列来计算,如:定义长江中下游降水偏多20%以上的事件为一次长江中下游涝/旱事件,即可构建长江中下游旱涝事件历史序列,并利用降水的距平百分比值作为降水事件的强度;气候事件分为前期气候事件(提前于降水事件发生)和同期气候事件(与降水事件同一时期发生),前期气候事件通过z-score标准化后的实况气候指数来定义,若指数绝对值大于0.5个标准差,认为发生一次气候异常事件,事件强度按照指数转化为百分制来定义,若指数绝对值大于等于1个标准差,认为强度达到100。同期气候事件作为预测时段的变量,无法利用实况资料直接获取,采用模式预测的指数和前期气候因子相关分析两种方法获取,由于目前的模式预测不确定性还较大,此处定义当统计关系和模式预测指数均表明发生一次气候事件时,认为发生一次强的事件(强度为100),当统计关系和模式指数预测发生气候事件不一致时,认为发生一次弱的事件(强度为60),当二者均表明不发生气候事件时,认为不发生事件(强度为0)。

步骤s6中,利用上述构建的大量历史事件知识序列训练知识图谱模型,得到直接边的影响权重,权重具体计算方法为:若影响某种降水事件的所有直接气候事件总数目为n,历史事件序列中发生某种降水事件的总次数为m,统计历史数据中各直接气候事件与该降水事件一致的次数分别为[m1,m2,...,mn],则某个气候因子i的影响权重pi可通过公式(2)来获取:

通过上述影响权重可以建立降水事件触发机制,即利用气候事件强度与影响权重的乘积,计算各种降水事件的得分,若某一降水事件的得分在各事件中最高,且分值高于60分,即可触发该事件。

步骤s7中,将最新的事件背景情况输入知识图谱模型中进行预测,并实现知识的不断迭代更新。

综上所述,本发明通过利用知识图谱来构建流域旱涝汛期事件预测模型,再充分利用信息的基础上实现预报的客观化和自动化,无需由人工来进行选取和预测分析工作,这样在预测的过程中就不会受到外部影响因素过多的情况,关系复杂的数据也能够进行较好的处理,利用知识图谱构建的预测方法省时省力,最后得出的预测报告不存在主观因素的影响,在应用时非常的方便。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1