铁路事故因子辨识与关系抽取方法、系统及设备和介质与流程

文档序号:35649325发布日期:2023-10-06 10:49阅读:50来源:国知局
铁路事故因子辨识与关系抽取方法、系统及设备和介质与流程

本技术涉及铁路事故分析。更具体地,涉及一种基于文本挖掘的铁路事故致因因子辨识与关系抽取方法。


背景技术:

1、当前,铁路系统是我国至关重要的基础设施之一,在综合交通运输体系中具有不可取代的关键地位。作为攸关旅客生命和财产安全的大型地面运输系统,铁路系统的安全性与可靠性至关重要。但铁路系统作为一个复杂的大系统,其各要素之间耦合度高,各子系统之间接口关系复杂,单一因素的微小变化都有可能导致整个系统行为的迅速恶化,从而为铁路安全运营埋下隐患,最终可能引发重大铁路事故。因此,如何规避事故、提升铁路安全运输能力,是铁路安全运营亟待解决的关键问题。而基于铁路历史事故写实文档开展分析,挖掘事故致因因子,辨识致因因子间的非线性关系,为有效预测事故风险点,提高风险预警技术,完善运营管理策略,实现铁路系统事故预防管控,具有重要现实意义。

2、目前常用的铁路事故分析主要利用专家经验对历史事故数据进行单因素分析,忽视了事故致因因素的多维性和关联性,或采用综合评价方法对不同因素人为加权进行事故评价。虽然现有研究已经形成了一定的理论方法,然而这些方法存在一定的局限性。一方面,受限于领域专家的经验知识。铁路的安全运营涉及到不同环节和不同专业,而不同领域的专家之间存在知识壁垒,难以从系统性视角进行综合分析;另一方面,以结构化数据信息为主,忽略了日益积累的海量非结构化数据信息的有效利用。随着铁路系统运营管理的不断发展,铁路行业建立了覆盖全国铁路固定设施、移动装备和沿线环境的传感器网,积累了面向铁路行车安全主题的海量业务信息,其中在铁路行车安全领域体量最大、保存周期最长、蕴含价值最丰富的文本文件就是铁路事故写实文档,这些非结构化文本数据作为关键事故信息载体,蕴含着丰富的价值,亟需通过文本挖掘的方式探索隐藏在文本中有关事故的发生规律,从而为铁路行车安全从被动安全向主动安全提供决策支持。

3、文本挖掘是针对非结构的文本数据,获取未知的、可被理解的有用知识的全过程,涉及到数据采集、存储、检索、特征提取、挖掘分析等子任务。文本挖掘方法已被广泛应用在各个领域,取得了较高的实用价值。

4、因此,与目前传统的事故分析方法相比,亟需提出一种基于文本挖掘的铁路事故致因因子辨识和关系抽取方法,以铁路历史事故写实文档为研究对象,通过文档转换、数据清洗、特征提取等技术将非结构化的文本数据进行结构化转换,采用文本挖掘方法提取关键特征,利用专家领域知识进行特征标注形成知识库,进而构建包含三层结构的致因因子辨识方法,辨识出事故致因因子,并抽取致因因子关系。该方法在充分运用海量铁路历史事故数据的基础上,将专家领域知识转化为知识库,避免了领域专家的局限性及主观性,构建形成统一标准的领域知识库,有效从历史事故中学习出致因因子及其关系。


技术实现思路

1、本技术实施例提供了一种基于文本挖掘的铁路事故致因因子辨识和关系抽取方法,以解决海量非结构化数据信息的有效利用问题。

2、第一方面,本技术实施例提供了一种铁路事故因子辨识与关系抽取方法,包括:

3、历史事故文本数据集获取步骤:针对多种来源的铁路历史事故写实文档的段落篇章布局特征,定义正则表达式,抽取历史事故写实文档中对事件描述的文本段落进行数据清洗,获取有效的历史事故文本数据集;

4、结构化特征提取步骤:对有效的历史事故文本数据集基于预构造的铁路领域词表进行分句的分词后,基于分词进行词性标注及命名实体识别,将词性标注的结果进行依存句法结构生成后,进行历史事故文本数据集结构化特征提取和结构化存储;

5、致因因子辨识分类步骤:标注历史事故文本数据的结构化特征进行知识库的构建,基于知识库通过构建包含多层致因因子的致因因子识别方法进行事故致因因子辨识,分类得到多层事故致因因子集;

6、致因因子关系抽取步骤:基于多层事故致因因子集进行排序组合,构建形成事故致因因子链,实现事故致因因子关系的抽取。

7、优选的,上述历史事故文本数据集获取步骤进一步包括:

8、文本格式转换步骤:针对包含多种格式及多个来源的铁路历史事故写实文档,采用统一文件编码方式进行文件类型转换,得到可识别格式的文件;

9、有效文本获取步骤:分析可识别格式的文件的段落篇章布局特征,设计正则表达式,过滤清洗无关的铁路历史事故文本,获得由有效的铁路历史事故文本组成的铁路历史事故文本数据集。

10、优选的,上述结构化特征提取进一步包括:

11、分词步骤:针对铁路历史事故文本,根据标点符号进行分句划分,得到分句集,铁路领域词表包括:铁路领域停用词表及铁路领域个性化分词表,采用预训练分词模型,结合铁路领域停用词表及铁路系统个性化分词表,针对分句集进行分词,得到分词结果;

12、词性标注步骤:针对铁路历史事故文本分句的分词结果,采用预训练词性标注模型进行词性标注;

13、命名实体识别步骤:针对铁路历史事故文本分句的分词结果,采用预训练命名实体识别模型进行命名实体识别;

14、词性筛选步骤:基于词性标注步骤得到的词性标注结果,对铁路历史事故文本进行分词词性筛选,保留预设有效词类,将筛选结果拼接,形成对应于铁路历史事故文本的新文本及新语料;

15、词频-逆向文件频率值计算步骤:针对新语料计算各个铁路历史事故文本中筛选后预设有效词类的词频-逆向文件频率tf-idf值,计算得出词语在不同文档中的代表性评分;

16、补充优化步骤:通过筛选各文档中代表性评分较高的词语,重复执行分词步骤至词频-逆向文件频率值计算步骤,对铁路领域停用词表及铁路领域个性化分词表进行补充优化;

17、依存句法结构识别步骤:基于铁路历史事故文本分句的分词结果及词性标注结果作为特征输入,采用预训练依存句法分析模型进行依存句法结构识别,分句中可得到多种依存句法结构,形成多元组特征并进行结构化存储。

18、优选的,上述致因因子辨识分类步骤进一步包括:

19、致因因子体系构建步骤:构建基于人机环管的多层致因因子体系,形成致因因子分类标签与描述的映射关系;

20、知识库构建步骤:针对文本数据的结构化特征进行标注构建多层知识库,知识库包括:映射关系、关键词词表及依存结构表;

21、致因因子集获取步骤:针对铁路历史事故文本数据集,完成数据清洗及文本特征计算后,基于知识库通过构建包含多层结构的致因因子识别进行事故致因因子分类辨识,生成致因因子备选集,通过对致因因子融合去重,得到了测试铁路历史事故文本数据集对应的致因因子集。

22、优选的,上述知识库构建步骤进一步包括:

23、获取铁路历史事故文本中词性标注为预设标记的外语单词,外语单词在文本中对应铁路事故等级,基于外语单词在多层致因因子体系中进行标注,获得具体标签,并在知识库中构建映射关系;

24、将铁路历史事故文本数据集词语对应的tf-idf值从高到低排序,筛选预设有效词类中词性为动词、名词以及实体词语作为备选,由专家标注关键词,并在知识库中将关键词积累到标签类别对应的关键词词表中;

25、针对铁路历史事故文本的依存句法结构中的主谓关系、动宾关系、状中结构,利用依存句法结构的代表性评分值从高到低排序,由专家标注关键依存结构,并在知识库中将关键依存结构积累到标签类别对应的依存结构表中。

26、优选的,上述致因因子集获取步骤进一步包括:

27、将测试铁路历史事故文本中标记类型为预设标记的外语单词根据映射关系进行映射,得到第一层致因因子;

28、采用关键词词表对测试铁路历史事故文本分词后的动词、名词结果进行检索,得到命中关键词序列,针对命中关键词序列中相邻出现的同一致因因子命中关键词进行过滤,得到过滤后的命中关键词序列为第二层致因因子;

29、采用依存结构表对测试铁路历史事故文本的依存句法结构进行检索,得到命中依存句法结构序列,对相邻出现的同一致因因子命中结构进行过滤,得到过滤后的命中依存结构序列为第三层致因因子,致因因子备选集包括:第一层致因因子、第二层致因因子及第三层致因因子。

30、优选的,上述致因因子关系抽取步骤进一步包括:

31、将关键词和依存句法结构的命中序列进行去重融合,融合过程结合铁路历史事故文本书写逻辑和人机环管的多层致因因子体系的内在关系,将属于预设类别因子排序提前,得到复合序列;

32、基于复合序列,根据第一层致因因子的因子类别划分为:

33、第一层致因因子对应的致因因子包含在复合序列中,则事故的致因因子关系为复合序列,得到致因因子关系链;

34、第一层致因因子对应的致因因子属于人为类或管理类因子且不包含在复合序列中,则将致因因子组合在复合序列中,使其排序在管理类致因因子后的第一个位置,得到致因因子关系链;

35、第一层致因因子对应的致因因子不属于人为类和管理类因子且不包含在复合序列中,则将其排序在复合序列最后一项,得到致因因子关系链。

36、第二方面,本技术实施例提供了一种铁路事故因子辨识与关系抽取系统,采用如上铁路事故因子辨识与关系抽取方法,铁路事故因子辨识与关系抽取系统包括:

37、历史事故文本数据集获取模块:针对多种来源的铁路历史事故写实文档的段落篇章布局特征,定义正则表达式,抽取历史事故写实文档中对事件描述的文本段落进行数据清洗,获取有效的历史事故文本数据集;

38、结构化特征提取模块:对有效的历史事故文本数据集基于预构造的铁路领域词表进行分句的分词后,基于分词进行词性标注及命名实体识别,将词性标注的结果进行依存句法结构生成后,进行历史事故文本数据集结构化特征提取和结构化存储;

39、致因因子辨识分类模块:标注历史事故文本数据的结构化特征进行知识库的构建,基于知识库通过构建包含多层致因因子的致因因子识别方法进行事故致因因子辨识,分类得到多层事故致因因子集;

40、致因因子关系抽取模块:基于多层事故致因因子集进行排序组合,构建形成事故致因因子链,实现事故致因因子关系的抽取。

41、第三方面,本技术实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的铁路事故因子辨识与关系抽取方法。

42、第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的铁路事故因子辨识与关系抽取方法。

43、相比于现有技术,具有以下突出的有益效果:

44、1)本发明方法基于文本挖掘的理论方法,充分利用铁路历史事故写实文档,通过文档转换、数据清洗、特征提取等技术实现非结构化数据向结构化数据的转化,进一步采用文本挖掘方法提取关键特征,辨识出铁路事故致因因子及其关系,可有效指导现场人员对重点事故进行防范,为实际事故故障风险预警与整治提供数据支持,从而保障铁路安全运行;

45、2)本发明方法针对铁路事故文本挖掘时,需要构建与铁路文本数据相关的知识库;以铁路历史事故写实文档为研究对象,通过文档转换、数据清洗、特征提取等技术将非结构化的文本数据进行结构化转换,采用文本挖掘方法提取关键特征,利用专家领域知识进行特征标注形成知识库;

46、3)本发明方法构建包含三层结构的致因因子辨识方法,辨识出事故致因因子,并抽取致因因子关系。该方法在充分运用海量铁路历史事故数据的基础上,将专家领域知识转化为知识库,避免了领域专家的局限性及主观性,构建形成统一标准的领域知识库,有效从历史事故中学习出致因因子及其关系。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1