本发明属于文本挖掘,特别是涉及一种人为原因报告类事件信息文本分析与分类方法。
背景技术:
1、民航系统是一个复杂的巨系统。人、机、环、管中的各因素相互制约、相互联系,为民航各企事业单位提供了数量庞大且繁琐的安全信息。航空安全信息系统、民航企事业单位的安全管理系统汇集了大量的安全信息,其中涉及人为因素信息主要包括机组原因导致的各类不安全事件信息。面对这些庞杂的自然语言形式的事件文本,目前通用的统计分析、人工分析方法在信息分析方式、分析深度以及分析效率等方面还存在一定的局限性,因此,如何提高非结构化,数量较为庞大的文本描述事件信息的分析、利用效率,从中获取关键风险信息和潜在规律,为事故预防和安全管理工作提供实质性的建议和方向是航空安全信息领域亟需解决的问题。
2、随着强制报告信息收集量的日益增加,产生了传统的统计分析、趋势分析以及单起事故或事件致因分析已逐渐无法满足通过数据驱动实现精准安全管理的矛盾,因为统计和趋势分析大都停留在数据的宏观层面。由于局方和企业都尚缺乏对大量数据的深入挖掘和综合分析应用,无法为由人为因素导致的不安全事件的主动预防、超前预防提供具有指导意义的知识。
技术实现思路
1、本发明的目的是提供一种人为原因报告类事件信息文本分析与分类方法,以解决上述现有技术存在的问题。
2、为实现上述目的,本发明提供了一种人为原因报告类事件信息文本分析与分类方法,包括以下步骤:
3、获取包含事件信息的研究样本;
4、基于所述研究样本获取文本数据;
5、基于自然语言处理工具对所述文本数据进行操作行为文本特征提取;
6、基于所述文本特征进行事件信息风险挖掘,获取关键特征词集合;
7、基于所述关键特征词集合进行事件信息风险可视化,获取事件发生因果关系链,基于所述事件发生因果关系链获取安全控制措施策略。
8、可选地,基于所述研究样本获取文本数据的过程包括:
9、获取所述研究样本中的事件信息;
10、将所述事件信息中的“简要经过”和“原因分析”进行数据合并,获取所述文本数据。
11、可选地,基于自然语言处理工具对所述文本数据进行操作行为文本特征提取的过程包括:
12、对所述文本数据进行预处理,获取规范化数据;
13、构建用户自定义词典与概念词典,基于语言技术平台对所述规范化数据进行分词与词性标注,获取词性标注结果;
14、采用依存句法分析方法对所述规范化数据进行语法成分识别,分析所述语法成分间的从属关系,获取语法分析结果;
15、以列表的形式对所述词性标注结果以及所述语法分析结果进行存储;
16、基于中文语法启发式规则进行文本特征提取;
17、采用语义角色标注的提取方法对所述文本特征进行补充;
18、基于所述文本数据构建验证集,通过计算准确率、召回率和f1值对所述文本特征提取的整体性能进行验证。
19、可选地,对所述文本数据进行预处理的过程包括:
20、基于python正则表达式对所述文本数据进行名词提取;
21、基于停用词表以及人工监督过滤所述文本数据中与人为操作特征无关的样本内容。
22、可选地,基于中文语法启发式规则进行文本特征提取的方法包括主谓宾关系抽取、主语和宾语的内容补全、核心动词含义补全、动宾关系补全、主谓宾并列结构的处理、含有介宾关系的主谓动补结构。
23、可选地,基于所述文本特征进行事件信息风险挖掘的过程包括:
24、构建lda主题模型;
25、基于所述lda主题模型获取文档-主题概率分布、主题-词分布以及主题概率强度图;
26、基于python编程进行风险主题拟合以及主题关键特征词显示;
27、对所述主题关键特征词以及原始数据进行归纳分析,基于分析结果对风险主题进行定义;
28、基于所述主题概率强度图获取排名靠前的风险主题;
29、通过风险主题与特征词对应,将所述主题关键特征词组合,获取所述关键特征词集合。
30、可选地,基于所述lda主题模型获取文档-主题概率分布、主题-词分布以及主题概率强度图的过程包括:
31、通过所述lda主题模型的输入层将所述文本特征传输至处理层,通过处理层对所述文本特征进行二次预处理,通过输出层输出文档-主题概率分布、主题-词分布以及主题概率强度图。
32、可选地,基于所述关键特征词集合进行事件信息风险可视化的过程包括:
33、基于所述关键特征词集合中主题的共现次数获取风险主题共现矩阵;
34、基于gephi可视化软件对所述风险主题共现矩阵进行可视化,获取风险主题共现网络图谱;
35、对所述风险主题共现网络图谱进行平均加权度和pagerank值计算,将排名靠前的平均加权度、pagerank值与排名靠前的风险主题进行强度对比;
36、分别对强度对比后的风险主题构建风险主题语义图谱;
37、对所述风险主题语义图谱进行核心文本特征筛选,获取所述事件发生因果关系链。
38、本发明的技术效果为:
39、本发明实现了以“离散化数据—结构化信息—可视化知识”为主线的机组原因事件信息数据抽取与深入挖掘方法。经过数据处理、知识挖掘及知识可视化等过程完成了机组人为因素事件信息风险主题语义图谱构建,实现了从语义和语用的角度深入挖掘信息中隐含的风险主题及核心的风险因素,对以机组人为因素事件信息为代表的航空安全信息资源开发利用和研究模式进行了探索。
1.一种人为原因报告类事件信息文本分析与分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述研究样本获取文本数据的过程包括:
3.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于自然语言处理工具对所述文本数据进行操作行为文本特征提取的过程包括:
4.根据权利要求3所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,对所述文本数据进行预处理的过程包括:
5.根据权利要求3所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于中文语法启发式规则进行文本特征提取的方法包括主谓宾关系抽取、主语和宾语的内容补全、核心动词含义补全、动宾关系补全、主谓宾并列结构的处理、含有介宾关系的主谓动补结构。
6.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述文本特征进行事件信息风险挖掘的过程包括:
7.根据权利要求6所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述lda主题模型获取文档-主题概率分布、主题-词分布以及主题概率强度图的过程包括:
8.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述关键特征词集合进行事件信息风险可视化的过程包括: