一种城市轨道交通基础设施设备故障分析方法及装置与流程

文档序号:34817485发布日期:2023-07-19 20:23阅读:52来源:国知局
一种城市轨道交通基础设施设备故障分析方法及装置与流程

本发明涉及轨道交通,特别涉及一种基于文本挖掘的城市轨道交通基础设施设备故障分析方法及装置。


背景技术:

1、随着城市轨道交通运营时间的不断增长和领域信息化的不断推进,运营单位积累了大量的故障维修记录数据。这些数据全面记录了日常生产过程中设施设备发生的故障与缺陷,但大部分都是长文本格式,管理人员难以快速、高效理解与挖掘这些数据中隐藏的新的知识。

2、文本挖掘可从文本数据中,提取有价值的信息和知识。文本挖掘技术本身涉及统计学、自然语言学、机器学习等多个领域的知识,为研究各类事物及其现象提供了新的可能。文本挖掘流程一般包括待挖掘文本集生成、文本预处理、结构化数据、数据分析、结果可视化、知识发现等几部分。

3、针对轨道交通运营过程中产生的丰富文档资料,已有很多研究机构与学者利用文本挖掘技术对其进行分析,尝试获取事件、故障或者事故的发生规律与特征,为管理者提供更丰富的决策支持依据。张磊与王喆《基于铁路安全管理信息报告的文本挖掘技术研究.铁路计算机应用2018;27(8):15-8》利用卡方检验和朴素贝叶斯对铁路安全管理信息报告进行文本降维与分类,提取文本特征,从而获取报告关键词,发现报告间的关联关系。李擎等《一种基于文本挖掘的铁路基础设施设备风险隐患识别模型.铁路计算机应用2018;27(2):1-4》采用基于cascaded hidden markov的分词算法,分析挖掘铁路设备质量问题的长文本数据,确定出薄弱设备类型与易发病害类型。邹运怀《基于文本挖掘的道岔故障分类研究.北京:北京交通大学;2016》利用支持向量机方法对道岔故障记录数据进行文本挖掘,基于道岔故障分类器实现其自动分类。李佳奇与党建武《基于mas电务故障诊断模型的研究.铁道学报2013;35(2):72-80》通过multi-agent system方法,构建具备自学习能力的电务故障诊断系统。

4、由于处理的文本数据来源于轨道交通专业,其中有很多专业术语。现有常用的分词工具都是基于日常通用领域的,如中科院的ctclas汉语分词系统等,没有针对轨道交通文本挖掘的分词库。利用现有分词工具可能将有特殊含义的单个轨道交通专用词组划分为多个词组,不能有效识别出专用词汇,导致本文挖掘效果不好。


技术实现思路

1、针对上述问题,本发明提供一种城市轨道交通基础设施设备故障分析方法及装置,本发明采用基于文本挖掘的城市轨道交通基础设施设备故障分析方法。

2、一种城市轨道交通基础设施设备故障分析方法,所述方法包括:

3、利用信息增益对经过预处理的设备故障文本进行特征降维,并对文本进行形式化表达;

4、对降维和形式化表达之后的文本进行分词处理,根据分词结果对设备故障原因与故障地点进行统计分类,基于统计分类分析判断故障原因。

5、进一步的,所述经过预处理的设备故障文本,具体包括:

6、将excel格式存储的设备故障或缺陷维修记录转换为txt文本,以utf-8格式编码存储字符集;并对转换后的干扰信息进行剔除;干扰信息包括特殊字符、公式和乱码。

7、进一步的,所述对经过预处理的设备故障文本进行特征降维,具体包括:

8、采用信息增益进行文本分词中的特征选择;利用包含与未包含某特征项的条件概率的差值,来判断其对分类的贡献度;ig值为去除该特征项的信息熵i(t)与包含该特征项的条件信息熵i(c|w)之差。

9、进一步的,所述ig值为去除该特征项的信息熵i(t)与包含该特征项的条件信息熵i(c|w)之差,具体包括:

10、ig值表述为g(t,w),具体见如下公式:

11、

12、其中,i(c|w)表示文本剔除与未剔除特征项w时,其出现在所在类c中的信息熵;p(c,w=0)为剔除特征项w时,其出现在类c中的概率;p(c,w=0)为未剔除特征项w时,其出现在类c中的概率;通过计算,选择具有较大的ig值构成新的低维特征向量。

13、进一步的,所述对文本进行形式化表达,具体包括:

14、采用tfc权值法对文本长度进行归一化处理,如下公式:

15、

16、式中,特征词tm在文本n中出现的频率为fn(tm),经计算得到特征词tm在文本n中的权值为w(tm,n);文本中共包含m个特征词,n个文档集数;f(tm)为特征词tm在n个文档集中出现的频率。

17、进一步的,所述对形式化表达和降维之后的文本进行分词处理,根据分词结果对设备故障原因与故障地点进行统计分类,具体包括:

18、利用朴素贝叶斯算法对经过处理的语料进行文本分类;即根据bayes公式计算已知文本的特征向量,然后计算包含此项时各个类别出现的条件概率,概率最大的则是其所属分类。

19、进一步的,所述根据bayes公式计算已知文本的特征向量,然后计算包含此项时各个类别出现的条件概率,概率最大的则是其所属分类,具体包括:

20、设x={d1,d2,...,dn}为一个待分类项,即待分类语料;dn为x的一个特征属性,即特征词;有文档类别集合d={y1,y2,...,ym};

21、计算条件概率p(y1|x),p(y2|x),…,p(ym|x);p(ym|x)为已知待分类语料x发生的条件下文档类别ym发生的概率;

22、假如p(yk|x)=max{p(y1|x),p(y2|x),...,p(ym|x)},则x∈yk;即计算包含此项时各个类别出现的条件概率,概率最大的则是其所属分类。

23、进一步的,所述计算条件概率p(y1|x),p(y2|x),…,p(ym|x),具体包括:

24、找到一个已知分类的待分类项集合,即训练样本集;

25、统计活动在各类别下各个特征属性的条件概率估计:

26、p(d1|y1),p(d2|y1),…,p(dn|y1),p(d1|y2),p(d2|y2),…,p(dn|y2),p(d1|ym),p(d2|ym),…,p(dn|ym);

27、各个特征属性相关独立,则有:

28、

29、nb算法通过计算待分类语料x中的各个特征词dn属于不同分类的概率p(yk|x),即可得到整个分类语料的分类结果。

30、进一步的,所述方法还包括利用词云图方法对分析结果进行可视化展现,即根据相应词频的高低决定每个单词的相对大小,辅以多种色彩显示,对分析出的故障原因和故障频发地点进行展示。

31、一种城市轨道交通基础设施设备故障分析装置,包括处理单元和分类单元;

32、处理单元,用于通过信息增益对经过预处理的设备故障文本进行特征降维,并对文本进行形式化表达;

33、分类单元,用于对降维和形式化表达之后的文本进行分词处理,根据分词结果对设备故障原因与故障地点进行统计分类,基于统计分类分析判断故障原因。

34、一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;

35、存储器,用于存放计算机程序;

36、处理器,用于执行存储器上所存放的程序时,实现上述的城市轨道交通基础设施设备故障分析方法。

37、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的城市轨道交通基础设施设备故障分析方法。

38、本发明至少具备以下有益效果:

39、本发明通过构建针对轨道交通专业文本数据的分词器,实现对城市轨道交通基础设施设备故障原因分析,以提高专用词汇的有效识别,提升挖掘效果。

40、本发明通过对故障数据进行特征分类提取与统计分析,大大降低了分词维度,有效确定出频发的故障地点与关键故障原因类型,并利用词云图对分析结果进行了可视化展示。分析结果结合关联数据对结果进行了进一步的分析,可为轨道交通设施设备的故障原因深度分析、故障预防提供有效的支持,提升管理者对基础设施设备的管理水平。

41、本发明首先利用信息增益对经过预处理的长文本进行特征降维,并利用tfc权值法对文本进行形式化表达。然后利用naive bayes算法对文本进行分词处理,根据分词结果对设备故障原因与故障地点进行统计分析。最后利用词云图方法对分析结果进行可视化展现。分析结果结合关联数据对结果进行了进一步的分析,可为轨道交通设施设备的故障原因深度分析、故障预防提供有效的支持。

42、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1