基于关联规则算法的工业生产安全事故预判方法与流程

文档序号：32439500发布日期：2022-12-06 20:53阅读：34来源：国知局

1.本发明属于数据处理技术领域，具体涉及基于关联规则算法的工业生产安全事故预判方法。

背景技术：

2.当今时代，数据就是财富，把数据充分利用起来可以给生产带来便利，给决策提供科学依据。关联规则算法是数据挖掘的一个重要分支，其旨在寻找数据背后隐藏的相互关系，并将数据间的相互关系以一种直接、简单的方式表达出来。
3.安全永远是工业生产的第一条、重中之重。利用历史事故数据，从中挖掘出各类事故背后隐藏的关联关系，做到早发现、早预防、早处理，将事故争取消灭在萌芽阶段，对于安全生产有着重要的现实意义。

技术实现要素：

4.有鉴于此，一些实施例公开的技术方案是基于关联规则算法的工业生产安全事故预判方法，包括步骤：
5.s1、收集工业生产历史安全事故信息；
6.s2、对收集的工业生产历史安全事故信息进行预处理；
7.s3、根据预设最小支持度和最小置信度，利用关联规则算法得到各类历史安全事故的发生概率，以及各类历史安全事故之间的关联关系；
8.s4、根据得到的历史安全事故的发生概率和事故之间的关联关系，预判各类事故的发生概率。
9.进一步，一些实施例公开的基于关联规则算法的工业生产安全事故预判方法，步骤s2中对收集的工业生产历史安全事故信息的预处理包括：对数据文本分词，使用jieba工具库将事故记录信息按照设定的规范重新组合成词序列。
10.一些实施例公开的基于关联规则算法的工业生产安全事故预判方法，步骤s2中对收集的工业生产历史安全事故信息的预处理包括：关键词提取，使用textrank算法从分词后的词序列文本中抽出关键词。
11.一些实施例公开的基于关联规则算法的工业生产安全事故预判方法，步骤s2中对收集的工业生产历史安全事故信息的预处理包括：对获取的关键词进行降噪处理，去除干扰数据，补充缺失的数据，按照事故类型、严重程度进行分组。
12.一些实施例公开的基于关联规则算法的工业生产安全事故预判方法，步骤s2中，对收集的工业生产历史安全事故信息的预处理包括归一化处理，归一化处理包括：
13.(1)将短时间内接连发生的多个事故归并为一个事务项集；
14.(2)事务项集分为事故类型和严重程度两个维度；
15.(3)将事务项集转化为三维布尔矩阵，其中，x轴表示事务集的序号，y轴表示事故类型，z轴表示严重程度；0表示事故未发生，1表示事故发生。
16.一些实施例公开的基于关联规则算法的工业生产安全事故预判方法，步骤s3中利用apriori算法根据最小支持度得到频繁项集。
17.一些实施例公开的基于关联规则算法的工业生产安全事故预判方法，步骤s3中基于得到的频繁项集，得到各类事故之间的关联程度。
18.一些实施例公开的基于关联规则算法的工业生产安全事故预判方法，步骤s3中基于关联规则算法处理后得到事故的频繁项集的支持度，直接计算置信度，得到频繁事故间的强弱关联性。
19.本发明实施例公开的基于关联规则算法的工业生产安全事故预判方法，通过关联规则算法分析历史事故数据，根据最小支持度筛选出工业生产中高发的安全事故，在事故未发生前重点防患；当某一事故发生后，根据最小置信度筛选出可能出现的次生事故，有方向的进行重点防护；采用布尔矩阵结构存储分析数据，可以降低内存使用率，使用0和1的逻辑“与”运算取代字符串比较，提高算法的执行效率，尤其当原始数据非常海量时，提升效果更加显著。本方法可为安全生产提供科学的数据支持，为决策实施提供参考，在工业安全生产领域有潜在应用前景。
附图说明
20.图1实施例1基于关联规则算法的工业生产安全事故预判方法流程示意图。
具体实施方式
21.在这里专用的词“实施例”，作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。本发明实施例中性能指标测试，除非特别说明，采用本领域常规试验方法。应理解，本发明实施例中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明实施例公开的内容。
22.除非另有说明，否则本文使用的技术和科学术语具有本发明实施例所属技术领域的普通技术人员通常理解的相同含义；作为本发明实施例中其它未特别注明的试验方法和技术手段均指本领域内普通技术人员通常采用的实验方法和技术手段。
23.本文所用的术语“基本”和“大约”用于描述小的波动。例如，它们可以是指小于或等于
±
5％，如小于或等于
±
2％，如小于或等于
±
1％，如小于或等于
±
0.5％，如小于或等于
±
0.2％，如小于或等于
±
0.1％，如小于或等于
±
0.05％。在本文中以范围格式表示或呈现的数值数据，仅为方便和简要起见使用，因此应灵活解释为不仅包括作为该范围的界限明确列举的数值，还包括该范围内包含的所有独立的数值或子范围。例如，“1～5％”的数值范围应被解释为不仅包括1％至5％的明确列举的值，还包括在所示范围内的独立值和子范围。因此，在这一数值范围中包括独立值，如2％、3.5％和4％，和子范围，如1％～3％、2％～4％和3％～5％等。这一原理同样适用于仅列举一个数值的范围。此外，无论该范围的宽度或所述特征如何，这样的解释都适用。
24.在本文中，包括权利要求书中，连接词，如“包含”、“包括”、“带有”、“具有”、“含有”、“涉及”、“容纳”等被理解为是开放性的，即是指“包括但不限于”。只有连接词“由
……
构成”和“由
……
组成”是封闭连接词。
25.为了更好的说明本发明内容，在下文的具体实施例中给出了众多的具体细节。本
领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在实施例中，对于本领域技术人员熟知的一些方法、手段、仪器、设备等未作详细描述，以便凸显本发明的主旨。
26.在不冲突的前提下，本发明实施例公开的技术特征可以任意组合，得到的技术方案属于本发明实施例公开的内容。
27.在一些实施方式中，如图1所示，基于关联规则算法的工业生产安全事故预判方法，包括步骤：
28.s1、收集工业生产历史安全事故信息；
29.s2、对收集的工业生产历史安全事故信息进行预处理；
30.s3、根据预设最小支持度和最小置信度，利用关联规则算法得到各类历史安全事故的发生概率，以及各类历史安全事故之间的关联程度；
31.s4、根据得到的历史安全事故的发生概率和事故之间的关联关系，预判各类事故的发生概率。
32.一些实施例中，对收集的工业生产历史安全事故信息的预处理包括：对数据文本分词，使用jieba工具库将事故记录信息按照设定的规范，例如正则表达式，重新组合成词序列。
33.一些实施例中，对收集的工业生产历史安全事故信息的预处理包括：关键词提取，使用textrank算法从分词后的词序列文本中抽出关键词。关键词可以包含事故发生的时间、事故类型、严重程度等信息。
34.一些实施例中，对收集的工业生产历史安全事故信息的预处理包括：对获取的关键词进行降噪处理，去除干扰数据，补充缺失的数据，按照事故类型、严重程度进行分组。
35.一些实施例中，对收集的工业生产历史安全事故信息的预处理包括归一化处理，具体地，归一化处理包括：
36.(1)将短时间内接连发生的多个事故归并为一个事务项集；
37.(2)事务项集分为事故类型和严重程度两个维度；
38.(3)将事务项集转化为三维布尔矩阵，其中，x轴表示事务集的序号，y轴表示事故类型，z轴表示严重程度；0表示事故未发生，1表示事故发生。用布尔矩阵表示，有利于采用apriori算法进行逻辑“与”计算。
39.一些实施例中，利用apriori算法根据最小支持度得到频繁n项集。
40.一些实施例中，基于得到的频繁n项集，得到各类事故之间的关联程度。若n个事故组成的频繁n项集的支持度越大，说明这n个事故发生越频繁，关联程度越紧密。
41.一些实施例中，基于关联规则算法处理后得到事故的频繁项集的支持度，直接计算置信度，得到频繁事故间的强弱关联性。例如，事故{a}对{b}的置信度等于{ab}的支持度除以{b}的支持度，即表示当b事故发生后，紧接着a事故发生的概率。如果a对b的置信度大于或等于最小置信度，说明a和b这两类事故存在强关联关系，若b事故发生后，a事故极有可能发生。频繁n项集，通常是指该频繁项集中包含n项频繁发生事务。
42.关于关联规则算法
43.设i＝{i1,i2,i3,
…
}为事务数据库全部事务项集，事务项集t＝{t1,t2,t3,
…
}是i的子集，使用唯一标识符tid区分每一个事务项；若x是i的子集，t是t的子集，当且仅当时，说明事务t包含项集x。
44.关联规则算法的主要任务就是找出全部事务项集i中的频繁项集，对于频繁项集，有两个评估标准，即支持度和置信度。
45.支持度是对事务数据库中事务项集之间关联程度的重要衡量标准。若事务项集a与事务项集b的关联规则记为关联规则的支持度越大，说明事务项集a和b在全部事务项中出现的频率越高，关联关系越紧密；
46.置信度是对关联规则的可靠性程度的衡量，表示关联规则的强度。若关联规则的置信度越大，说明事务项集b在包含事务项集a的事务中出现的频率越高。
47.关联规则挖掘的目标就是生成满足用户预先设定的最小支持度minsup和最小置信度minconf的关联规则。置信度是在支持度的基础上生成的，利用已有支持度可以快速得到相应事务项集的置信度，所以关联规则挖掘的主要任务是事务项集支持度的计算，即寻找频繁n项集。
48.事务项集a在事务数据库中的支持度为包含项集a的事务数与事务总数的比值，记作sup(a)，其表示为公式(1-1)：
[0049][0050]
若事务项集a和事务项集b满足且a∩b＝φ，则的支持度为同时包含项集a和项集b的事务数与事务总数的比值，记作其表示为公式(1-2)：
[0051][0052]
若sup(a)≥minsup，则事务项集a为频繁项集；若事务项集a中包含k个项，则事务项集a为频繁k-项集。
[0053]
事务项集的置信度公式可表示为公式(1-3)：
[0054][0055]
若且则事务项集a对于事务项集b的支持度大于等于最小支持度，事务项集a对于事务项集b的置信度大于等于最小置信度，说明事务项集a与事务项集b存在强关联关系。
[0056]
一些实施例中，根据预设最小支持度和最小置信度，通过关联规则算法中的apriori算法得到频繁n项集，一般地n》0，表示这n个事故同时发生的概率大于等于最小支持度，即这n个事故发生比较频繁；同时利用已得到的频繁n项集，根据最小置信度得到各类事故间的强弱关联关系，预判当一个事故发生时，其它事故发生的概率。例如，若a事故对b事故的置信度大于或等于最小置信度，说明a和b之间存在强关联性，需重点防护；若a事故对b事故的置信度小于最小置信度，说明a和b之间存在弱关联性，可以忽略或降低防护等级。
[0057]
一般地，最小支持度和最小置信度可以根据本领域的经验值确定。
[0058]
一些实施例中，基于关联规则算法的工业生产安全事故预判方法，可以生成一个最终的分析报告，分析报告里面包含各类支持度大于等于最小支持度的历史事故占有记录以来所有事故的百分比，以及各事故间的关联程度百分比，统计维度包含事故发生时间，例如哪个月份多，以及事故类型、严重程度等工业生产中需要关注的其他事务属性。进一步，
可以形成一套科学有效的工业生产事故预判方法，根据事故发生的概率做好相应的应对措施，做好提前预警和隐患排查。
[0059]
本发明实施例公开的基于关联规则算法的工业生产安全事故预判方法，通过关联规则算法分析历史事故数据，根据最小支持度筛选出工业生产中高发的安全事故，在事故未发生前重点防患；当某一事故发生后，根据最小置信度筛选出可能出现的次生事故，有方向的进行重点防护；采用布尔矩阵结构存储分析数据，可以降低内存使用率，使用0和1的逻辑“与”运算取代字符串比较，提高算法的执行效率，尤其当原始数据非常海量时，提升效果更加显著，可为安全生产提供科学的数据支持，在工业安全生产领域有潜在应用前景。
[0060]
本发明实施例公开的技术方案和实施例中公开的技术细节，仅是示例性说明本发明的发明构思，并不构成对本发明实施例技术方案的限定，凡是对本发明实施例公开的技术细节所做的常规改变、替换或组合等，都与本发明具有相同的发明构思，都在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝爽张超
技术所有人：中化信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。