一种室外作业中暑风险的预测方法、系统、介质及计算机设备与流程

文档序号:32300939发布日期:2022-11-23 08:19阅读:73来源:国知局
一种室外作业中暑风险的预测方法、系统、介质及计算机设备与流程

1.本发明涉及预测模型技术领域,特别涉及一种室外作业中暑风险的预测方法、系统、介质及计算机设备。


背景技术:

2.夏季室外高温是室外作业人员均会接触的职业病危害因素,可能导致中暑,严重时危及人员生命。现对高温中暑风险的预警主要是依据气象数据,对区域进行高温预警,并未考虑每个人的个体差异及采取的防护措施,不能准确提出作业人员个体在夏季室外作业的风险。其中,影响职业性中暑的因素有很多,包括气象因素、个体因素、体力消耗因素以及其他可能影响职业性中暑的潜在因素。
3.目前来说,以气象因素为主预测全体人群热相关疾病的模型较多,尚缺乏针对室外作业工人群体职业性中暑的预测方法。
4.因此,如何提供一种室外作业中暑风险的预测方法,是目前亟待解决的问题。


技术实现要素:

5.本发明实施例提供了一种室外作业中暑风险的预测方法,以解决现有技术中尚缺乏针对室外作业工人群体职业性中暑的预测方法的问题。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
6.第一方面,本技术提供一种室外作业中暑风险的预测方法,包括以下步骤:
7.确定变量库,所述变量库中包含是否中暑变量,对变量库中的变量进行赋值,利用赋值后的变量库采集若干数量的样本数据,形成数据集;
8.将是否中暑变量作为标签,变量库中的其他变量作为训练特征,利用所述数据集构建预测模型,通过所述预测模型,预测室外作业中暑风险。
9.可选地,所述预测室外作业中暑风险的步骤后还包括步骤:当预测室外作业的中暑风险大于等于预设阈值n时,引入对作业人员的干预措施。
10.可选地,所述预测模型包括随机森林模型、逻辑回归模型、支持向量机模型和/或极限梯度提升模型中的一种或者几种。
11.可选地,所述构建预测模型的步骤,包括:
12.将所述数据集中的数据根据x:y的比例分为训练集和测试集,利用训练集中的数据训练预测模型,并利用测试集中的数据测试预测模型,x大于y。
13.可选地,所述数据集中的数据根据7:3的比例分为训练集和测试集。
14.可选地,所述构建预测模型的步骤,还包括:
15.利用数据集中的数据对预测模型进行若干次交叉验证,计算并记录该预测模型在测试集上的准确率。
16.可选地,所述利用数据集中的数据对预测模型进行若干次交叉验证,计算并记录该预测模型在测试集上的准确率的步骤包括:
17.将数据集中所有的数据分成m份,不重复地每次取数据中的1份作为测试集,将其他m-1份作为训练集训练所述预测模型,然后利用计算并记录该预测模型在测试集上的准确率,重复m次,m为大于1的正整数。
18.可选地,将数据集中所有的数据分成10份,每次取数据中的1份作为测试集,将其他9份作为训练集训练所述预测模型,计算并记录该预测模型在测试集上的准确率,重复本步骤10次。
19.可选地,所述构建预测模型的步骤,还包括:测试所述预测模型参数的不同取值时的准确率变化,确定准确率最高时的参数取值,对所述预测模型参数进行优化。
20.可选地,所述预测模型为随机森林模型。
21.可选地,所述测试所述预测模型参数的不同取值时的准确率变化的步骤,包括:
22.以步进为10测试随机森林模型的分类器个数参数在0-200之间的准确率变化、以步进为1测试决策树的最大深度参数在1-25之间的准确率变化,和/或以步进为1测试建立决策树时选择的最大特征数目参数在5-30之间的准确率变化。
23.可选地,所述随机森林模型的分类器个数参数的取值范围为130-140,决策树的最大深度参数的取值范围为10-20,建立决策树时选择的最大特征数目参数的取值范围为5-10。
24.可选地,所述随机森林模型的分类器个数参数的取值为132,决策树的最大深度参数的取值为105,建立决策树时选择的最大特征数目参数的取值为5。
25.第二方面,本技术提供一种室外作业中暑风险的预测系统,包括数据采集单元和计算预测单元,其中:
26.所述数据采集单元,用于确定变量库,所述变量库中包含是否中暑变量,对变量库中的变量进行赋值,采集若干数量的样本数据,形成数据集;
27.所述计算预测单元,将是否中暑作为标签,变量库中的其他变量作为训练特征,构建预测模型,利用所述预测模型,预测室外作业中暑风险。
28.第三方面,本技术提供一种介质,其上存储有程序,该程序被处理器执行时实现如上任一项所述的室外作业中暑风险的预测方法中的步骤。
29.第四方面,本技术提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上任一项所述的室外作业中暑风险的预测方法中的步骤。
30.本发明实施例提供的技术方案可以包括以下有益效果:
31.通过确定变量并采集实际数据,以是否中暑作为标签,其他变量作为训练特征,明确了其他变量与中暑之间的关系,并对其他变量进行合理赋值,构建预测模型,使得预测模型具有较高的可信程度,能够在很大程度上成功预测中暑事件,可以提前采取干预措施,以降低高温天气下室外作业人员中暑的发生概率。
32.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
33.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
34.图1是根据一示例性实施例示出的室外作业中暑风险的预测方法的流程示意图;
35.图2是根据一示例性实施例示出的交叉验证的预测准确率示意图;
36.图3是根据一示例性实施例示出的随机森林模型n_estimators参数在0-200之间的预测准确率的示意图;
37.图4是根据一示例性实施例示出的室外作业中暑风险的预测系统的结构示意图。
38.图5是根据一示例性实施例示出的设备的结构示意图。
具体实施方式
39.以下描述和附图充分地示出本文的具体实施方案,以使本领域的技术人员能够实践它们。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本文的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。本文中,术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来,而不要求或者暗示这些元素之间存在任何实际的关系或者顺序。实际上第一元素也能够被称为第二元素,反之亦然。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的结构、装置或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种结构、装置或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的结构、装置或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
40.本文中的术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底"内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本文和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在本文的描述中,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
41.本文中,除非另有说明,术语“多个”表示两个或两个以上。
42.本文中,字符“/”表示前后对象是一种“或”的关系。例如,a/b表示:a或b。
43.本文中,术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,a和/或b,表示:a或b,或,a和b这三种关系。
44.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
45.请参照图1,本实施例提供一种室外作业中暑风险的预测方法,包括以下步骤:
46.确定变量库,所述变量库中包含是否中暑变量,对变量库中的变量进行赋值,利用赋值后的变量库采集若干数量的样本数据,形成数据集;
47.将是否中暑变量作为标签,变量库中的其他变量作为训练特征,利用数据集构建预测模型,通过预测模型,预测室外作业中暑风险。
48.在一个实施例中,当预测室外作业的中暑风险大于等于预设阈值n时,引入对作业人员的干预措施,其中阈值n可以根据不同情况设定,如考虑即将作业人员有无中暑事件发生,如有过,预测的风险值大于50%时,即引入干预措施,干预措施包括但不限于防中暑药物如藿香正气水、补充淡盐水或功能型饮料等,并在有必要,如气温超高时停止作业。
49.本方法通过确定变量并采集实际数据,以是否中暑作为标签,其他变量作为训练特征,明确了其他变量与是否中暑之间的关系,并对其他变量进行合理赋值,利用采集的实际数据作为数据集构建预测模型,使得预测模型具有较高的可信程度,能够在很大程度上成功预测中暑事件,可以提前采取干预措施,以降低高温天气下室外作业人员中暑的发生概率。
50.可选地,预测包括包括随机森林模型、逻辑回归模型、支持向量机模型和/
51.或极限梯度提升模型(xgboost)。
52.基于此,在一个实施例中,构建了如下所示变量库,并对变量库中的变量进行赋值:
53.变量:性别?赋值:女:0,男:1
54.变量:年龄?赋值:根据出身年份自动算出
55.变量:您的文化程度?赋值:硕士及以上:4,大学本、专科:3,高中(包括中专):2,初中:1,小学:0
56.变量:体重身高指数?赋值:收集身高h(m)和体重w(kg)信息,根据公式bmi=w/h2计算
57.变量:您的婚姻状况?赋值:已婚:3,未婚:2,离异:1,丧偶:0
58.变量:您工作的具体班组为?赋值:含[输电运检,输电运维,线路检修]任一字段:输电运检,编码为:3;含[变电运维,东南运维站,变电运检中心,运维站,检修工区,变电运检中心]任一字段:变电运维:2;含[变电检修,变电二次,二次检修,通讯系统运检]:变电检修:4;含[配电,供电所,服务站,抢修,供电中心,用电检查班,营业所,业务站,业务部]任一字段:配电运检:1;含电气试验字段:电气试验:6;含带电字段:带电作业:7;含电缆字段:电缆运检:5;[其他,智能巡检班]:其他:0
[0059]
变量:您是否被医生明确诊断患有以下疾病(可多选)?赋值:糖尿病,高血压,心血管,代谢:3;血压,冠心病,心脏,贫血,心血管:1;糖尿病,营养不良,脂肪肝,尿酸,血糖,痛风:糖尿病:代谢:2;头疼,高原病,腹泻,肾炎,肾结石,肝,甲状腺:器官性疾病:4;类风湿性关节炎,桥本氏甲状腺炎,未控制的甲亢,白癜风:免疫:6;气管炎,哮喘,肺,支扩,鼻炎:呼吸:5;无:无:0;其他:其他:7。
[0060]
变量:您的父亲或母亲是否确诊患有黑色素瘤?赋值:否:0;是:1
[0061]
变量:您的吸烟状况是?赋值:从未:0;过去:1;目前:2
[0062]
变量:您的饮酒状况是?赋值:从未:0;过去:1;目前:2
[0063]
变量:请选择您长期或规律服用的药物(可多选)?赋值:降压药/降糖药:心血管+代谢药物:3;降压药,调脂药,心脏:心血管药物:1;降糖药,尿酸,痛风,胃:代谢药物:2;优甲乐,非布司他,甲亢:内分泌:4;中药,鼻炎康片,消炎,咽炎,感冒:抗感染:5;无:无:0;其他:其他:6
[0064]
变量:2028年2月2日-2020年12月31日三年期间,您在高温环境下工作若感到口渴
时饮水的情况为?赋值:在口渴时有时能及时足量饮水:0;在口渴时大部分情况下能够及时足量饮水:1;每当口渴时都能及时足量饮水:2;在口渴时大约一半的情况下能及时足量饮水:3;几乎每当口渴时都不能及时足量饮水:4;从未感到过口渴,因此不需要饮水:5
[0065]
变量:2028年2月2日-2020年12月31日三年期间,您出现以下状况的频率—您在高温环境下工作时,采取降温或通风措施的频率为?赋值:几乎从未:0;有时:1;大约一半:2;多数情况:3;一直:4
[0066]
变量:您在高温环境下工作时,工作强度较大的频率为?赋值:几乎从未:0;有时:1;大约一半:2;多数情况:3;一直:4
[0067]
变量:您在高温环境下工作时,处于疲劳或虚弱状态的频率为?赋值:几乎没有:0;有时:1;大约一半:2;多数情况:3;一直如此:4
[0068]
变量:您在高温环境下工作时,需要在封闭工作空间(通风不良)内工作的频率为赋值:几乎没有:0;有时:1;大约一半:2;多数情况:3;一直如此:4
[0069]
变量:您开始高温作业前,睡眠不好的频率为?赋值:几乎没有:0;有时:1;大约一半:2;多数情况:3;一直如此:4
[0070]
变量:您开始高温作业前,感到身体状态不好的频率为?赋值:几乎没有:0;有时:1;大约一半:2;多数情况:3;一直如此:4
[0071]
变量:请问您是否出现过以下状况—您在2018年2月2日以前是否发生过中暑?赋值:否:0;是:1
[0072]
变量:2018年2月2日-2020年12月31日三年期间,您是否曾经接受过耐热性训练?赋值:否:0;是:1
[0073]
变量:您在2020年12月31日之前是否接受过关于中暑防护的教育培训?
[0074]
赋值:否:0;是:1
[0075]
变量:您的工作单位在2020年12月31日之前是否有设立关于中暑防护的规章制度?赋值:否:0是:1
[0076]
变量:工龄?赋值:2022-您何时开始在该单位工作___
[0077]
变量:2018年2月2日-2020年12月31日三年期间,您在高温环境下工作时,一天内单次连续不间断工作时间长度一般为?赋值:区间中位数
[0078]
您平均每月收入(年收入/12个月)为?赋值:区间中位数
[0079]
在该可选实施例中,以上述变量库及赋值规则,采用调查问卷的方式,获得了重庆市区供电公司、重庆綦南供电公司、重庆检修公司、重庆送变电公司不同岗位1753名工作人员在2018-2020年这3年时间里发生中暑的信息,排除掉工作内容不涉及户外高温环境的工人数据,最终纳入1284个岗位工人的信息,其中阳性事件(中暑)数目为563,阴性样本为721例,构建了数据集。
[0080]
在一个实施例中,在确定上述变量库,并完成数据采集形成数据集之后,将上述数据集中的数据按一定比例分成训练集和测试集,其中训练集和测试集的比例按照x:y,x》y原则进行,如8:2,7:3,6:4,选择4种机器学习模型,随机森林模型,逻辑回归模型,支持向量机模型和极限梯度提升模型分别进行训练和测试,在训练集和测试集的数据分配比例为7:3时,得到四种模型的预测准确率分别为:73.6%,71.1%,68.4%,69.9%,可以看出随机森林模型的预测结果优秀于其他三种模型。
[0081]
在一个实施例中,在确定上述变量库,并完成数据采集形成数据集之后,对数据集中的赋值变量进行方差筛选,利用f-test(联合假设检验)和互信息法对赋值变量进行双重筛选,具体的利用f-test(联合假设检验)去除方差为0的赋值变量,利用f-test(联合假设检验)去除f值大于0.05的赋值变量,利用互信息法删除贡献信息量小于0的变量,利用f-test(联合假设检验)筛选出了15个变量,利用互信息法筛选出了20个变量,两种方法合并筛选出了13个变量,利用上述实施例中的方法对筛选后的变量进行预测准确率测试,经过测试后发现,筛选合并变量后,预测准确率最高为72.2%,低于未筛选合并前的随机森林模型预测结果,因此通过变量筛选的方法未能够提升预测模型的预测效果。
[0082]
在一个实施例中,在确定上述变量库,并完成数据采集形成数据集之后,将所有数据按一定比例进行交叉验证是,其中将所有数据基本上均等分为m份,m为大于1的正整数,不重复地取其中1份作为测试集,其余的m-1份作为训练集,并不断重复选取数据作为训练集和测试集,训练并测试上述随机森林模型,收集每一次测试的预测准确率,观察预测准确率的波动幅度和区间,重复m次至所有的m份数据均被用作测试集进行测试训练。
[0083]
在一个实施例中,将所有的数据基本上均等分为10份,不重复地选取其中的1份作为测试集,其余9份作为训练集,重复10次训练并测试随机森林模型,收集每一次的预测准确率,观察预测准确率的波动幅度和区间,结合图2得到的10次交叉验证的预测准确率曲线图,可以看出,随机森林模型的预测准确率基本上稳定在70%-80%之间,具有较高的准确率。
[0084]
在一个实施例中,在完成测试预测模型参数的不同取值时的准确率变化的步骤后,确定准确率最高时的参数取值,对所述预测模型参数进行优化。
[0085]
在一个实施例中,测试预测模型参数的不同取值时的准确率变化的步骤,包括:
[0086]
以步进为10测试随机森林模型的n_estimators参数(分类器个数参数,指每次生成多少棵树用来评估结果)在0-200之间的准确率变化、以步进为1测试max_depth(最大深度参数)在1-25之间的准确率变化、以步进为1测试max_features(最大特征数目参数)在5-30之间的准确率变化,结合图3得到的0-200之间不同n_estimators参数预测准确率曲线图,可知当n_estimators参数的取值在130-140之间时,有较好的表现,尤其是在取值为132时,随机森林模型的预测准确率最高;同样的在其他参数不变时,当max_depth取值在10-20之间时,有较好的表现,尤其在其取值为15时,随机森林模型的预测准确率最高;同样的在其他参数不变时,当max_features(最大特征数目参数)的取值在5-10之间时,有较好的表现,尤其在其取值为5时,随机森林模型的预测准确率最高。
[0087]
如图4所示,在一个实施例中,提供了一种室外作业中暑风险的预测系统,包括数据采集单元和计算预测单元,其中:
[0088]
数据采集单元,用于确定变量库,且变量库中包含是否中暑变量,对变量库中的变量进行赋值,采集若干数量的样本数据,形成数据集;
[0089]
计算预测单元,将是否中暑作为标签,变量库中的其他变量作为训练特征,构建预测模型,利用预测模型,预测室外作业中暑风险。
[0090]
在一个实施例中,提供了一种室外作业中暑风险的预测系统,按照上述任一实施例提供的室外作业中暑风险的预测方法中的步骤,预测室外作业中暑风险。
[0091]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结
构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储静态信息和动态信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法实施例中的步骤。
[0092]
本领域技术人员可以理解,图5中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备的限定,具体的设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0093]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
[0094]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤。
[0095]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0096]
需要说明的是,以上描述仅为本技术的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0097]
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本技术的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0098]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1