服刑人员住院风险预测方法、装置、电子设备及存储介质与流程

文档序号:31899849发布日期:2022-10-22 03:41阅读:40来源:国知局
服刑人员住院风险预测方法、装置、电子设备及存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种服刑人员住院风险预测方法、装置、电子设备及存储介质。


背景技术:

2.随着医疗信息化的不断发展与完善,医疗已经迈入了信息化和数字化的时代。大量服刑人员在入狱前已经患有一些基础疾病,部分服刑人员在入狱后,受心理、躯体以及监狱环境适应等各方面原因的影响,也会出现新发的疾病并因此住院,造成监狱管理人员的不便,以及对监狱的财政支出也造成了不小的影响。因此,亟需提供一种对服刑人员住院风险进行准确预测的方案。


技术实现要素:

3.为了解决上述技术问题,本技术实施例提供了一种服刑人员住院风险预测方法、装置、电子设备及可读存储介质。
4.第一方面,本技术实施例提供了一种服刑人员住院风险预测方法,所述方法包括:获取服刑人员的基础信息、就诊信息和编号表;对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;基于随机森林算法训练住院风险预测模型;将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
5.根据本技术公开的一种具体实施方式,所述对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本,包括:根据所述服刑人员的基础信息计算基础数据均值;根据所述基础数据均值对所述服刑人员的基础信息进行插补得到所述待预测服刑人员的完整基础数据;剔除所述待预测服刑人员的完整基础数据中存在的异常值,得到所述待预测服刑人员的有效基础数据;对所述待预测服刑人员的有效基础数据进行虚拟变量处理,得到所述待预测服刑人员的基础信息样本。
6.根据本技术公开的一种具体实施方式,所述对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本,包括:获取所述就诊信息的关键字段和疾病编码表,根据所述关键字段关联所述就诊信息和所述疾病编码表;
剔除所述就诊信息中存在的缺失值,得到所述待预测服刑人员的有效就诊信息;对所述待预测服刑人员的有效就诊信息进行虚拟变量处理,得到所述待预测服刑人员的就诊信息样本。
7.根据本技术公开的一种具体实施方式,所述通过所述住院风险预测模型计算得到所述服刑人员的住院风险数据,包括:获取所述住院风险预测模型中的各叶节点的预测数值;判断所述各叶节点的预测数值是否大于或等于预设住院阈值;统计所述各叶节点中预测数值大于或等于预设住院阈值的目标叶节点的数量;根据所述目标叶节点的数量与所述住院风险预测模型中的叶节点总数的比率确定所述待预测服刑人员的住院风险数据。
8.根据本技术公开的一种具体实施方式,所述基于随机森林算法训练住院风险预测模型,包括:根据所述训练样本数据建立数据集;计算所述数据集的基尼不纯度;基于所述基尼不纯度判断所述数据集的有序程度;计算所述数据集的分叉深度;在所述分叉深度达到预设参数后停止对所述数据集分叉,得到所述住院风险预测模型。
9.根据本技术公开的一种具体实施方式,所述根据所述训练样本数据建立数据集,包括:基于自助法从所述训练样本数据中抽取n个数据样本;设置每个所述数据样本的特征数为m,指定一个小于m的常数m,随机从m个特征中选取m个特征,得到样本数为n、特征数为m的数据集。
10.根据本技术公开的一种具体实施方式,所述计算所述数据集的基尼不纯度,包括:根据以下公式计算所述基尼不纯度:;其中,c为数据集中的分类数,p(i)为数据点是第i个分类的概率。
11.第二方面,本技术实施例提供了一种服刑人员住院风险预测装置,所述服刑人员住院风险预测装置包括:获取模块,用于获取服刑人员的基础信息、就诊信息和编号表;处理模块,用于对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;关联模块,用于根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;训练模块,用于基于随机森林算法训练住院风险预测模型;预测模块,用于将所述训练样本数据输入中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
12.第三方面,本技术实施例提供了一种电子设备,包括存储器以及处理器,所述存储
器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的服刑人员住院风险预测方法。
13.第四方面,本技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的服刑人员住院风险预测方法。
14.上述本技术提供的一种服刑人员住院风险预测方法,通过获取服刑人员的基础信息、就诊信息和编号表;对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;基于随机森林算法训练住院风险预测模型;将所述训练样本数据输入中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据,通过对服刑人员的基础信息和就诊信息进行相应的处理,提高了数据完成度,通过住院风险预测模型对服刑人员的住院风险进行预测,有助于降低监狱的财政支出,提高监狱的管理效率。
附图说明
15.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对本技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
16.图1为本技术实施例提供的一种服刑人员住院风险预测方法的流程示意图;图2示出了本技术实施例提供的一种服刑人员住院风险预测装置的结构示意图;图3示出了本技术实施例提供的一种电子设备。
具体实施方式
17.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。
18.通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.在下文中,可在本技术的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
20.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
21.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本技术的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含
义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本技术的各种实施例中被清楚地限定。
22.实施例1本公开实施例提供了一种服刑人员住院风险预测方法。
23.具体的,参见图1,一种服刑人员住院风险预测方法包括:步骤s101,获取服刑人员的基础信息、就诊信息和编号表;具体地,服刑人员的身心健康状况会影响监狱对服刑人员的管理以及卫生保健支出,在监狱医疗方面,通常实行总额控制的公费医疗,虽然保障了服刑人员的医疗权,但也极大增加了监狱以及整个社会的医疗负担。
24.具体地,将监狱系统中有犯罪记录,并存储有相关基础信息的人员定义为服刑人员。可以从医保或医院等医疗系统中获取就诊信息,从服刑人员所在的监狱系统中获取基础信息。其中,所述基础信息包括服刑人员的人口学信息、心理评估信息、基本躯体信息和犯罪相关信息等,就诊信息包括服刑人员曾确诊的疾病。
25.步骤s102,对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;进一步地,将需要预测的服刑人员定义为待预测服刑人员。由于数据缺失会对模型的训练产生以下影响:第一,会丢失大量的有用信息;第二,数据中的不确定性更加显著,而其中蕴含的确定性成分更难把握,难以实现对大量数据的特征的有效挖掘;第三,包含空值的数据会使得数据挖掘过程陷入混乱,导致不可靠的输出。
26.具体实施时,所述对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本,包括:根据所述服刑人员的基础信息计算基础数据均值;根据所述基础数据均值对所述服刑人员的基础信息进行插补得到所述待预测服刑人员的完整基础数据;剔除所述待预测服刑人员的完整基础数据中存在的异常值,得到所述待预测服刑人员的有效基础数据;对所述待预测服刑人员的有效基础数据进行虚拟变量处理,得到所述待预测服刑人员的基础信息样本。
27.具体地,根据服刑人员的各个基础信息的字段数据计算各个基础信息的字段数据的数据均值,即可根据所述数据均值对服刑人员的各个基础信息的字段数据进行插补。将待服刑人员的完整基础数据中缺失的数据称为异常值,将其删除得到待预测服刑人员的有效基础数据。使用dummyvars函数对所述有效基础数据进行虚拟变量处理。
28.步骤s103,对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;在一实施方式中,所述对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本,包括:获取所述就诊信息的关键字段和疾病编码表,根据所述关键字段关联所述就诊信息和所述疾病编码表;剔除所述就诊信息中存在的缺失值,得到所述待预测服刑人员的有效就诊信息;
对所述待预测服刑人员的有效就诊信息进行虚拟变量处理,得到所述待预测服刑人员的就诊信息样本。
29.进一步地,所述就诊信息包括多种疾病类型,将多种疾病类型根据疾病编码表中的疾病类型进行分类归纳,将服刑人员就诊信息中为确诊的疾病类型称为缺失值,将就诊信息关联疾病编码表并剔除缺失值,得到待预测服刑人员的有效就诊信息,可以有效减少就诊信息样本的不均衡程度。
30.表1疾病编码表
疾病编码疾病名a00-a99;b00-b99某些传染病和寄生虫病c00-c99;d00-d48肿瘤d50-d99血液和造血器官疾病以及某些涉及免疫机制的疾病e00-e99内分泌、营养和代谢疾病f00-f99精神和行为障碍g00-g99神经系统疾病h00-h59眼及眼附件疾病h60-h99耳和乳突疾病i00-i99循环系统疾病j00-j99呼吸系统疾病k00-k99消化系统疾病l00-l08皮肤和皮下组织疾病m00-m99肌肉骨骼系统和结缔组织疾病n00-n99泌尿生殖系统疾病o00-o99怀孕、分娩和产褥期p00-p99源自围产期的某些情况q00-q99先天性畸形、畸形和染色体异常r00-r99其他未分类的症状、体征和异常临床和实验室结果s00-s99;t00-t99外部原因造成的伤害、中毒和某些其他后果v01-v99;w00-w99;x00-x99;y00-y99发病率和死亡率的外部原因z00-z99影响健康状况和接触卫生服务的因素u00-u99特殊用途代码
步骤s104,根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;具体地,监狱系统与医疗系统中对于同一名服刑人员的编号方式不同,因此,通常通过一张数据表记录服刑人员在监狱系统与医疗系统中的编号。将所述数据表称为编号表。
31.步骤s105,基于随机森林算法训练住院风险预测模型;具体地,随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支,集成学习(ensemble learning)方法。
32.在一实施方式中,所述基于随机森林算法训练住院风险预测模型,包括:根据所述训练样本数据建立数据集;计算所述数据集的基尼不纯度;
基于所述基尼不纯度判断所述数据集的有序程度;计算所述数据集的分叉深度;在所述分叉深度达到预设参数后停止对所述训练集分叉,得到所述住院风险预测模型。
33.具体地,基尼不纯度是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。是在进行决策树编程的时候,对于混杂程度的预测中的一种度量方式。
34.在一实施方式中,分叉深度的参数,以网格搜索的方式进行参数调优,所述参数包括:单株决策树使用特征的最大数量、决策树的最大深度、随机森林中决策树的数量。若该节点的样本数少于该分叉深度的参数,则停止对所述训练集分叉。
35.进一步地,通过上述基尼不纯度判断数据集的有序程度,有序程度越高,所述住院风险预测模型的预测效果越好。
36.步骤s106,将所述训练样本数据输入随机森林预测模型中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
37.具体实施时,所述通过所述住院风险预测模型计算得到所述服刑人员的住院风险数据,包括:获取所述住院风险预测模型中的各叶节点的预测数值;判断所述各叶节点的预测数值是否大于或等于预设住院阈值;统计所述各叶节点中预测数值大于或等于预设住院阈值的目标叶节点的数量;根据所述目标叶节点的数量与所述住院风险预测模型中的叶节点总数的比率确定所述待预测服刑人员的住院风险数据。
38.具体地,住院风险预测模型对训练样本数据进行预测,基于随机森林算法会产生多个叶节点,每个叶节点对应相应的预测数值,若叶节点中的预测数值大于或等于预设住院阈值,则确定该待预测服刑人员需要住院,若叶节点中的预测数值小于预设住院阈值,则确定该待预测服刑人员不需要住院,将预测数值大于或等于预设住院阈值的叶节点称为目标叶节点。将住院风险预测模型中的目标叶节点数量与叶节点总数的比率确定为待预测服刑人员的住院风险。
39.具体实施时,所述根据所述训练样本数据建立数据集,包括:基于自助法从所述训练样本数据中抽取n个数据样本;设置每个所述数据样本的特征数为m,指定一个小于m的常数m,随机从m个特征中选取m个特征,得到样本数为n、特征数为m的数据集。
40.具体实施时,所述计算所述数据集的基尼不纯度的步骤,包括:根据以下公式计算所述基尼不纯度:;其中,c为训练集中的分类数,p(i)为数据点是第i个分类的概率。
41.可以理解地,基于基尼系数计算分叉时所述数据集的基尼不纯度,基尼不纯度的数值越高,说明数据集的不纯度越高。
42.本实施例提供的服刑人员住院风险预测方法,通过获取服刑人员的基础信息、就诊信息和编号表;对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;
对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;基于随机森林算法训练住院风险预测模型;将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据,通过对服刑人员的基础信息和就诊信息进行相应的处理,提高了数据完成度,通过住院风险预测模型对服刑人员的住院风险进行预测,有助于降低监狱的财政支出,提高监狱的管理效率。
43.实施例2此外,本公开实施例提供了一种服刑人员住院风险预测装置。
44.具体的,如图2所示,服刑人员住院风险预测装置200包括:获取模块201,用于获取服刑人员的基础信息、就诊信息和编号表;处理模块202,用于对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;关联模块203,用于根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;训练模块204,用于基于随机森林算法训练住院风险预测模型;预测模块205,用于将所述训练样本数据输入随机森林预测模型中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
45.本实施例提供服刑人员住院风险预测装置200可以实施实施例1所示的服刑人员住院风险预测方法,为避免重复,在此不再赘述。
46.本实施例提供的服刑人员住院风险预测装置,通过获取服刑人员的基础信息、就诊信息和编号表;对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;基于随机森林算法训练住院风险预测模型;将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据,通过对服刑人员的基础信息和就诊信息进行相应的处理,提高了数据完成度,通过住院风险预测模型对服刑人员的住院风险进行预测,有助于降低监狱的财政支出,提高监狱的管理效率。
47.实施例3此外,本公开实施例提供一种电子设备300,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述实施例1所提供的服刑人员住院风险预测方法。
48.具体的,参见图3,所述电子设备300包括:接收机301、总线接口及处理器302。
49.在本发明实施例中,电子设备300还包括:存储器303。在图3中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器302代表的一个或多个处理器和存储器303代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。接收机301可以是多个元件,即包括发送机和接收机,提供
用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线架构和通常的处理,存储器303可以存储处理器302在执行操作时所使用的数据。
50.本发明实施例提供的电子设备300,可以实施实施例1所示的服刑人员住院风险预测方法,为避免重复,在此不再赘述。
51.实施例4本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述实施例所提供的服刑人员住院风险预测方法。
52.在本实施例中,计算机可读存储介质可以为只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
53.本实施例提供的计算机可读存储介质可以实施实施例1所示的服刑人员住院风险预测方法,为避免重复,在此不再赘述。
54.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
55.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
56.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1