一种人员评定方法、装置、设备及存储介质与流程

文档序号:27448085发布日期:2021-11-18 00:24阅读:169来源:国知局
一种人员评定方法、装置、设备及存储介质与流程

1.本技术涉及人工智能和数字医疗领域,尤其涉及一种人员评定方法、装置、设备及存储介质。


背景技术:

2.现有技术中,常由相关工作人员来对待审核人员的状况进行评定,由人工进行评定时,常出现评定效率较低且相关工作人员的评定规则常常会出现偏差等问题。因此,如何快速且准确对相关人员进行经济状况认定成为了亟待解决的问题。


技术实现要素:

3.本技术提供了一种人员评定方法、装置、设备及存储介质,以解决现有技术中不能有效对相关人员进行经济状况认定的问题。
4.为解决上述问题,本技术提供了一种人员评定方法,包括:
5.获取各候选对象对应的医保数据和身份数据;
6.对所述医保数据和身份数据进行数据清洗,得到第一特征数据;
7.所述第一特征数据经分析模型处理,得到各所述候选对象的评分结果;
8.通过将所述评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;
9.在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级;
10.根据所述经济状况等级,获取对应的预设医疗报销比例。
11.进一步的,所述获取各候选对象对应的医保数据和身份数据包括:
12.向预设知识库发送调用请求,所述调用请求携带验签令牌;
13.接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述知识库中各候选对象对应的医保数据和身份数据,所述验签结果为所述知识库根据所述验签令牌进行rsa非对称加密方式验证得到。
14.进一步的,在所述第一特征数据经分析模型处理之前,还包括:
15.获取历史医保数据以及所述历史医保数据对应的历史身份数据;
16.对所述历史医保数据和历史身份数据进行数据清洗和数据衍生,得到第二特征数据;
17.利用合成少数类过采样算法对第二特征数据进行均衡处理,得到第三特征数据;
18.通过特征选取模型对所述第三特征数据进行特征重要性计算,根据所述特征重要性,提取预设比例的第三特征数据,得到训练集;
19.将所述训练集输入逻辑回归模型进行训练,得到所述分析模型。
20.进一步的,所述基于动态分级模型,得到所述帮助对象对应的经济状况等级包括:
21.获取所述帮助对象对应的所述医保数据和身份数据;
22.将所述帮助对象对应的医保数据和身份数据进行数据进行数据清洗,得到第四特征数据;
23.将所述第四特征数据输入所述动态分级模型进行处理,得到所述帮助对象对应的经济状况等级,所述动态分级模型为基于线性回归模型训练得到的。
24.进一步的,所述对所述历史医保数据和历史身份数据进行数据清洗包括:
25.通过对所述历史医保数据和历史身份数据中的缺失数据和异常数据进行热卡填充处理,对所述历史医保数据和历史身份数据中的重复数据进行删除处理。
26.进一步的,所述对所述历史医保数据和历史身份数据进行数据衍生包括:
27.通过对所述历史医保数据和历史身份数据进行线性变换处理,实现数据衍生。
28.进一步的,所述利用合成少数类过采样算法对第二特征数据进行均衡处理包括:
29.获取所述第二特征数据中的类型以及所述类型对应的数据量,基于各所述类型对应的数据量得到平均数据量;
30.将各所述类型对应的数据量与所述平均数据量进行比较;
31.当所述类型对应的数据量小于所述平均数据量时,则计算该所述类型对应的数据量与平均数据量的差值,得到增广数量;
32.基于所述增广数量,采用所述合成少数类过采样算法,对所述类型对应的数据量小于所述平均数据量的类型下的数据进行增广。
33.为了解决上述问题,本技术还提供一种人员评定装置,所述装置包括:
34.获取模块,用于获取各候选对象对应的医保数据和身份数据;
35.数据清洗模块,用于对所述医保数据和身份数据进行数据清洗,得到第一特征数据;
36.评分模块,用于所述第一特征数据经分析模型处理,得到各所述候选对象的评分结果;
37.比较判断模块,用于通过将所述评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;
38.分级模块,用于在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级;
39.提取模块,用于根据所述经济状况等级,获取对应的预设医疗报销比例。
40.为了解决上述问题,本技术还提供一种计算机设备,包括:
41.至少一个处理器;以及,
42.与所述至少一个处理器通信连接的存储器;其中,
43.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的人员评定方法。
44.为了解决上述问题,本技术还提供一种非易失性的计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的人员评定方法。
45.根据本技术实施例提供的一种人员评定方法、装置、设备及存储介质,与现有技术相比至少具有以下有益效果:
46.通过获取各候选对象对应的医保数据和身份数据,便于后续对数据进行分析;并
且还对所述医保数据和身份数据进行数据清洗,即进行一些缺失值处理、异常值处理和重复值处理,得到第一特征数据,通过将第一特征数据经分析模型处理,得到各所述候选对象的评分结果,通过将评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级,从而根据不同经济状况等级,获取对应的预设医疗报销比例,本技术能对各候选对象进行准确的经济状况认定,本技术还能有效监控医疗致经济状况差的情况,并且针对这一情况,还获取对应的处理方案,来避免或者缓解医疗致经济状况差的情况。
附图说明
47.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图做一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1为本技术一实施例提供的人员评定方法的流程示意图;
49.图2为本技术一实施例提供的人员评定装置的模块示意图;
50.图3为本技术一实施例的计算机设备的结构示意图。
具体实施方式
51.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象,而不是用于描述特定顺序。
52.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例,也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
53.本技术提供一种人员评定方法。参照图1所示,为本技术一实施例提供的人员评定方法的流程示意图。
54.在本实施例中,人员评定方法包括:
55.s1、获取各候选对象对应的医保数据和身份数据;
56.具体的,可通过直接接收有关候选对象输入的医保数据和身份数据,或从数据库中提取医保数据和身份数据。所述医保数据包括候选对象信息,以及候选对象所对应的疾病数据和就诊数据等。所述身份数据包括候选对象信息、候选对象收入信息、教育信息和资产信息等。基于候选对象信息,将医保数据和身份数据对应结合起来。
57.进一步的,所述获取各候选对象对应的医保数据和身份数据包括:
58.向预设知识库发送调用请求,所述调用请求携带验签令牌;
59.接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述知识库中各候选对象对应的医保数据和身份数据,所述验签结果为所述知识库根据所述验签令牌进行
rsa非对称加密方式验证得到。
60.由于医保数据和身份数据,会涉及用户的隐私数据,所以将医保数据和身份数据都保存至预设数据库中,所以在获取医保数据和身份数据时,数据库会进行验签步骤,以保证数据的安全,避免泄露数据等问题。
61.整个过程为,客户端计算消息m的第一消息摘要,并用rsa非对称加密方式对第一消息摘要进行加密(利用客户端的私钥),得到签名s,将消息m和签名 s再利用知识库的公钥,得到密文c,发送至知识库,知识库使用自己的私钥对密文c进行解密,得到消息m和签名s,知识库使用客户端的公钥对签名s进行解密,得到第一消息摘要;同时知识库用同样的方法对消息m进行摘要提取,得到第二消息摘要,判断第一消息摘要和第二消息摘要是否相同,相同则验证成功;不同则验证失败。
62.通过在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。
63.s2、对所述医保数据和身份数据进行数据清洗,得到第一特征数据;
64.具体的,所述数据清洗(data cleaning),即对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
65.常见的数据清洗处理包括缺失值处理、重复值处理和异常值处理,通过对医保数据和身份数据进行上述处理后,将得到具有一致性的第一特征数据。对于缺失值处理和异常值处理,可利用热卡填充进行处理,对于重复值处理可以进行删除处理。
66.在本技术的其他实施例中,在数据清洗后,还根据下述的特征选取模型选取的多个类型,基于多个所述类型对数据进行抽取,从而得到第一特征数据。
67.s3、所述第一特征数据经分析模型处理,得到各所述候选对象的评分结果;
68.具体的,将所述第一特征数据输入至分析模型中,得到各所述候选对象对应的评分结果,所述评分结果为多项子评分加权求和的结果,且每一项子评分的权重,与其对应的特征与帮助结果之间的关联程度呈正相关,所述分析模型基于逻辑回归模型训练得到。
69.进一步的,在所述第一特征数据经分析模型处理之前,还包括:
70.获取历史医保数据以及所述历史医保数据对应的历史身份数据;
71.对所述历史医保数据和历史身份数据进行数据清洗和数据衍生,得到第二特征数据;
72.利用合成少数类过采样算法对第二特征数据进行均衡处理,得到第三特征数据;
73.通过特征选取模型对所述第三特征数据进行特征重要性计算,根据所述特征重要性,提取预设比例的第三特征数据,得到训练集;
74.将所述训练集输入逻辑回归模型进行训练,得到所述分析模型。
75.具体的,首先,通过从数据库中获取大量的历史医保数据及历史医保数据对应的历史身份数据,再对所述历史医保数据和历史身份数据进行数据清洗,以保证数据的一致性,并且还进行数据衍生,以得到更多的数据,从而得到第二特征数据;再通过合成少数类过采样算法对第二特征数据进行均衡处理,以得到更均衡的第三特征数据,具体的,利用合成少数类过采样算法对样本少的类型进行增广,来得到各类型的数据都较均衡的第三特征数据;通过特征选取模型对所述第三特征数据中各数据所属的类型进行特征重要性计算,以得到各类型特征重要性排序,根据特征重要性排序,获取前预设比例的类型,并对类型对
应的数据进行抽取,得到训练集。将所述训练集输入至所述逻辑回归模型中进行训练,得到所述分析模型。所述分析模型为一种基于逻辑回归的评分卡模型。所述评分卡模型,根据被评价主体的各种属性和行为数据,利用规则及评分模型,对被评价主体进行评判。
76.通过合成少数类过采样算法对第二特征数据进行均衡处理,合成少数类过采样算法是一种基于最近邻的技术,由欧几里德判断特征空间中的数据点之间的距离。过采样的百分比表示要创建的合成样本的数量,过采样的百分比参数始终是 100的倍数。如果过采样的百分比是100,那么对于每个实例,新样本将被创建,因此,少数类实例的数量将增加一倍。
77.合成少数类过采样算法通过1)对该少数类的所有样本中找到对应的k个近邻,所述近邻可通过欧式距离进行判断;2)从这k个近邻中随机选择一个样本,再生成一个0

1之间的随机数,计算随机选择的样本与该样本的差值,将该差值乘以随机数后,再与该样本相加;重复步骤2)n次,即可合成n个新样本。
78.由于不同第三特征数据与“帮助结果”的关联程度不同,即医保数据和身份数据具有多种多样的属性特征,但并非所有的属性特征都能影响到候选对象的“帮助结果”情况,所以需要从候选对象对应的属性特征中,选择对于评价候选对象“帮助结果”情况有帮助的属性特征。
79.通过将第三特征数据输入特征选取模型,得到第三特征数据中各类型数据的重要性值,基于各类型数据对应的所述重要性值,提取预设比例的第三特征数据,或提取前预设个数的类型对应的数据。
80.所述特征选取模型可以基于gbdt(gradient boosting decision tree,梯度提升决策树)、自提升算法adaboost和逻辑回归模型等训练得到。
81.梯度提升决策树gbdt是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案;自提升算法adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器);逻辑回归模型属于线性分类模型,主要用于二分类问题,也可应用于多分类问题。将输入数据拟合到一个sigmoid函数中,输入可以是负无穷到正无穷,而输出总是[0,1],并且当输入为0时,输出的值为0.5。逻辑回归模型能够完成对事件发生概率进行预测。
[0082]
可以理解的,对于训练得到分析模型,是在首次使用模型之前就训练完成的,后续使用分析模型时,直接输入数据即可,并非每次获取到第一特征数据之后,都重新训练一个分析模型。
[0083]
通过对原始数据进行数据清洗、数据衍生、合成少数类过采样算法和特征选取处理,得到最终的训练集,并利用训练集来对逻辑回归模型进行训练,以得到最终分析模型,通过对数据的一系列处理,提高了训练数据的质量,使最终得到的分析模型的准确率和鲁棒性都较高。
[0084]
再进一步的,所述对所述历史医保数据和历史身份数据进行数据清洗包括:
[0085]
通过对所述历史医保数据和历史身份数据中的缺失数据和异常数据进行热卡填充处理,对所述历史医保数据和历史身份数据中的重复数据进行删除处理。
[0086]
具体的,热卡填充,又称就近补齐,对于一个包含空值的对象,在完整数据中找到
一个与它最相似的对象,然后用这个相似对象的值进行填充。该方法利用了数据间的关系来进行空值估计。
[0087]
将异常数据当做缺失值来进行处理,将异常数据进行删除,后进行热卡填充,即对缺失数据和异常数据都进行热卡填充处理。
[0088]
通过对历史医保数据和历史身份数据中的缺失数据和异常数据进行热卡填充,避免缺失值和异常数据对模型训练或之后的数据利用造成影响,导致模型判断不准确。
[0089]
再进一步的,所述对所述历史医保数据和历史身份数据进行数据衍生包括:
[0090]
通过对所述历史医保数据和历史身份数据进行线性变换处理,实现数据衍生。
[0091]
具体的,线性变换可以包括但不限于对数变化、求解平方根、求解立方根等处理,所述衍生数据与被衍生数据属于同一类型的数据,包含的特征相同,但特征对应的特征值不同。数据衍生,即利用现有数据经一系列线性变换处理得到现有数据对应的衍生数据,以扩充数据。
[0092]
所述数据衍生为对所有历史医保数据和历史身份数据进行处理,以总体提高数据量。
[0093]
再进一步的,所述利用合成少数类过采样算法对第二特征数据进行均衡处理包括:
[0094]
获取所述第二特征数据中的类型以及所述类型对应的数据量,基于各所述类型对应的数据量得到平均数据量;
[0095]
将各所述类型对应的数据量与所述平均数据量进行比较;
[0096]
当所述类型对应的数据量小于所述平均数据量时,则计算该所述类型对应的数据量与平均数据量的差值,得到增广数量;
[0097]
基于所述增广数量,采用所述合成少数类过采样算法,对所述类型对应的数据量小于所述平均数据量的类型下的数据进行增广。
[0098]
具体的,由于第二特征数据中不同类型的数据不一定均衡,而不均衡的数据输入至模型中进行训练,得到的最终模型其处理效果较差。所以需要对第二特征数据中含有较少数据的类型,进行数据增广。
[0099]
首先需要先得出第二特征数据中,数据量较少的类型,通过获取到各类型含有的数据量,基于所述数据量得到平均数据量,通过将各类型中的数据量与平均数据量进行比较,得到需要进行增广类型,需要的增广数量;基于所述增广数量,采用合成少数类过采样算法对类型对应的数据量小于所述平均数据量的类型下的数据进行增广。
[0100]
所述合成少数类过采样算法为一种过采样技术,其是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中;或者说,smote算法利用特征空间中现存少数类样本之间的相似性来建立人工数据的。
[0101]
通过采用合成少数类过采样算法对待增广的文本数据进行增广,最终得到均衡的数据集,以便于后续模型的训练,能训练出鲁棒性更好的模型。
[0102]
所述第一特征数据经分析模型处理,得到各所述候选对象的评分结果包括:
[0103]
所述第一特征数据经所述分析模型处理,得到疾病严重程度评分、长期慢性病评分、医疗费用差异评分、固定资产评分、收入水平评分和个人评分;
[0104]
对所述疾病严重程度评分、长期慢性病评分、医疗费用差异评分、固定资产评分、
收入水平评分和个人评分进行加权求和,得到各所述候选对象的评分结果。
[0105]
所述第一特征数据经分析模型得到多个维度的子评分,通过将多个维度的子评分进行加权求和,得到各所述候选对象的评分结果。所述权重根据所述评分对应的特征与帮助结果之间的关联关系得到。
[0106]
通过对各子项进行单独评分,并将各子项进行加权求和,得到各候选对象对应的评分结果,能提高结果的准确性。
[0107]
s4、通过将所述评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;
[0108]
具体的,经分析模型处理,得到候选对象对应的评分结果,来与预设阈值进行比较,以得到所述候选对象是否为帮助对象。若候选对象不为帮助对象时,则直接退出,不对所述候选对象做其他处理。
[0109]
s5、在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级;
[0110]
具体的,在所述候选对象为帮助对象时,获取帮助对象对应的所述医保数据和身份数据,基于帮助对象对应的所述医保数据和身份数据,利用动态分级模型进行处理,得到所述帮助对象对应的经济状况等级。
[0111]
进一步的,所述基于动态分级模型,得到所述帮助对象对应的经济状况等级包括:
[0112]
获取所述帮助对象对应的所述医保数据和身份数据;
[0113]
将所述帮助对象对应的医保数据和身份数据进行数据进行数据清洗,得到第四特征数据;
[0114]
将所述第四特征数据输入所述动态分级模型进行处理,得到所述帮助对象对应的经济状况等级,所述动态分级模型为基于线性回归模型训练得到的。
[0115]
具体的,获取帮助对象对应的医保数据和身份数据,并进行数据清洗,以得到第四特征数据,将第四特征数据输入动态分级模型进行处理,得到帮助对象对应的经济状况等级,所述动态等级模型基于线性回归模型训练得到,并利用各经济状况等级对应的帮助对象,及其对应的医保数据和身份数据作为训练数据。
[0116]
在得到候选对象为帮助对象后,进一步对帮助对象进行分级处理,得到帮助对象对应的经济状况等级。
[0117]
通过得到属于各经济状况等级的候选对象,便于后续针对不同经济状况等级的候选对象进行针对性的帮助,例如设定更高的医疗费用报销比例或其他的一系政策倾斜等。
[0118]
在获取到属于各经济状况等级的候选对象后,将其分享至大数据平台,使政府或其他企业能了解到有关信息,进而便于进行帮助等。
[0119]
通过利用动态分级模型,对帮助对象进一步分级,得到帮助对象的经济状况等级,通过对帮助对象进行分级,便于后续对其进行对应帮助。
[0120]
s6、根据所述经济状况等级,获取对应的预设医疗报销比例。
[0121]
具体的,在获取对应的预设医疗报销比例之前,针对不同经济状况等级,预设不同的医疗报销比例或者其他帮助方案,在获取到帮助对象对应的经济状况等级后,获取对应的预设医疗报销比例或其他帮助方案。
[0122]
推进了直接医保帮助向医保防止经济状况差情况出现的转变。“帮助”是对已经成
为帮助人口的群体进行待遇保障,“防止经济状况差情况出现”是通过政策倾斜防止非帮助人口因病致经济状况差的情况。医保帮助是医保工作的创新,也是帮助人口总体脱离经济状况差后的工作重点,本方案发挥了医保帮助的作用和地位,实现了直接医保帮助向医保防止经济状况差情况出现的逐步转变。
[0123]
实现了经济状况认定工作的信息化。在信息化支撑推动帮助的基础上加强引领作用,大力加强医保数据和外部数据的利用,促进线上线下信息融合,提高信息利用效率。
[0124]
在经济状况认定中创新应用大数据分析。使经济状况认定工作不再被动局限于现有已认定的帮助人员,通过算法模型主动识别,从事后补救走向事前预防,具有一定前瞻性。同时充分发挥大数据分析技术能力,提升来源的多样性,在医保结算数据基础上增加财产、教育等外部数据,挖掘数据关联,精准识别潜在的经济状况差的风险。
[0125]
需要强调的是,为了进一步保证数据的私密性和安全性,所述各候选对象对应的医保数据和身份数据,以及对应的经济状况等级的所有数据还可以存储于一区块链的节点中。
[0126]
本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0127]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0128]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0129]
通过获取各候选对象对应的医保数据和身份数据,便于后续对数据进行分析;并且还对所述医保数据和身份数据进行数据清洗,即进行一些缺失值处理、异常值处理和重复值处理,得到第一特征数据,通过将第一特征数据经分析模型处理,得到各所述候选对象的评分结果,通过将评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级,从而根据不同经济状况等级,获取对应的预设医疗报销比例,本技术能对各候选对象进行准确的经济状况认定,本技术还能有效监控医疗致经济状况差的情况,并且针对这一情况,还获取对应的处理方案,来避免或者缓解医疗致经济状况差的情况。
[0130]
本实施例还提供一种人员评定装置,如图2所示,是本技术人员评定装置的功能模块图。
[0131]
本技术所述人员评定装置100可以安装于电子设备中。根据实现的功能,所述人员评定装置100可以包括获取模块101、数据清洗模块102、评分模块103、比较判断模块104、分级模块105和对应提取模块106。本技术所述模块也可以称之为单元,是指一种能够被电子
设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0132]
在本实施例中,关于各模块/单元的功能如下:
[0133]
获取模块101,用于获取各候选对象对应的医保数据和身份数据;
[0134]
具体的,获取模块101通过直接接收有关候选对象输入的医保数据和身份数据,或从数据库中提取医保数据和身份数据。所述医保数据包括候选对象信息,以及候选对象所对应的疾病数据和就诊数据等。所述身份数据包括候选对象信息、候选对象收入信息、教育信息和资产信息等。基于候选对象信息,将医保数据和身份数据对应结合起来。
[0135]
进一步的,所述获取模块101包括请求发送子模块和数据调用子模块;
[0136]
所述请求发送子模块,用于向预设知识库发送调用请求,所述调用请求携带验签令牌;
[0137]
所述数据调用子模块,用于接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述知识库中各候选对象对应的医保数据和身份数据,所述验签结果为所述知识库根据所述验签令牌进行rsa非对称加密方式验证得到。
[0138]
通过请求发送子模块和数据调用子模块配合在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。
[0139]
数据清洗模块102,用于对所述医保数据和身份数据进行数据清洗,得到第一特征数据;
[0140]
评分模块103,用于所述第一特征数据经分析模型处理,得到各所述候选对象的评分结果;
[0141]
具体的,评分模块103将所述第一特征数据输入至分析模型中,得到各所述候选对象对应的评分结果,所述评分结果为多项子评分加权求和的结果,且每一项子评分的权重,与其对应的特征与帮助结果之间的关联程度呈正相关,所述分析模型基于逻辑回归模型训练得到。
[0142]
进一步的,所述人员评定装置100包括数据获取模块、数据处理模块、均衡处理模块、数据提取模块和训练模块;
[0143]
所述数据获取模块,用于获取历史医保数据以及所述历史医保数据对应的历史身份数据;
[0144]
所述数据处理模块,用于对所述历史医保数据和历史身份数据进行数据清洗和数据衍生,得到第二特征数据;
[0145]
所述均衡处理模块,用于利用合成少数类过采样算法对第二特征数据进行均衡处理,得到第三特征数据;
[0146]
所述数据提取模块,用于通过特征选取模型对所述第三特征数据进行特征重要性计算,根据所述特征重要性,提取预设比例的第三特征数据,得到训练集;
[0147]
所述训练模块,用于将所述训练集输入逻辑回归模型进行训练,得到所述分析模型。
[0148]
具体的,首先,所述数据获取模块通过从数据库中获取大量的历史医保数据及历史医保数据对应的历史身份数据,所述数据处理模块再对所述历史医保数据和历史身份数据进行数据清洗,以保证数据的一致性,并且还进行数据衍生,以得到更多的数据,从而得
到第二特征数据;所述均衡处理模块通过合成少数类过采样算法对第二特征数据进行均衡处理,以得到更均衡的第三特征数据,具体的,利用合成少数类过采样算法对样本少的类型进行增广,来得到各类型的数据都较均衡的第三特征数据;所述数据提取模块通过特征选取模型对所述第三特征数据中各数据所属的类型进行特征重要性计算,以得到各类型特征重要性排序,根据特征重要性排序,获取前预设比例的类型,并对类型对应的数据进行抽取,得到训练集。所述训练模块将所述训练集输入至所述逻辑回归模型中进行训练,得到所述分析模型。所述模型为一种基于逻辑回归的评分卡模型。
[0149]
通过数据获取模块、数据处理模块、均衡处理模块、数据提取模块和训练模块的配合,对原始数据进行数据清洗、数据衍生、合成少数类过采样算法和特征选取处理,得到最终的训练集,并利用训练集来对逻辑回归模型进行训练,以得到最终分析模型,通过对数据的一系列处理,提高了训练数据的质量,使最终得到的分析模型的准确率和鲁棒性都较高。
[0150]
再进一步的,所述数据处理模块包括数据清洗子模块;
[0151]
所述数据清洗子模块,用于通过对所述历史医保数据和历史身份数据中的缺失数据和异常数据进行热卡填充处理,对所述历史医保数据和历史身份数据中的重复数据进行删除处理。
[0152]
具体的,数据清洗子模块对于一个包含空值的对象,在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值进行填充。该方法利用了数据间的关系来进行空值估计。
[0153]
将异常数据当做缺失值来进行处理,将异常数据进行删除,后进行热卡填充,即对缺失数据和异常数据都进行热卡填充处理。
[0154]
数据清洗子模块通过对缺失数据和异常数据进行热卡填充,避免缺失值和异常数据对模型训练或之后的数据利用造成影响,导致模型判断不准确。
[0155]
再进一步的,所述数据处理模块包括数据衍生子模块;
[0156]
所述数据衍生子模块,用于通过对所述历史医保数据和历史身份数据进行线性变换处理,实现数据衍生。
[0157]
具体的,数据衍生子模块通过对历史医保数据和历史身份数据进行线性变换,线性变换可以包括但不限于对数变化、求解平方根、求解立方根等处理,所述衍生数据与被衍生数据属于同一类型的数据,包含的特征相同,但特征对应的特征值不同。数据衍生,即利用现有数据经一系列线性变换处理得到现有数据对应的衍生数据,以扩充数据。
[0158]
所述数据衍生子模块为对所有历史医保数据和历史身份数据进行线性变换处理,以总体提高数据量。
[0159]
再进一步的,所述均衡处理模块包括平均计算子模块、数据量比较子模块、差值计算子模块和数据增广子模块;
[0160]
所述平均计算子模块,用于获取所述第二特征数据中的类型以及所述类型对应的数据量,基于各所述类型对应的数据量得到平均数据量;
[0161]
所述数据量比较子模块,用于将各所述类型对应的数据量与所述平均数据量进行比较;
[0162]
所述差值计算子模块,用于当所述类型对应的数据量小于所述平均数据量时,则计算该所述类型对应的数据量与平均数据量的差值,得到增广数量;
[0163]
所述数据增广子模块,用于基于所述增广数量,采用所述合成少数类过采样算法,对所述类型对应的数据量小于所述平均数据量的类型下的数据进行增广。
[0164]
具体的,由于第二特征数据中不同类型的数据不一定均衡,而不均衡的数据输入至模型中进行训练,得到的最终模型其处理效果较差。所以需要对第二特征数据中含有较少数据的类型,进行数据增广。
[0165]
首先平均计算子模块需要先得出第二特征数据中,数据量较少的类型,通过获取到各类型含有的数据量,基于所述数据量得到平均数据量,所述数据量比较子模块将各类型中的数据量与平均数据量进行比较,所述差值计算子模块得到需要进行增广类型,需要的增广数量;所述数据增广子模块基于所述增广数量,采用合成少数类过采样算法对类型对应的数据量小于所述平均数据量的类型下的数据进行增广。
[0166]
通过平均计算子模块、数据量比较子模块、差值计算子模块和数据增广子模块的配合采用合成少数类过采样算法对待增广的文本数据进行增广,最终得到均衡的数据集,以便于后续模型的训练,能训练出鲁棒性更好的模型。
[0167]
比较判断模块104,用于通过将所述评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;
[0168]
具体的,比较判断模块104经分析模型处理,得到候选对象对应的评分结果,来与预设阈值进行比较,以得到所述候选对象是否为帮助对象。若候选对象不为帮助对象时,则直接退出,不对所述候选对象做其他处理。
[0169]
分级模块105,用于在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级;
[0170]
具体的,分级模块105在所述候选对象为帮助对象时,获取帮助对象对应的所述医保数据和身份数据,基于帮助对象对应的所述医保数据和身份数据,利用动态分级模型进行处理,得到所述帮助对象对应的经济状况等级。
[0171]
进一步的,所述分级模块105包括对应获取子模块、清洗子模块和动态分级子模块;
[0172]
所述对应获取子模块,用于获取所述帮助对象对应的所述医保数据和身份数据;
[0173]
所述清洗子模块,用于将所述帮助对象对应的医保数据和身份数据进行数据进行数据清洗,得到第四特征数据;
[0174]
所述动态分级子模块,用于将所述第四特征数据输入所述动态分级模型进行处理,得到所述帮助对象对应的经济状况等级,所述动态分级模型为基于线性回归模型训练得到的。
[0175]
通过对应获取子模块、清洗子模块和动态分级子模块的配合利用动态分级模型,对帮助对象进一步分级,得到帮助对象的经济状况等级,通过对帮助对象进行分级,便于后续对其进行对应帮助。
[0176]
提取模块106,用于根据所述经济状况等级,获取对应的预设医疗报销比例。
[0177]
具体的,对应提取模块106在获取对应的预设医疗报销比例之前,针对不同经济状况等级,预设不同的医疗报销比例或者其他帮助方案,在获取到帮助对象对应的经济状况等级后,获取对应的预设医疗报销比例或其他帮助方案。
[0178]
通过采用上述装置,所述人员评定装置100通过获取模块101、数据清洗模块102、
评分模块103、比较判断模块104、分级模块105和对应提取模块106 的配合使用,来获取各候选对象对应的医保数据和身份数据,便于后续对数据进行分析;并且还对所述医保数据和身份数据进行数据清洗,即进行一些缺失值处理、异常值处理和重复值处理,得到第一特征数据,通过将第一特征数据经分析模型处理,得到各所述候选对象的评分结果,通过将评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级,从而根据不同经济状况等级,获取对应的预设医疗报销比例,本技术能对各候选对象进行准确的经济状况认定,本技术还能有效监控医疗致经济状况差的情况,并且针对这一情况,还获取对应的处理方案,来避免或者缓解医疗致经济状况差的情况。
[0179]
本技术实施例还提供一种计算机设备。具体请参阅图3,图3为本实施例计算机设备基本结构框图。
[0180]
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41

43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit, asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器 (digital signal processor,dsp)、嵌入式设备等。
[0181]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0182]
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41 也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital, sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41 通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如人员评定方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0183]
所述处理器42在一些实施例中可以是中央处理器(central processingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器 42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述人员评定方法的计算机可读指令。
[0184]
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
[0185]
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例
人员评定方法的步骤,通过获取各候选对象对应的医保数据和身份数据,便于后续对数据进行分析;并且还对所述医保数据和身份数据进行数据清洗,即进行一些缺失值处理、异常值处理和重复值处理,得到第一特征数据,通过将第一特征数据经分析模型处理,得到各所述候选对象的评分结果,通过将评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级,从而根据不同经济状况等级,获取对应的预设医疗报销比例,本技术能对各候选对象进行准确的经济状况认定,本技术还能有效监控医疗致经济状况差的情况,并且针对这一情况,还获取对应的处理方案,来避免或者缓解医疗致经济状况差的情况。
[0186]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的人员评定方法的步骤,通过获取各候选对象对应的医保数据和身份数据,便于后续对数据进行分析;并且还对所述医保数据和身份数据进行数据清洗,即进行一些缺失值处理、异常值处理和重复值处理,得到第一特征数据,通过将第一特征数据经分析模型处理,得到各所述候选对象的评分结果,通过将评分结果与预设阈值进行比较,判断各所述候选对象是否为帮助对象;在所述候选对象为帮助对象时,基于动态分级模型,得到所述帮助对象对应的经济状况等级,从而根据不同经济状况等级,获取对应的预设医疗报销比例,本技术能对各候选对象进行准确的经济状况认定,本技术还能有效监控医疗致经济状况差的情况,并且针对这一情况,还获取对应的处理方案,来避免或者缓解医疗致经济状况差的情况。
[0187]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等) 执行本技术各个实施例所述的方法。
[0188]
本技术上述实施例的人员评定装置、计算机设备、计算机可读存储介质具有与上述实施例的人员评定方法相同的技术效果,在此不作展开。
[0189]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1