一种可认证状态的分类预测模型构建方法和系统与流程

文档序号:30061467发布日期:2022-05-17 23:42阅读:130来源:国知局
一种可认证状态的分类预测模型构建方法和系统与流程

1.本发明属于分类预测模型构建技术领域,特别涉及一种可认证状态的分类预测模型构建方法和系统。


背景技术:

2.在离退休人员主要通过社会化方式进行管理后,社保部门很难管理到离退休人员的健康以及生存状况,离退休人员死亡后,也很难及时对其进行终止处理。为了防止冒领养老金,确保基金运行安全,进而保障全体参保缴费人员的根本利益,全国各地逐步建立起离退休人员养老金资格定期认证制度,领取社保待遇人员需及时参加资格认证,在规定时间内未参加认证人员,其社保待遇将暂停发放,待认证通过后恢复发放并补发。根据年龄的不同,一般每年认证1-2次。
3.在根据关键行为数据进行认证时,可以采用大数据认证的方法,其中关键行为数据是指有明确生存死亡判定依据的行为数据。但是在认证时,会出现大量的弱行为数据;其中弱行为数据是指无法明确行为发生人是否为本人,无法通过该数据判断人的生存状态的数据。由于关键行为数据发生较少,无法覆盖全部人员,单单依靠关键行为模型无法对系统中全部人员的进行认证。同时,系统中存在海量的弱行为数据,比如社保卡消费、大病结算、公交卡出行等行为,这些行为覆盖人群范围广,数据量大。基于弱行为数据如何进行社保认证是亟待解决的技术问题。


技术实现要素:

4.为了解决上述技术问题,本发明提出了一种可认证状态的分类预测模型构建方法和系统。适用于关键行为无法覆盖,且存在多种弱生存判定行为依据的情况,通过采用弱行为数据作为关键行为分析认证的补充,扩大可认证比例。
5.为实现上述目的,本发明采用以下技术方案:
6.一种可认证状态的分类预测模型构建方法,包括以下步骤:
7.获取弱行为数据,并对获取的所述弱行为数据进行异常值处理和缺失值处理;所述弱行为数据为无法明确行为发生人是否为本人,无法判断人生存状态的与养老保险待遇资格认证相关的数据;
8.选取所述分类预测模型的标签,所述标签包括人员生存认证标签和人员死亡认证标签;
9.使用距离当前时间最近一段时间的弱行为数据提取行为特征,在所述分类预测模型迭代的过程中加入人员的基础属性作为数据特征;通过分析数据特征与所述标签的关联系数以及数据特征分布统计完成特征提取;
10.在特征提取完成之后,对分类预测模型进行训练,并将所述模型训练的结果进行对比分析。
11.进一步的,所述异常值处理的方式包括可视化、统计分析和正态分布。
12.进一步的,所述缺失值处理的方式包括:统计每个字段的空值个数,如果空值个数小于阈值,则把所述空值删掉;对获取的弱行为数据进行填补;和利用模型预测缺失属性的值。
13.进一步的,所述人员生存认证标签采用人员刷脸认证信息;所述人员死亡认证标签采用上报的死亡人员名单。
14.进一步的,所述数据特征包括行为数据和属性数据。
15.进一步的,所述通过分析数据特征与所述标签的关联系数以及数据特征分布统计完成特征提取具体包括:
16.通过pearson关联系数进行数据特征与标签的关联分析;
17.构建特征与标签的关联系数的对应表格。
18.进一步的,所述在特征提取完成之后,对分类预测模型进行训练的过程包括:
19.选取所述分类预测模型的算法,并对所述算法中的参数按步长进行调整,使验证集内找出精度最高的参数;
20.通过调整特征、样本、算法、算法参数的变化,获取最优解,同时针对出现的结论进行分析和调整,防止训练过程中的欠拟合和过拟合。
21.进一步的,在所述分类预测模型进行训练完成之后,通过验证集数据进行验证,选取当前时间段认证的信息和死亡信息做验证集,得到预测的结果。
22.本发明还提出了一种可认证状态的分类预测模型构建系统,包括获取模块、选取模块、特征提取模块和训练分析模块;
23.所述获取模块用于获取弱行为数据,并对获取的所述弱行为数据进行异常值处理和缺失值处理;所述弱行为数据为无法明确行为发生人是否为本人,无法判断人生存状态的与养老保险待遇资格认证相关的数据;
24.所述选取模块用于选取所述分类预测模型的标签,所述标签包括人员生存认证标签和人员死亡认证标签;
25.所述特征分析模块用于使用距离当前时间最近一段时间的弱行为数据提取行为特征,在所述分类预测模型迭代的过程中加入人员的基础属性作为数据特征;通过分析数据特征与所述标签的关联系数以及数据特征分布统计完成特征提取;
26.所述训练分析模块用于在特征提取完成之后,对分类预测模型进行训练,并将所述模型训练的结果进行对比分析。
27.进一步的,所述获取模块中,异常值处理的方式包括可视化、统计分析和正态分布;缺失值处理的方式包括:统计每个字段的空值个数,如果空值个数小于阈值,则把所述空值删掉;对获取的弱行为数据进行填补;和利用模型预测缺失属性的值。
28.发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
29.本发明提出了一种可认证状态的分类预测模型构建方法和系统,该方法包括获取弱行为数据,并对获取的所述弱行为数据进行异常值处理和缺失值处理;弱行为数据为无法明确行为发生人是否为本人,无法判断人生存状态的与养老保险待遇资格认证相关的数据;选取所述分类预测模型的标签,标签包括人员生存认证标签和人员死亡认证标签;使用距离当前时间最近一段时间的弱行为数据提取行为特征,在所述分类预测模型迭代的过程
中加入人员的基础属性作为数据特征;通过分析数据特征与标签的关联系数以及数据特征分布统计完成特征提取;在特征提取完成之后,对分类预测模型进行训练,并将模型训练的结果进行对比分析。基于一种可认证状态的分类预测模型构建方法,还提出了一种可认证状态的分类预测模型构建系统。本发明适用于关键行为无法覆盖,且存在多种弱生存判定行为依据的情况,通过采用弱行为数据作为关键行为分析认证的补充,扩大可认证比例。在分类预测模型构建完成之后,使用分类预测模型提高了预测的精度。
30.本发明利用大数据及ai技术对数据进行处理分析,利用自研聚合深度学习模型,基于用户行为判断生存状态。使用多个机器学习模型训练选择最优模型,保证生存状态判断准确度。从改进民生服务、提升行政效率的需求出发,通过对历史数据生存样本库进行建模和训练,结合人员健康状况进行评估,识别出待遇领取人员的重点关注人群,可以从大数据中分析、发掘出每个个体的业务及行为特征,用于辅助社保待遇资格认证工作,实现社会保险待遇资格认证的“数据认证”和“静默认证”。
附图说明
31.如图1为本发明实施例1一种可认证状态的分类预测模型构建方法流程图;
32.如图2为本发明实施例1模型训练的流程图;
33.如图3为本发明实施例2一种可认证状态的分类预测模型构建系统示意图。
具体实施方式
34.为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
35.实施例1
36.本发明实施例1提出了一种可认证状态的分类预测模型构建方法,适用于关键行为无法覆盖,且存在多种弱生存判定行为依据的情况,通过采用弱行为数据作为关键行为分析认证的补充,扩大可认证比例,如图1给出了本发明实施例1一种可认证状态的分类预测模型构建方法流程图。
37.获取弱行为数据,并对获取的所述弱行为数据进行异常值处理和缺失值处理;弱行为数据为无法明确行为发生人是否为本人,无法判断人生存状态的与养老保险待遇资格认证相关的数据;
38.关键行为数据是指有明确生存死亡判定依据的行为数据。由于关键行为数据发生较少,无法覆盖全部人员,单单依靠关键行为模型无法对系统中全部人员的进行认证。同时,系统中存在海量的弱行为数据,比如社保卡消费、大病结算、公交卡出行等行为,这些行为覆盖人群范围广,数据量大,通过挖掘弱行为数据之间的关联关系,可以作为关键行为分析认证的补充,扩大可认证比例。
39.从原始数据中获取弱行为数据,其中原始数据包括联网监测、资格认证和外部数
据。
40.数据预处理过程是实现从原始数据中提取弱行为数据,对其进行筛选和处理的过程,主要包括异常值处理、缺失值处理。
41.异常值是指在数据集中存在不合理的值,又称离群点。对于异常值我们可以使用以下几种方式进行处理:
42.第一,可视化,使用各种可视化方法,如box plot,histogram,scatter plot进行可视化。其中箱型图可以用来观察数据整体的分布情况,它利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。
43.第二,统计分析,对某个属性值进行一个描述性的统计,从而查看哪些值是不合理的。比如对年龄这个属性进行规约:年龄的区间在[0:130],如果样本中的年龄值不再该区间范围内,则表示该样本的年龄属性属于异常值。
[0044]
使用封顶方法。超出5%或95%的任何值都可以被认为是异常值。
[0045]
第三,正态分布的原则,当数据服从正态分布时,根据正态分布的定义可知,距离平均值3δ之外的概率为p(|x-μ|》3δ)《=0.003,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,则认定该样本为异常值。
[0046]
当数据不服从正态分布时,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定。
[0047]
本发明中缺失值处理的方式包括:
[0048]
第一,删数据:使用dataframe.isnull().sum()统计每个字段的空值个数,如果缺失数据的记录占比比较小,直接使用dataframe.dropna()函数把这些记录删掉。
[0049]
第二,手工填补,或者重新收集数据,或者根据领域知识来补数据,例如利用身份证号计算年龄和性别。
[0050]
自动填补,简单的就是均值填充,或者再加一个概率分布,也可以结合实际情况通过公式计算,比如行为计数缺失,可以参考过往的行为数据,转化数据,用一个简单公式自动计算回补。
[0051]
第三,使用回归、随机森林等模型来预测缺失属性的值。如果某个十分重要的特征缺失,那么保证一定的缺失值填充准确率是非常重要的,对结果也会产生较大影响。一般情况下,会使用数据完整的条目作为模型的训练集,以此来预测缺失值。对于当前的这个数据,可以使用随机森林来预测也可以使用线性回归预测。
[0052]
选取分类预测模型的标签,标签包括人员生存认证标签和人员死亡认证标签;
[0053]
模型标签的选取至关重要,无论是二分类或多分类问题,标签定义应尽可能的清晰,有明确的结论性因素,并且数据可靠性要高,以防出现过多的干扰因素,同时结论要适用于现有的业务应用场景。目前标签确定依据如下:采用人员刷脸认证信息作为人员生存标签判定依据,在提取正样本时,将刷脸认证信息作为人员生存状态的充分条件;使用上报的死亡人员名单作为人员死亡标签的判断依据,在提取负样本时,提取对应时间段内死亡人员名单,从而获得对应时间段行为特征与死亡状态的关联因素。在以上标签确定的基础
上,提取样本时考虑解决大多数行为数据缺失导致的数据问题,将样本范围限定为近期有行为依据的样本范围,从而便于模型学习数据特征,强化训练和学习效果。
[0054]
使用距离当前时间最近一段时间的弱行为数据提取行为特征,在分类预测模型迭代的过程中加入人员的基础属性作为数据特征;通过分析数据特征与标签的关联系数以及数据特征分布统计完成特征提取;
[0055]
特征工程构建过程中,优先使用距离当前时间最近的三个月的弱行为记录提取行为特征,用于提供人员存活的动态因素。随着模型的迭代训练,随后不断加入了人员的一些基础属性为数据特征,当前这些特征主要包括的内容如下表一所示:
[0056]
[0057][0058]
这29个特征包含了行为和属性两方面的数据,训练初期主要是基于行为特征来构建的,主要为医保四种弱行为的相关统计,费用统计、时间差统计、环比等维度,但因行为特征覆盖人群范围太小,同时模型预测指标不足,随后基于社保参保相关数据中补充添加了人员的基本信息,如年龄、性别、险种类型、人员类型、户口性质、行政区划等,这方面的数据相对完整,空值较少,可提供一定的学习价值。
[0059]
在特征提取完成之后,对分类预测模型进行训练,并将模型训练的结果进行对比分析。
[0060]
通过pearson关联系数分析。特征与标签的关联系数见下表二所示:
[0061]
[0062][0063]
如图2为本发明实施例1模型训练的流程图;本发明中模型训练基于分类场景,因此主要在分类模型下进行技术选择。在训练初期,分类模型主要使用逻辑回归和决策树两种算法,通过算法训练结果对特征、样本、参数进行改进验证,提高模型预测指标。随着结论的比较,决策树算法模型准确率始终高于逻辑回归,指标主要采用决策树算法。随后,又尝试了随机森林和gbdt、xgboost算法,总体上说后续几类算法的模型准确率接近。
[0064]
在选择了合适的算法模型后,还需要针对模型的参数进行微调,以获取较高的模型的准确率。对于树形算法,一般要调整的参数包括:criterion(树的分支策略)、max_
depth(树的最大深度)、min_samples_split(分割内部节点所需的最小样本数目)、n_estimators(决策树的数目)等,除此之外还有很多参数,就不一一列举了。对于要调整的参数,选择合适的取值范围,利用网格搜索gridsearchcv(),在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数。
[0065]
模型训练过程中通过调整特征、样本、算法、算法参数的变化调整,不断尝试获取最优解,同时针对出现的结论进行分析和调整,防止训练过程中的欠拟合和过拟合。下面介绍其中几个典型的用例,进行描述。
[0066]
第一用例,样本第二组,完整特征(包含aab301,不包含aac009)
[0067]
样本数据抽取的特征有29个,去除和个人基本信息相关的字段:aac002(身份证号)、aac009(户口性质,空值过多,且无法填充),总计27个特征进行第一次模型训练。样本的数据维度如下表三所示:
[0068]
总样本数据维度(2440386,27)正样本数据维度(1111632,27)负样本数据维度(1351335,27)训练集样本数据维度(1952308,27)测试集样本数据维度(488078,27)
[0069]
各模型的指标得分如下表四所示:
[0070][0071][0072]
第二用例,去掉干扰特征(不包含aab301,不包含aac009)
[0073]
经过对特征和训练结果的分析,发现行政区划aab301特征由于自身的数据分布问题,会误导模型的训练过程,使模型学习到错误的规律,因此删掉该特征,重新进行训练。新的训练样本的数据维度见下表五为:
[0074]
总样本数据维度(2440386,26)正样本数据维度(1111632,26)负样本数据维度(1351335,26)训练集样本数据维度(1952308,26)测试集样本数据维度(488078,26)
[0075]
各模型的指标得分如下表六所示:
[0076][0077]
第三用例:缓解数据稀疏,去掉干扰特征
[0078]
第二组样本的数据行为特征数据还是比较稀疏,因此在样本上添加一个限制条件:一年内弱行为总数大于0,通过该条件得到第三组样本,样本的数据维度如下表七所示
[0079]
总样本数据维度(374041,26)正样本数据维度(194644,26)负样本数据维度(179397,26)训练集样本数据维度(299232,26)测试集样本数据维度(74809,26)
[0080]
各模型的指标得分如下表八所示:
[0081][0082]
第四用例:选取有价值样本,用新标签定义,去掉干扰特征
[0083]
第四用例的关键性调整包括:重新选取训练样本,刷脸记录作为正样本,作为生存判定样本;使用死亡人员的数据作为负样本;对于没有明确生存依据的其他样本不再选取,这部分样本因其判定规则不明确,容易带来数据干扰。通过分类模型开展训练,针对数据稀疏问题,选取特征完整性好的数据作为样本。样本的数据维度如下表九所示:
[0084]
总样本数据维度(45224,26)正样本数据维度(22626,26)负样本数据维度(22598,26)训练集样本(80%)数据维度(36179,26)测试集样本(20%)数据维度(9044,26)
[0085]
各模型的指标得分如下表十所示:
[0086][0087]
通过持续性的模型训练情况,综合性比较可得到如下结论:数据的稀疏程度直接影响模型预测效果,特征与标签关联系数值不佳与数据稀疏程度有关,因此在训练和预测过程中,都需要将样本增加一定的数据条件下输入模型进行预测,比如输入模型的样本必须在一段时间内有弱行为发生的特征。随机森林、gbdt、xgboost都有模型融合的作用,通过融合多个学习器,提升模型的学习性能。模型训练效果不能完全考虑预测指标,需要综合特征的数据因素评估是否对模型有益,根据场景和需求进行识别和应用。
[0088]
当前相对输出较好的模型为gbdt和xgboost,算法gbdt模型评价指标如下表十一所示:
[0089]
混淆矩阵预测1预测0实际13996518实际05234014
[0090]
auc:0.952562
[0091]
准确率(accuracy):0.884985
[0092]
精确度(precision):0.884266
[0093]
召回率(recall):0.885245
[0094]
f1 score:0.884755。
[0095]
算法xgboost模型评价指标如下表十二所示:
[0096]
混淆矩阵预测1预测0实际13976538实际05383999
[0097]
auc:0.950614
[0098]
准确率(accuracy):0.881118
[0099]
精确度(precision):0.880815
[0100]
召回率(recall):0.881258
[0101]
f1 score:0.881036
[0102]
基于以上训练得出的模型,使用新批次的数据进行一次验证,选取了某个时间段认证的信息和死亡信息做验证集。新数据集上算法gbdt预测效果如表十三所示:
[0103]
samples:44805 features:26
[0104][0105][0106]
auc:0.94008
[0107]
准确率(accuracy):0.8566
[0108]
精确度(precision):0.920932
[0109]
召回率(recall):0.817078
[0110]
f1 score:0.865902
[0111]
算法xgboost预测效果如表十四所示:
[0112]
混淆矩阵预测1预测0真实值1206984690真实值0171717700
[0113]
auc:0.940642
[0114]
准确率(accuracy):0.857002
[0115]
精确度(precision):0.923399
[0116]
召回率(recall):0.815267
[0117]
f1 score:0.865970
[0118]
数据总体准确率保持了稳定,说明多个时间段的数据所呈现出的规则一致,并且模型也通过训练进行了较好的学习。
[0119]
本发明实施例1提出的一种可认证状态的分类预测模型构建方法,利用大数据及ai技术对数据进行处理分析,利用自研聚合深度学习模型,基于用户行为判断生存状态。使用多个机器学习模型训练选择最优模型,保证生存状态判断准确度。从改进民生服务、提升行政效率的需求出发,通过对历史数据生存样本库进行建模和训练,结合人员健康状况进行评估,识别出待遇领取人员的重点关注人群,可以从大数据中分析、发掘出每个个体的业务及行为特征,用于辅助社保待遇资格认证工作,实现社会保险待遇资格认证的“数据认证”和“静默认证”。
[0120]
实施例2
[0121]
基于本发明实施例1提出的一种可认证状态的分类预测模型构建方法,本发明实施例2还提出了一种可认证状态的分类预测模型构建系统。如图3为本发明实施例2一种可认证状态的分类预测模型构建系统示意图。该系统包括:获取模块、选取模块、特征提取模块和训练分析模块;
[0122]
获取模块用于获取弱行为数据,并对获取的所述弱行为数据进行异常值处理和缺失值处理;所述弱行为数据为无法明确行为发生人是否为本人,无法判断人生存状态的与养老保险待遇资格认证相关的数据;
[0123]
选取模块用于选取所述分类预测模型的标签,所述标签包括人员生存认证标签和人员死亡认证标签;
[0124]
特征分析模块用于使用距离当前时间最近一段时间的弱行为数据提取行为特征,在所述分类预测模型迭代的过程中加入人员的基础属性作为数据特征;通过分析数据特征与所述标签的关联系数以及数据特征分布统计完成特征提取;
[0125]
训练分析模块用于在特征提取完成之后,对分类预测模型进行训练,并将所述模型训练的结果进行对比分析。
[0126]
获取模块中,异常值处理的方式包括可视化、统计分析和正态分布;缺失值处理的方式包括:统计每个字段的空值个数,如果空值个数小于阈值,则把所述空值删掉;对获取的弱行为数据进行填补;和利用模型预测缺失属性的值。
[0127]
选取模块中人员生存认证标签采用人员刷脸认证信息;人员死亡认证标签采用上报的死亡人员名单。
[0128]
特征分析模块中数据特征包括行为数据和属性数据。
[0129]
通过pearson关联系数进行数据特征与标签的关联分析;
[0130]
构建特征与标签的关联系数的对应表格。
[0131]
训练分析模块执行的过程包括:选取分类预测模型的算法,并对所述算法中的参数按步长进行调整,使验证集内找出精度最高的参数;
[0132]
通过调整特征、样本、算法、算法参数的变化,获取最优解,同时针对出现的结论进行分析和调整,防止训练过程中的欠拟合和过拟合。
[0133]
在所述分类预测模型进行训练完成之后,通过验证集数据进行验证,选取当前时间段认证的信息和死亡信息做验证集,得到预测的结果。
[0134]
本发明实施例2提出的一种可认证状态的分类预测模型构建系统,适用于关键行为无法覆盖,且存在多种弱生存判定行为依据的情况,通过采用弱行为数据作为关键行为分析认证的补充,扩大可认证比例。在分类预测模型构建完成之后,使用分类预测模型提高了预测的精度。
[0135]
本发明实施例2利用大数据及ai技术对数据进行处理分析,利用自研聚合深度学习模型,基于用户行为判断生存状态。使用多个机器学习模型训练选择最优模型,保证生存状态判断准确度。从改进民生服务、提升行政效率的需求出发,通过对历史数据生存样本库进行建模和训练,结合人员健康状况进行评估,识别出待遇领取人员的重点关注人群,可以从大数据中分析、发掘出每个个体的业务及行为特征,用于辅助社保待遇资格认证工作,实现社会保险待遇资格认证的“数据认证”和“静默认证”。
[0136]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本技术实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
[0137]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础
上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1