本技术涉及金融科技,应用于车险销售规划场景中,尤其涉及一种数据处理方法、装置、设备及其存储介质。
背景技术:
1、随着互联网的飞速发展,各行各业都在依托互联网寻求行业突破点,近年来,金融行业也正在围绕着互联网进行线上业务拓展。目前,随着人们保险意识的提高,越来越多的企业、家庭和个人在购买机动车辆后,会为车辆投保,购买车险。传统的车险销售主要是由业务员和车主沟通,向车主推荐各类车险。在车主确认要购买的车险种类后,再由业务员将车主提供投保所需的各项信息、已缴纳的车险费用等录入系统生成保单,完成车险的销售。
2、保险公司内部也会根据历史销售环比或者同比业绩,对当期销售名单进行企划的制定。然而传统的指标看板只能通过观测以发生的跟踪指标的高低并结合管理者的个人经验对整体销售情况做出滞后的经验判断,或者人工制定的公司企划,极度依赖人工经验,而且通常不是很准确,无法给保险续保销售部门提供智能合理的业务目标规划。
技术实现思路
1、本技术实施例的目的在于提出一种数据处理方法、装置、设备及其存储介质,以解决现有技术制定公司企划时,极度依赖人工经验,而且通常不是很准确,无法给保险续保销售部门提供智能合理的业务目标规划的问题。
2、为了解决上述技术问题,本技术实施例提供数据处理方法,采用了如下所述的技术方案:
3、一种数据处理方法,包括下述步骤:
4、获取目标样本,其中,所述目标样本包括保险公司历史销售数据,所述历史销售数据中包含了续保费用;
5、按照续保到期期限对所述目标样本进行划分,获得训练样本集和预测样本集,其中,所述预测样本集由还未到续保期限的历史销售数据按续保月份划分的预测子集构成;
6、将所述训练样本集输入预设的分类回归模型,进行模型训练,获取训练完成的分类回归模型;
7、将所述预测样本集输入所述训练完成的分类回归模型,基于模型输出获得当前预测子集中所有样本分别对应的续保成功率、所述当前预测子集中样本总数量以及所述当前预测子集对应的平均续保费用;
8、根据所述续保成功率、所述样本总数量、所述平均续保费用以及预设的调整系数,制定后续月份的续保期望单;
9、将所述续保期望单发送到目标接收端,通过预设的展示界面进行展示。
10、进一步的,在执行所述获取目标样本的步骤之前,所述方法还包括:
11、获取用于模型训练的数据特征标签,其中,所述数据特征标签包括车主特征标签、车辆特征标签,所述车主特征标签包括车主性别、车主年龄、客户等级、是否有子女、收入水平、职业、婚姻、教育水平、目标app活跃情况、历史接触情况,所述车辆特征标签包括车辆购买年限、车型、车价、家用和商用标识、是否新能源、是否存在抵押或者质押、历史续保费用、历史续保险种;
12、部署所述数据特征标签至所述预设的分类回归模型内;
13、在执行所述获取目标样本的步骤之后,所述方法还包括:
14、根据续保结果,对所述目标样本中所有数据进行续保结果区别标记处理,获得区别标记处理结果,其中,所述续保结果包括续保成功和续保失败两种类型。
15、进一步的,所述训练完成的分析模型包括续保成功率预测子模型和平均续保额预测子模型,所述预设的统计组件包括第一统计组件、第二统计组件和第三统计组件,所述预设的算法组件包括xgboost算法组件、特征权重算法组件和平均值算法组件,所述将所述训练样本集输入预设的分类回归模型,进行模型训练,获取训练完成的分类回归模型的步骤,具体包括:
16、识别出所述训练样本集中所有样本分别包含的数据特征标签;
17、根据所述xgboost算法组件、所述数据特征标签以及所述训练样本集中所有样本,构建基于xgboost算法的梯度提升决策树;
18、根据所述基于xgboost算法的梯度提升决策树、所述第一统计组件、所述第二统计组件和所述特征权重算法组件,生成续保成功率预测子模型;
19、根据所述基于xgboost算法的梯度提升决策树、所述第一统计组件、所述第三统计组件和所述平均值算法组件,生成平均续保费用预测子模型;
20、分别为所述续保成功率预测子模型、平均续保费用预测子模型设置不同的输出节点,获取训练完成的分类回归模型。
21、进一步的,所述基于xgboost算法的梯度提升决策树包括第一梯度提升分类树和第二梯度提升分类树,所述根据所述xgboost算法组件、所述数据特征标签以及所述训练样本集中所有样本,构建基于xgboost算法的梯度提升决策树的步骤,具体包括:
22、通过所述训练样本集中所有样本,识别出续保成功时对应的所有数据特征标签,和续保失败时对应的所有数据特征标签;
23、根据所述xgboost算法组件和续保成功时对应的所有数据特征标签,构建第一梯度提升分类树;
24、根据所述xgboost算法组件和续保失败时对应的所有数据特征标签,构建第二梯度提升分类树。
25、进一步的,所述根据所述基于xgboost算法的梯度提升决策树、所述第一统计组件、所述第二统计组件、所述第三统计组件和所述特征权重算法组件,生成续保成功率预测子模型的步骤,具体包括:
26、识别出所述第一梯度提升分类树和所述第二梯度提升分类树中所有分类节点分别对应的数据特征标签,获取识别结果;
27、根据所述第一统计组件,统计所述训练样本集中的样本总数量;
28、根据所述第二统计组件,统计出所有分类节点处分别对应的训练样本量,获得统计结果;
29、通过所述识别结果、所述统计结果和所述特征权重算法组件,计算出所有数据特征标签分别对应续保成功权重,其中,所述特征权重算法组件包括三个输入参数和一个输出参数,所述三个输入参数分别为所述样本总数量、所有分类节点分别对应的数据特征标签、所有分类节点处分别对应的训练样本量,输出参数为所述所有数据特征标签分别对应续保成功权重;
30、获得由所述第一梯度提升分类树、所述第二梯度提升分类树、所述第一统计组件、所述第二统计组件和所述特征权重算法组件构建而成的模型,作为所述续保成功率预测子模型;
31、所述根据所述基于xgboost算法的梯度提升分类树、所述第二统计组件和所述平均值算法组件,生成平均续保费用预测子模型的步骤,具体包括:
32、根据所述第三统计组件,统计出所述第一梯度提升分类树对应的所有训练样本的续保费用;
33、基于所述所有训练样本的续保费用和所述平均值算法组件,计算出所述平均续保费用,其中,所述平均值算法组件包括两个输入参数和一个输出参数,其中一个输入参数为所述样本总数量,另一个输入参数为所述续保费用,输出参数为所述平均续保费用;
34、获得由所述第一梯度提升分类树、所述第一统计组件、所述第三统计组件和所述平均值算法组件构建而成的模型,作为所述平均续保费用预测子模型。
35、进一步的,所述将所述预测样本集输入所述训练完成的分类回归模型,基于模型输出获得当前预测子集中所有样本分别对应的续保成功率、所述当前预测子集中样本总数量以及所述当前预测子集对应的平均续保费用的步骤,具体包括:
36、将所述预测样本集中所有预测子集按照续保到期的先后顺序,依次输入到所述训练完成的分类回归模型;
37、根据所述训练完成的分类回归模型,识别出当前预测子集中所有样本分别包含的数据特征标签;
38、基于所述续保成功率预测子模型、当前预测子集中所有样本分别包含的数据特征标签,预测当前预测子集中所有样本分别对应的续保成功率;
39、基于所述平均续保费用预测子模型、当前预测子集中所有样本分别包含的数据特征标签,预测当前预测子集对应的平均续保费用;
40、其中,每次获取到当前预测子集中所有样本分别对应的续保成功率,以及当前预测子集对应的平均续保费用时,将所述当前预测子集中所有样本作为增量数据,对所述训练完成的分类回归模型进行增量更新,获得增量更新之后的分类回归模型作为最新的分类回归模型。
41、进一步的,所述根据所述续保成功率、所述样本总数量、所述平均续保费用以及预设的调整系数,制定后续月份的续保期望单的步骤,具体包括:
42、根据所述续保成功率和所述样本总数量,统计不同的续保成功率分别在所述样本总数量中的比例值;
43、根据不同的续保成功率,以及不同的续保成功率分别在所述样本总数量中的比例值,采用加权求和方式,获取所述样本总数量的续保总成功率;
44、通过所述续保总成功率和所述样本总数量进行乘积计算,获得期望样本量,其中,所述期望样本量指所述样本总数量中所期望的续保成功的样本量;
45、通过所述样本总数量、所述平均续保费用,进行乘积计算,获得期望续保费用,其中,所述期望续保费用指所述样本总数量对应的预测子集所期望的总续保费用;
46、根据所述期望样本量、所述期望续保费用和所述预设的调整系数,制定所述续保期望单。
47、为了解决上述技术问题,本技术实施例还提供数据处理装置,采用了如下所述的技术方案:
48、一种数据处理装置,包括:
49、目标样本获取模块,用于获取目标样本,其中,所述目标样本包括保险公司历史销售数据,所述历史销售数据中包含了续保费用;
50、样本划分模块,用于按照续保到期期限对所述目标样本进行划分,获得训练样本集和预测样本集,其中,所述预测样本集由还未到续保期限的历史销售数据按续保月份划分的预测子集构成;
51、模型训练模块,用于将所述训练样本集输入预设的分类回归模型,进行模型训练,获取训练完成的分类回归模型;
52、模型预测模块,用于将所述预测样本集输入所述训练完成的分类回归模型,基于模型输出获得当前预测子集中所有样本分别对应的续保成功率、所述当前预测子集中样本总数量以及所述当前预测子集对应的平均续保费用;
53、续保期望单制定模块,用于根据所述续保成功率、所述样本总数量、所述平均续保费用以及预设的调整系数,制定后续月份的续保期望单;
54、续保期望单展示模块,用于将所述续保期望单发送到目标接收端,通过预设的展示界面进行展示。
55、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
56、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述所述的数据处理方法的步骤。
57、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
58、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的数据处理方法的步骤。
59、与现有技术相比,本技术实施例主要有以下有益效果:
60、本技术实施例所述数据处理方法,通过获取目标样本;按照续保到期期限对所述目标样本进行划分,获得训练样本集和预测样本集;将训练样本集输入预设的分类回归模型,进行模型训练,获取训练完成的分类回归模型;将预测样本集输入训练完成的分类回归模型,基于模型输出获得当前预测子集中所有样本分别对应的续保成功率、当前预测子集中样本总数量以及当前预测子集对应的平均续保费用;根据续保成功率、样本总数量、平均续保费用以及预设的调整系数,制定后续月份的续保期望单;将所述续保期望单发送到目标接收端,通过预设的展示界面进行展示。通过训练分类回归模型,便于预测出在后每个月份的续保结果和续保费用,给保险续保销售部门提供智能合理的业务目标规划。