理赔风险预测方法、系统、设备及存储介质与流程

文档序号:15274150发布日期:2018-08-28 22:47阅读:141来源:国知局

本发明涉及风险预测技术领域,尤其适合物流领域的理赔风险预测。



背景技术:

随着互联网、物流、运输等行业的发展,越来越多的人选择网络购物,或者利用快递公司来进行物品邮寄。每天产生的大量快件中,一些少数快件由于自身物品的特殊性,或者在运输环节、派送环节等由于某些原因,或者由于客户自身的特殊情况等,而产生不同程度的损坏,这就会产生对这些快件进行理赔,对客户和快递公司都会造成不同程度的损失。

现有技术中,很难做到提前甄别快件的理赔风险,因此,需要一种理赔风险预测方法,在客户下单后、收派员上门取件之前计算出该快件的理赔风险指数。



技术实现要素:

为了能够在客户下单后、订单成交之前计算出订单的理赔风险指数,本发明提供了一种基于xgboost算法对订单的理赔风险进行计算的预测方法、系统、设备及存储介质。

本发明涉及一种理赔风险预测方法,包括如下步骤:获取订单基本特征;计算基于基本特征的衍生特征;根据基本特征获取对应的收、寄件人的历史理赔数据;将基本特征、衍生特征及历史理赔数据进行融合处理并输入预先基于xgboost算法构建的风险预测模型,得到理赔风险指数。

优选地,基本特征包括寄件人、收件人,寄件地址,收件地址,托寄物类型及时效信息。

优选地,衍生特征包括收、寄件地址距离,关联收、寄件区域历史理赔率中至少一项。

优选地,历史理赔数据包理赔次数,寄件次数,保价频率及地址变更次数中至少一项。

优选地,所述将基本特征、衍生特征及历史理赔数据融合处理,包括将基本特征、衍生特征及历史理赔数据直接组合为一个特征向量。

优选地,风险预测模型是通过将包括基本特征、衍生特征及历史理赔数据的历史订单数据集作为xgboost算法的输入,构建的风险预测模型,其中,历史订单数据集是对历史的快递订单统计得到的数据集合。

优选地,本发明的理赔风险预测方法还包括在预设时间内将理赔风险指数推送至收派终端。

优选地,预设时间内包括在订单触发之后至揽收之前。

优选地,本发明的理赔风险预测方法,还包括反馈针对高风险理赔托寄物的揽收策略。

本发明还涉及一种理赔风险预测系统,包括

基本特征获取模块,配置用于获取订单基本特征;

衍生特征获取模块,配置用于计算基于基本特征的衍生特征;

理赔数据获取模块,配置用于获取基于基本特征对应的收、寄件人的历史理赔数据;

风险预测模块,配置用于将基本特征、衍生特征及历史理赔数据进行融合处理并输入预先基于xgboost算法构建的风险预测模型,得到理赔风险指数。

本发明还涉及一种设备,该设备包括:一个或多个处理器;存储器,其上存储有一个或多个程序;当一个或多个处理器执行一个或多个程序时,实现上述的理赔风险预测方法的步骤。

本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的理赔风险预测方法的步骤。

本发明的理赔风险预测方法、系统、设备及存储介质,通过使用xgboost算法进行建模,对订单数据信息进行综合评判,能够在客户下单后,订单成交之前计算出该订单的理赔风险指数,从而预先针对理赔风险指数高的订单做出相应的预防措施,降低损失。

附图说明

下面参考附图描述本发明的优选实施例,附图为了说明本发明的优选实施例而不是为了限制本发明的目的。附图中,

图1为本发明实施例的总体流程框图。

图2为本发明实施例的基于xgboost算法构建理赔风险预测模型的流程图。

具体实施方式

本发明的具体实施方式用来具体说明本发明,但并不局限于该具体实施方式。

以下实施例中以快递订单为例对本发明进行具体说明。

图1为本发明实施例的总体流程框图。

如图1所示,本实施例的理赔风险预测方法,包括如下步骤:

步骤s1:获取订单基本特征;

从收件系统中获取客户快递订单的数据,快递订单数据是以json格式表达的,包括了和快递运单相关的各种信息。当客户下单后,从该订单的json字符串中解析并提取需要的字段以及对应的字段值,得到该订单的基本特征。

获取的基本特征包括寄件人、收件人、寄件地址、收件地址、托寄物类型、和时效信息等。

步骤s2:计算基于基本特征的衍生特征。

根据步骤s1中获得的基本特征实时计算该订单相关的衍生特征。衍生特征为根据该订单的基本特征进行相关计算得到的特征,例如:寄件地址和收件地址的物理距离、以及和收件地和寄件地相关的历史理赔率映射等。历史理赔率映射是指根据当前运单的区域编号查找其对应的历史理赔率。历史理赔率是根据过往的历史理赔数据对不同地区对应的理赔率做统计并保存得到的。

步骤s3:根据基本特征获取对应的收、寄件人的历史理赔数据。

根据步骤s1中获取的基本特征信息,实时查询并得到寄件人和收件人的历史理赔数据,包括理赔次数、寄件次数、地址变更次数等。

步骤s4:将基本特征、衍生特征及历史理赔数据进行融合处理并输入预先基于xgboost算法构建的风险预测模型,得到理赔风险指数。

将步骤s1得到的订单的基本特征、步骤s2得到的衍生特征和步骤3中得到的历史理赔数据进行融合处理,其处理的方式可以将以上特征直接组合为一个更大维度的特征向量。例如:基本特征有a维,衍生特征有b维,历史理赔数据有c维,那么,直接将基本特征、衍生特征和历史理赔数据组合成为一个维数为a+b+c的特征向量t。

下面来详细说明本发明实施例构建风险预测模型的方法。

图2为本实施例基于xgboost算法构建风险预测模型的流程图。

风险预测模型是通过将包括基本特征、衍生特征及历史理赔数据的历史订单数据集作为xgboost算法的输入,构建的风险预测模型,其中,历史订单数据集是对历史的快递订单统计得到的数据集合。

构建风险预测模型,就是根据历史订单数据集通过xgboost算法的训练过程。

如图2所示,构建风险预测模型包括如下方法:

步骤s41,提取并采样历史快递订单数据集作为训练集合。

历史快递订单数据集是指历史所产生的所有快递订单的单据数据,包括理赔订单和非理赔订单。例如,对非理赔订单进行随机采样,使得最终训练集合中理赔订单和非理赔订单数相比约为1:10。

步骤s42,构建特征集合。

各历史快递订单的数据由特征集来表达。在提取了历史快递订单数据集作为训练集合后,提取训练集合中的每个历史订单的特征向量,该特征向量即通过将该历史订单的基本特征、衍生特征和历史理赔数据进行融合处理得到。将提取的所有历史订单数据集的特征向量组成特征集合。

在特征集合中的不同特征具有不同的数据类别数目,例如,寄件区域代码的数据类别数目就是指所有的地区区域代码。

步骤s43,xgboost模型训练。利用步骤s41的训练集合,步骤s42的特征集合,通过xgboost算法训练出理赔风险预测模型。

xgboost算法由回归树组成,每个回归树包括多个叶子节点,每个叶子节点均对应一个得分,回归树将所述训练集合分配到各叶子节点。

回归树根据输入的特征将所述历史订单的训练集合分配到各叶子节点,输入的特征为训练集合的特征集中一个特征。xgboost算法的结果就是所有回归树值叠加到一起作为最终的预测值。

xgboost算法是对训练集合有标签的学习。比如,我们通过对历史快递订单大数据信息中提取了10万条历史订单数据,每个历史快递订单都有50个特征构成的特征集和一个标签,此处的标签为理赔高风险、理赔中等风险和理赔低风险,如果规约为数值2、1和0,那么理赔高风险的快递订单的值为2,理赔中等风险的值为1,理赔低风险的值则为0。

xgboost算法通过目标函数确定理赔风险预测模型的最佳特征,最佳特征是将历史订单数据集完全分为理赔高风险、理赔中等风险和理赔低风险的特征,确定出最佳特征后,就得出参数都是已知的理赔风险预测模型。

假设输入的历史快递运单数据集为d={(xi,yi)},xi表示输入运单数据的特征,yi表示输入的运单是否理赔,xgboost的目标函数的计算公式如下:

其中,l是可调配的参数。

式中,第一部分是训练误差,在xgboost中,采用加法训练(additivetraining)的训练方式来学习模型,即每一次保留原来的模型不变,加入一个新的函数(回归树)到模型中。

加法训练是分步骤优化目标函数,首先,优化回归树中的第一棵树,完了之后再优化第二棵树,直至优化完所有回归树。整个计算过程如下:

的值为前t-1轮模型预测结果,加上一个新函数ft(xi),ft(xi)是现有的t-1棵回归树的基础上,使得目标函数最小的那棵回归树。

ft(x)的集合表示所有回归树的集合,用如下公式表征:

ft(x)=wq(x),w∈rt,q:rd->{1,2,...,t}

在这个式子中,t为回归树的叶子个数,也就是根据输入的特征将历史快递订单数据集分成的子数据集的个数;w为叶子的权重部分,也就是各叶子的分值,w∈rt表征叶子的向量;q(x)表示把历史快递订单数据集的数据分到了某个叶子节点上,即表征树的结构部分,q:rd->{1,2,...,t}表征树的结构;wq(x)就是这棵回归树对快递订单数据的预测值,也就是对快递订单的预测结果:理赔高风险、理赔中等风险和理赔低风险。所以,ft(x)是针对t-1次迭代后的模型ft-1(x)的预测值与实际值的残差,再建立回归树进行学习,从而不断地逼近实际值。

目标函数中的第二部分ω(ft)表征回归树的复杂度,用如下公式表示:

其中γ,λ均为算法的可调参数,设定的γ,λ值越大表示越是希望获得结构简单的回归树。

各个叶子节点的值wj之间是相互独立的,此时,就能够求出各个叶子节点的最佳值以及此时目标函数的值,目标函数的值越小,代表回归树的结构越好,从而得到理赔风险预测模型。

xgboost模型在每一次计算中,目标函数obj(t)都会根据上一轮的结果来相应的自动调整本轮的参数(即有监督的学习),从而达到不断优化模型的效果。

在确定了树的结构后(即q(x)确定),为了使目标函数最小化,可以令其对w的导数为0,解得每个叶子节点的最优预测分数为w*,从而特征参数得以调整至最优,得到最优的理赔风险预测模型。

当需要进行理赔风险预测时,在预设时间内提取客户提交的实际快递订单数据输入理赔风险预测模型,计算得到该订单的理赔风险指数,然后将该指数推送给收派员的收派终端。

该预设时间最好是在客户提交订单,订单触发后,收派员上门揽收之前的时间内,这样,收派员在对快递进行揽收之前得知该快递的理赔风险指数。

当风险预测模型计算出该快递订单理赔风险指数之后,还可以根据理赔风险指数反馈针对高风险理赔托寄物的揽收策略。例如,对应不同的理赔风险值,对应可采取的操作分别为:

理赔风险值为2,风险较高,因此开箱验示,出示身份证拍照;

理赔风险值为1,风险中等,提示开箱验示;

理赔风险值为0,风险低,正常收件。

收派员收到该理赔风险指数以及揽收策略后,就可以根据风险的高低,采取相应的措施。

本实施例还涉及一种理赔风险预测系统,包括

基本特征获取模块,配置用于获取订单基本特征;

衍生特征获取模块,配置用于计算基于基本特征的衍生特征;

理赔数据获取模块,配置用于获取基于基本特征对应的收、寄件人的历史理赔数据;

风险预测模块,配置用于将基本特征、衍生特征及历史理赔数据进行融合处理并输入预先基于xgboost算法构建的风险预测模型,得到理赔风险指数。

关于基本特征、衍生特征和历史理赔数据的获取和计算已在理赔风险预测方法中进行了详细说明,此处不再赘述。

基本特征获取模块、衍生特征获取模块、理赔数据获取模块和风险预测模块会在后台系统进行维护和模型参数的更新。

风险预测模块的工作流程如下:

从收件系统中获取客户快递订单的数据,并进行一定格式的解析,获得例如寄件人,收件人,寄件地址,收件地址,托寄物类型,时效信息等基本特征。

根据获得的基本特征实时计算获得该订单相关的衍生特征。衍生特征例如寄件地址和收件地址的物理距离,以及和收件地和寄件地相关的历史理赔率映射等。

根据获得的基本特征信息,实时查询并得到寄件人和收件人的历史理赔相关特征,例如理赔次数,寄件次数,地址更改次数等特征。

将基本特征、衍生特征和历史理赔数据进行融合生成订单的特征向量,作为该客户的理赔风险预测模型输入特征。

将获得的特征向量输入风险预测模型,实时得到理赔风险值。

本发明还涉及一种设备,该设备包括:一个或多个处理器;存储器,其上存储有一个或多个程序;当一个或多个处理器执行一个或多个程序时,实现上述的理赔风险预测方法的步骤。

本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的理赔风险预测方法的步骤。

本发明的理赔风险预测方法、系统、设备和存储介质,通过使用xgboost算法进行建模,对订单数据信息进行综合评判,能够在客户下单后,订单成交之前计算出该订单的理赔风险指数,从而预先针对理赔风险指数高的订单做出相应的预防措施,降低损失。

在客户下单后、收派员上门取件之前的这段时间内,计算得到该快件的理赔风险指数,并将风险指数推送给收派员的手持终端。这样,收派员在上门取件前,就可以得知该快件的风险指数,如果该快件理赔风险指数很高,则收派员可以采取相应的措施来避免损失的发生,如开箱验货、拍照、重新包装等。

以上实施例采用快递订单对本发明进行具体说明,本发明并不局限于快递订单的理赔风险预测,对于其他领域有理赔风险的订单均适用于本发明。

以上实施例为本发明的优选实施例,并不用以限定本发明的目的,凡在本发明的精神和原则之内进行的修改和替换,均在本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1