核保决策树的创建方法、装置、计算机设备及存储介质与流程

文档序号:13662968阅读:207来源:国知局
核保决策树的创建方法、装置、计算机设备及存储介质与流程
本发明涉及保险
技术领域
,特别是涉及核保决策树的创建方法、装置、计算机设备及存储介质。
背景技术
:在保险这一领域中,经常需要对用户的投保单进行核保,依据核保人的年龄、所从事的行业、收入、性别的等相关信息审核对应的保单是否可以承保。目前对于用户的投保单的核保工作主要是人工来审核,审核的依据一方面是基于被保人的相关信息,另一方面还基于审核人的工作经验,但是对于个人而言其工作经验毕竟有限,如果没有对应的直观历史数据作为参考难以对用户的保单进行准确的审核。技术实现要素:本发明实施例提供核保决策树的创建方法、装置、计算机设备及存储介质,为用户的核保工作提供数据的参考,可以提高核保的准确性。一种核保决策树的创建方法,该方法包括:获取包括不同样本属性的样本训练集;根据该样本训练集中各属性的样本的核保结果,计算各属性中表示影响核保结果的熵值增益;将熵值增益最高的属性作为核保决策树的当前节点,并将该熵值增益最高的属性对应的子属性划分为该当前节点的下一节点;从该样本训练集中抽取划分的该子属性的样本训练子集;将所述样本训练子集确定为所述样本训练集,对该子属性递归计算上述熵值增益及划分操作,直到划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。进一步地,通过以下公式计算所述熵值增益:其中,m表示样本训练集中总核保通过率,ai表示对应属性a的子属性i的数量占样本训练集中的总数量的比例,bi表示所述子属性i以所述属性a的数量为基数的核保通过率,n表示对应属性a的子属性的个数,ga表示计算的所述属性a的熵值增益。进一步地,判断该子属性是否满足成为该核保决策树的叶子节点的预设条件的步骤包括:当划分的子属性只有一个时,将该子属性确定为该核保决策树的叶子节点;或当划分的子属性的核保结果均为通过或者不通过时,将该子属性确定为该核保决策树的叶子节点;或当该子属性的熵值增益小于预设的阈值时,将该子属性确定为该核保决策树的叶子节点。进一步地,该核保决策树的创建方法还包括:显示该核保决策树并在该核保决策树的叶子节点中显示对应属性的核保结果。进一步地,上述属性包括以下情况中的至少两种:年龄、行业风险、既往病史及赔付率。一种核保决策树的创建装置,该装置包括:样本获取模块,用于获取包括不同样本属性的样本训练集;熵值增益计算模块,用于根据该样本训练集中各属性的样本的核保结果,计算各属性中表示影响核保结果的熵值增益;节点划分模块,用于将熵值增益最高的属性作为核保决策树的当前节点,并将该熵值增益最高的属性对应的子属性划分为该当前节点的下一节点;子集抽取模块,用于从该样本训练集中抽取划分的该子属性的样本训练子集;递归模块,用于将所述样本训练子集确定为所述样本训练集,对该子属性递归计算上述熵值增益及划分操作,直到划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。进一步地,该熵值增益计算模块通过以下公式计算所述熵值增益:其中,m表示样本训练集中总核保通过率,ai表示对应属性a的子属性i的数量占样本训练集中的总数量的比例,bi表示所述子属性i以所述属性a的数量为基数的核保通过率,n表示对应属性a的子属性的个数,ga表示计算的所述属性a的熵值增益。进一步地,该递归模块还包括:第一叶子节点确定单元,用于当划分的子属性只有一个时,将该子属性确定为该核保决策树的叶子节点;或第二叶子节点确定单元,用于当划分的子属性的核保结果均为通过或者不通过时,将该子属性确定为该核保决策树的叶子节点;或第三叶子节点确定单元,用于当该子属性的熵值增益小于预设的阈值时,将该子属性确定为该核保决策树的叶子节点。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现上述核保决策树的创建方法。一种存储介质,该存储介质被设置为存储用于执行上述核保决策树的创建方法中各个步骤的程序代码。本发明通过计算样本训练集中各个属性的熵值增益,并将熵值增益最大的属性作为核保决策树的当前节点,再通过递归的方式划分出该核保决策树的中间节点属性以及叶子节点属性,以创建基于各个属性的核保决策树,使得核保人可以依据该核保决策树对处于该核保决策树例如根节点等上层的属性进行着重审核,以给用户提供核保依据,提高核保的准确性。附图说明图1为根据本发明的一个实施例的核保决策树的创建方法的流程图;图2为根据本发明的另一实施例的核保决策树的创建方法的流程图;图3为根据本发明的又一实施例的核保决策树的创建方法的流程图;图4为根据本发明的一个实施例的使用场景示意图;图5为根据本发明的一个实施例的核保决策树的创建装置的示范性结构框图;图6为根据本发明的一个实施例的计算机设备的内部结构示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。图1为根据本发明的一个实施例的核保决策树的创建方法的流程图,下面结合图1来详细描述根据本发明的一个实施例的核保决策树的创建方法,如图1所示,该方法包括以下步骤s101、s102、s103、s104及s105。s101、获取包括不同样本属性的样本训练集。根据本实施例的一个示例,该样本训练集的来源为从历史核保记录中选取的样本数据,将从历史核保记录中选取的样本数据作为创建核保决策树的依据对于审核人的工作具有更强的指导性。在该步骤中,上述的属性包括以下情况中的至少两种:年龄、行业风险、既往病史及赔付率,其中年龄这一属性的子属性包括低龄、高龄和中龄,行业风险这一属性的子属性包括高风险、低风险和中风险,既往病史这一属性的子属性包括是和否,赔付率这一属性的子属性包括赔付率高和赔付率低。根据本实施例的一个示例获取的样本训练集如下表(1)所示:表(1)其中,各年龄段的年龄区间可以通过实际业务的需求的来设定,根据本实施例的一个示例例如:可以将0~25岁设为低龄,可以将26~45岁设为中龄,可以将46岁及以上岁数以上设为高龄。s102、根据该样本训练集中各属性的样本的核保结果,计算各属性中表示影响核保结果的熵值增益。根据本实施例的一个示例,该步骤s102具体还包括:从该样本训练集中抽取同一属性的样本的核保结果,再根据同一属性的核保结果计算该属性的熵值增益。进一步地,该步骤s102中的核保结果包括是否核保通过及对应属性的核保通过率和核保不通过率,通过以下公式计算所述熵值增益:其中,m表示样本训练集中总核保通过率,ai表示对应属性a的子属性i的数量占样本训练集中的总数量的比例,bi表示所述子属性i以所述属性a的数量为基数的核保通过率,n表示对应属性a的子属性的个数,ga表示计算的所述属性a的熵值增益。进一步地,可以依据该样本训练集先计算出该样本训练集总的决策熵值,再计算出样本训练集中的其中一个属性的熵值,然后将决策熵值与样本训练集中的其中一个属性的熵值的差值作为该属性的熵值增益,熵值增益的意义在于可以表示该属性对于核保结果的影响力,熵值增益越大表示对于核保结果的影响力度越大。根据本实施例的一个使用场景,参照例如在上述样本训练集中抽取的年龄这一属性的样本的核保结果如下表(2)所示:表(2)根据上述表(1)可以得出:总的通过率总的不通过率当上述属性a表示年龄这一属性时,该属性a的子属性i包括中龄、低龄和高龄,根据上述表(1)和表(2)可以得出:年龄属性的子属性为低龄的数量占样本训练集中的总数量的比例该子属性低龄以所述属性a的数量为基数的核保通过率该子属性低龄以所述属性a的数量为基数的核保不通过率可以计算出决策熵值sg:还可以计算出低龄这一子属性的熵值sai:同理,可以计算出中龄这一子属性的熵值为0.9157,老龄这一属性的熵值为0,然后利用以下公式(2)计算出年龄属性a的熵值:可以计算出年龄属性a的熵值大小为:再通过上述公式(1)可以得出年龄这一属性的熵值增益ga为:ga=0.9537-0.6877=0.2660。同理,参照上述表(1)可计算出行业风险、既往病史、赔付率的熵值增益分别为0.0176、0.1726和0.0453。s103、将熵值增益最高的属性作为核保决策树的当前节点,并将该熵值增益最高的属性对应的子属性划分为该当前节点的下一节点。由于熵值增益的意义在于可以表示该属性对于核保结果的影响力,熵值增益越大表示对于核保结果的影响力度越大,将熵值增益最大的属性作为该核保决策树的当前节点有利于核保人员对于处于该核保决策树上层节点的属性进行重点审核,有利于提高核保的准确性。根据本实施例的使用场景例如,当通过上述步骤s102的步骤计算的年龄这一属性的熵值增益最高的属性时,则将年龄这一属性作为该核保决策树的当前节点。s104、从该样本训练集中抽取划分的该子属性的样本训练子集。根据本实施例的一个示例,当上述熵值增益最高的属性为年龄这一属性,年龄属性中对应的子属性包括低龄、高龄和中龄,根据本实施例的一个使用场景抽取出来的低龄这一子属性的样本训练子集如下表(3)所示:年龄-低龄行业分险既往病史赔付率是否核保通过计数低龄高否高通过640低龄高否低通过640低龄中否低通过1280低龄中是低不通过640低龄低是高不通过640表(3)s105、将所述样本训练子集确定为所述样本训练集,对该子属性递归计算上述熵值增益及划分操作,直到划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。根据本实施例的一个示例,该步骤中的递归操作是指将对应的子属性确定为上述公式(1)中的属性a,依据抽取的样本训练子集,计算属性a的子属性的熵值增益并进行核保决策树中分支的划分,直到划分出的划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。根据本实施例的一个使用场景参照表(3)所示,即将上述表(3)确定为上述样本训练集,将低龄这一属性确定为上述公式(1)中的属性a,逐一计算行业分险、既往病史、赔付率这些属性的熵值增益,依次递归直到划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。进一步地,对年龄属性下的每个子属性都进行上述步骤s104的抽取操作和步骤s105中的递归操作,直到其中的划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。本实施例通过计算样本训练集中各个属性的熵值增益,并将熵值增益最大的属性作为核保决策树的根节点,再通过递归的方式划分出该核保决策树的中间节点属性以及叶子节点属性,以创建基于各个属性的核保决策树,使得核保人可以依据该核保决策树对处于该核保决策树例如根节点等上层的属性进行着重审核,以给用户提供核保依据,提高核保的准确性。图2为根据本发明的另一实施例的核保决策树的创建方法的流程图,如图2所示,该核保决策树的创建方法在包括上述步骤s101至s104的基础上,上述步骤s105进一步包括以下步骤s201。s201、将所述样本训练子集确定为所述样本训练集,对该子属性递归计算上述熵值增益及划分操作,直到划分的子属性只有一个或划分的子属性的核保结果均为通过或者不通过或当该子属性的熵值增益小于预设的阈值时,将该子属性确定为该核保决策树的叶子节点。根据本实施例的一个示例,当该子属性的熵值增益小于预设的阈值时,还可以对小于预设的阈值的熵值增益对应的子属性做剪枝操作,将该子属性的上一节点属性作为该核保决策树的叶子节点。图4为根据本发明的一个实施例的使用场景示意图,根据本实施例的叶子节点的确定的使用场景如图4所示,当子属性老年这一叶子节点的核保结果均为不通过时,将老年这一子属性确定为该核保决策树的叶子节点。根据本实施例的另一使用场景参照上述表(3),例如核保决策树的根节点至叶子节点的某一个分支的属性依次为年龄——低龄——既往病史中,是既往病史的核保通过率均为不通过,非既往病史均为不通过,因此可以将既往病史作为该核保决策树中年龄——低龄——既往病史这一分支的叶子节点。根据本实施例的另一使用场景例如通过上述递归算法划分的核保决策树的根节点至叶子节点的某一个分支的属性依次为年龄——低龄——行业风险中——既往病史否下的子属性仅包括赔付率时,该子属性赔付率可作为核保决策树的叶子节点。根据本实施例的又一使用场景通过上述递归算法划分的核保决策树的根节点至叶子节点的某一个分支的属性依次为年龄——低龄——行业风险中——既往病史否,其中既往病史的熵值增益如果小于预设的阈值,则可将既往病史作为该核保决策树的叶子节点,也可将既往病史这一叶子节点做剪枝操作,将该叶子节点的上一节点行业风险作为该核保决策树的叶子节点。本实施例将熵值增益很小的子属性做剪枝操作,可以将对核保决策影响很小的属性剔除在核保决策树之外,进一步提高了核保决策树所呈现的核保决策的准确性。图3为根据本发明的又一实施例的核保决策树的创建方法的流程图,如图3所示,该核保决策树的创建方法在包括上述步骤s101至s105的基础上还包括以下步骤s301。s301、显示该核保决策树并在该核保决策树的叶子节点中显示对应属性的核保结果。根据本实施例的一个示例,该步骤中的核保结果可以是如图4中所示子属性核保通过的数量和核保不通过的数量,还可以是该叶子节点对应子属性的核保的通过率和/或核保的不通过率。根据本发明的一个实施例还提供了一种利用核保决策树自动进行核保的方法,该方法包括:获取待核保的保单中的各属性,将获取的各属性与核保决策树的各个节点的属性进行匹配,将与该核保决策树的叶子节点匹配成功的属性中该叶子节点所对应的核保结果作为该保单的核保结果。其中,将获取的各属性与核保决策树的各个节点的属性进行匹配的步骤进一步包括:获取该核保决策树的当前节点的属性,将该待核保的保单中与所述当前节点属性相同的属性确定为与所述当前节点的属性匹配成功,进一步获取该保单中与当前节点匹配成功的属性的子属性,然后在核保决策树中查询与获取的子属性相同的分支属性,进一步再在该子属性的其它属性中依次与核保决策树的中间节点进行匹配,直到匹配到该核保决策树的叶子节点,将该叶子节点的核保结果作为该待核保保单的核保结果。根据本实施例的一个使用场景例如,核保决策树的其中一个分支中从当前节点到叶子节点依次为:年龄——低龄——行业风险高,其中叶子节点属性——行业风险高的核保结果为均不通过,如果待核保的保单中的年龄属性属于低龄的范围,既往病史为是,行业风险为高,则依次将年龄匹配到核保决策树的子属性低龄中,然后获取核保决策树中低龄的下一节点为行业风险高,将待核保的保单中的行业风险为高这一属性匹配到保决策树中低龄的行业风险高中,然后确定行业风险高为该核保决策树的叶子节点,且该叶子节点的核保结果为均不通过,则不需要再匹配待核保的保单中的既往病史这一属性,可以直接作出该待核保的保单核保不通过的决定。根据本实施例的一个示例,上述步骤s101~s301的标号并不用于限定本实施例中各个步骤的先后顺序,各个步骤的编号只是为了使得描述各个步骤时可以通用引用该步骤的标号进行便捷的指代,只要各个步骤执行的顺序不影响本实施例的逻辑关系均视为在本申请的保护范围之内。图5为根据本发明的一个实施例的核保决策树的创建装置的示范性结构框图,下面结合图5来详细描述根据本发明的一个实施例的核保决策树的创建装置,如图5所示,该核保决策树的创建装置10包括:样本获取模块11,用于获取包括不同样本属性的样本训练集;熵值增益计算模块12,用于根据该样本训练集中各属性的样本的核保结果,计算各属性中表示影响核保结果的熵值增益;节点划分模块13,用于将熵值增益最高的属性作为核保决策树的当前节点,并将该熵值增益最高的属性对应的子属性划分为该当前节点的下一节点;子集抽取模块14,用于从该样本训练集中抽取划分的该子属性的样本训练子集;递归模块15,用于将所述样本训练子集确定为所述样本训练集,对该子属性递归计算上述熵值增益及划分操作,直到划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。根据本实施例的一个示例,上述样本获取模块具体用于从历史核保记录中选取的样本数据,将从历史核保记录中选取的样本数据作为创建核保决策树的依据对于审核人的工作具有更强的指导性。进一步地,上述熵值增益计算模块12具体还用于从该样本训练集中抽取同一属性的样本的核保结果,再根据同一属性的核保结果计算该属性的熵值增益。根据本实施例的一个示例,上述熵值增益计算模块12具体还用于:依据该样本训练集先计算出该样本训练集总的决策熵值sg,再计算出样本训练集中的其中一个属性的熵值sa,然后将决策熵值与样本训练集中的其中一个属性的熵值之差作为该属性的熵值增益,熵值增益的意义在于可以表示该属性对于核保结果的影响力,熵值增益越大表示对于核保结果的影响力度越大。其中,sg=-(m×log2m+(1-m)log2(1-m));其中,属性a的每个子属性的熵值为sai:进一步地,该熵值增益计算模块通过以下公式计算所述熵值增益:其中,m表示样本训练集中总核保通过率,ai表示对应属性a的子属性i的数量占样本训练集中的总数量的比例,bi表示所述子属性i以所述属性a的数量为基数的核保通过率,n表示对应属性a的子属性的个数,ga表示计算的所述属性a的熵值增益。其中,该属性包括以下情况中的至少两种:年龄、行业风险、既往病史及赔付率,其中年龄这一属性的子属性包括低龄、高龄和中龄,行业风险这一属性的子属性包括高风险、低风险和中风险,既往病史这一属性的子属性包括是和否,赔付率这一属性的子属性包括赔付率高和赔付率低。其中,上述递归模块15具体用于将对应的子属性确定为上述公式(1)中的属性a,依据抽取的样本训练子集,计算属性a的子属性的熵值增益并进行核保决策树中分支的划分,直到划分出的划分的下一节点的子属性满足成为该核保决策树的叶子节点的预设条件。由于熵值增益的意义在于可以表示该属性对于核保结果的影响力,熵值增益越大表示对于核保结果的影响力度越大,上述节点划分模块13将熵值增益最大的属性作为该核保决策树的当前节点有利于核保人员对于处于该核保决策树上层的属性进行重点审核,有利于提高核保的准确性。根据本实施例的一个示例,该递归模块15还包括:第一叶子节点确定单元,用于当划分的子属性只有一个时,将该子属性确定为该核保决策树的叶子节点;或第二叶子节点确定单元,用于当划分的子属性的核保结果均为通过或者不通过时,将该子属性确定为该核保决策树的叶子节点;或第三叶子节点确定单元,用于当该子属性的熵值增益小于预设的阈值时,将该子属性确定为该核保决策树的叶子节点。根据本实施例的另一示例,该第三叶子节点确定单元还用于当该子属性的熵值增益小于预设的阈值时,对小于预设的阈值的熵值增益对应的子属性做剪枝操作,将该子属性的上一节点属性作为该核保决策树的叶子节点。根据本实施例的一个使用场景例如当子属性老年这一叶子节点的核保结果均为不通过时,将老年这一子属性确定为该核保决策树的叶子节点。根据本实施例的另一使用场景参照上述表(3),例如核保决策树的根节点至叶子节点的某一个分支的属性依次为年龄——低龄——既往病史中,是既往病史的核保通过率均为不通过,非既往病史均为不通过,因此可以将既往病史作为该核保决策树中年龄——低龄——既往病史这一分支的叶子节点。根据本实施例的另一使用场景例如通过上述递归算法划分的核保决策树的根节点至叶子节点的某一个分支的属性依次为年龄——低龄——行业风险中——既往病史否下的子属性仅包括赔付率时,该子属性赔付率可作为核保决策树的叶子节点。根据本实施例的又一使用场景通过上述递归算法划分的核保决策树的根节点至叶子节点的某一个分支的属性依次为年龄——低龄——行业风险中——既往病史否,其中既往病史的熵值增益如果小于预设的阈值,则可将既往病史作为该核保决策树的叶子节点,也可将既往病史这一叶子节点做剪枝操作,将该叶子节点的上一节点行业风险作为该核保决策树的叶子节点。根据本实施例的一个示例,该核保决策树的创建装置10还包括:显示模块,用于显示该核保决策树并在该核保决策树的叶子节点中显示对应属性的核保结果。根据本实施例的一个示例,该显示模块具体用于显示子属性核保通过的数量和核保不通过的数量,还可以是该叶子节点对应子属性的核保的通过率和/或核保的不通过率。其中上述第一叶子节点确定单元、第二叶子节点确定单元及第三叶子节点确定单元中的“第一”、“第二”和“第三”的意义仅在于将不同的叶子节点确定单元加以区分,并不用于限定哪个叶子节点确定单元的优先级更高或者其它的限定意义。根据本发明的另一实施例提供的一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现上述核保决策树的创建方法。图6为根据本发明的一个实施例的计算机设备的内部结构示意图,该计算机设备可以为服务器。参照图6,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、输入装置和显示屏。其中,该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行本申请各实施例的一种核保决策树的创建方法,该方法的具体实现过程可参考图1至4各实施例的具体内容,在此不再赘述。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种核保决策树的创建方法。计算机设备的输入装置用于各个参数的输入,计算机设备的显示屏用于进行显示。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。根据本发明的另一实施例提供的一种存储介质,该存储介质被设置为存储用于执行上述核保决策树的创建方法中各个步骤的程序代码。根据本实施例的一个示例,上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。该存储介质包括但不限于磁碟、优盘、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。本实施例通过计算样本训练集中各个属性的熵值增益,并将熵值增益最大的属性作为核保决策树的当前节点,再通过递归的方式划分出该核保决策树的中间节点属性以及叶子节点属性,以创建基于各个属性的核保决策树,使得核保人可以依据该核保决策树对处于该核保决策树例如根节点等上层的属性进行着重审核,并使得核保人可以依据核保决策树中叶子节点中显示的核保结果直接作出核保决定,以给用户提供核保的数据依据,提高核保的准确性和核保的效率。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1