理赔数据的审核方法、装置及介质与流程

文档序号:21796905发布日期:2020-08-11 20:47阅读:458来源:国知局
理赔数据的审核方法、装置及介质与流程

本公开涉及互联网技术领域,尤其涉及一种理赔数据的审核方法、装置及介质。



背景技术:

目前,现有保险公司主要依靠人工审核理赔数据的方式作出赔付决策,审核人员从数据完整性、一致性等方向审核案件,按照经验判断是否应该赔付,该方式严重依赖于核赔人员的专业知识及核赔,经验不足的核赔人员容易造成漏赔、错赔,从而导致不同核赔人员作出的赔付决策不统一。部分保险公司根据不同的险种,生成险种或责任对应的规则库,然后利用规则对理赔数据进行审核。但是在实现本发明的发明构思时,发明人发现现有技术至少存在以下问题:人工核赔:核赔人员良莠不齐,经验难以量化,缺乏统一规范,核赔结果与审核人、审核状态有差异,核赔较慢,且存在误判、漏判风险。纯规则核赔:需要根据不同险种,设置详细的核赔规则,规则库条目众多,如遇保险规则调整,需批量调整。



技术实现要素:

有鉴于此,本公开提供一种理赔数据的审核方法、装置及介质,进而至少部分地解决了由于相关技术的限制和缺陷而导致的一个或者多个问题。

本公开一方面提供了一种理赔数据的审核方法,包括:获取多个保险理赔案件的数据;利用通用规则对所述多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据;利用集成学习模型对所述多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付。

根据本公开的实施例,所述通用规则是通过人工针对保险大类制定的共性规则,所述共性规则包括以下任意一项或多项:保单有效性规则、理赔资料真实性规则、保险责任规则、历史信息或同业共享信息规则、医疗fwa规则。

根据本公开的实施例,在获取多个保险理赔案件的数据之前,该方法还包括:获取历史保险理赔案件的数据;对所述历史保险理赔案件的数据进行数据清洗;基于集成学习对数据清洗后的历史保险理赔案件的数据进行训练,生成所述集成学习模型。

根据本公开的实施例,所述历史保险理赔案件的数据包括初步合格的历史保险理赔案件的数据。

根据本公开的实施例,基于集成学习对数据清洗后的历史保险理赔案件的数据进行训练,生成所述集成学习模型包括:从所述历史保险理赔案件的数据中确定待选特征数据的范围;在所述待选特征数据的范围内,确定所述待选特征数据的范围中每个待选特征数据的区分度,并对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生;利用随机森林算法对衍生后特征进行特征选择;基于特征选择的结果生成集成学习模型。

根据本公开的实施例,对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生包括:基于医学知识对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生;并且/或者基于数据本身的分布对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生。

根据本公开的实施例,利用随机森林算法对衍生后特征进行特征选择包括:利用随机森林算法计算随机森林中所有决策树的节点上的衍生后特征的重要性;根据随机森林中所有决策树的节点上的衍生后特征的重要性,对衍生后特征进行特征选择。

根据本公开的实施例,该方法还包括:在预设时间段内,根据所述历史保险理赔案件的数据对所述集成学习模型进行更新。

本公开的另一个方面提供了一种理赔数据的审核装置,包括:第一获取模块,用于获取多个保险理赔案件的数据;第一审核模块,利用通用规则对所述多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据;第二审核模块,利用集成学习模型对所述多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付。

根据本公开的实施例,所述通用规则是通过人工针对保险大类制定的共性规则,所述共性规则包括以下任意一项或多项:保单有效性规则、理赔资料真实性规则、保险责任规则、历史信息或同业共享信息规则、医疗fwa规则。

根据本公开的实施例,该装置还包括:第二获取模块,用于获取历史保险理赔案件的数据;数据清洗模块,用于对所述历史保险理赔案件的数据进行数据清洗;生成模块,基于集成学习对数据清洗后的历史保险理赔案件的数据进行训练,生成所述集成学习模型。

根据本公开的实施例,所述历史保险理赔案件的数据包括初步合格的历史保险理赔案件的数据。

根据本公开的实施例,上述生成模块包括:确定模块,用于从所述历史保险理赔案件的数据中确定待选特征数据的范围;特征衍生模块,在所述待选特征数据的范围内,确定所述待选特征数据的范围中每个待选特征数据的区分度,并对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生;特征选择模块,利用随机森林算法对衍生后特征进行特征选择。

根据本公开的实施例,上述特征衍生模块包括:第一特征衍生模块,基于医学知识对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生;并且/或者第二特征衍生模块,基于数据本身的分布对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生。

根据本公开的实施例,特征选择模块包括:计算模块,利用随机森林算法计算随机森林中所有决策树的节点上的衍生后特征的重要性;特征选择子模块,用于根据随机森林中所有决策树的节点上的衍生后特征的重要性,对衍生后特征进行特征选择。

根据本公开的实施例,更新模块,在预设时间段内,根据所述历史保险理赔案件的数据对所述集成学习模型进行更新。

本公开的另一方面提供了一种电子设备。所述电子设备包括一个或多个处理器,以及存储装置。所述存储装置用于存储一个或多个程序。其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的理赔数据的审核方法。

本公开的另一方面提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的理赔数据的审核方法。

本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现上述的理赔数据的审核方法。

根据本公开的实施例,可以至少部分地解决现有技术中人工核赔和纯规则核赔存在的问题,并因此实现了利用通用规则对多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据,然后利用集成学习模型对多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付,以此方式可以有效地避免了维护庞大的规则库,保证了核赔方案的灵活性,并且加入了通用规则可以最大限度利用核赔师的经验,降低对模型对训练数据的依赖性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

图1示出了可以应用本发明实施例的理赔数据的审核方法或理赔数据的审核装置的示例性系统架构100的示意图;

图2示意性示出了根据本发明的实施例的理赔数据的审核方法的流程图;

图3示意性示出了根据本发明的另一个实施例的理赔数据的审核方法的流程图;

图4示意性示出了根据本发明的另一个实施例的理赔数据的审核方法的流程图;

图5示意性示出了根据本发明的另一个实施例的理赔数据的审核方法的流程图;

图6示意性示出了根据本发明的实施例的理赔数据的审核装置的方框图;

图7示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图;

图8示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图;

图9示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图;

图10示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图;

图11示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图;

图12示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“a或b”应当被理解为包括“a”或“b”、或“a和b”的可能性。

图1示出了可以应用本发明实施例的理赔数据的审核方法或理赔数据的审核装置的示例性系统架构100的示意图。

如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如服务器105可以从终端设备103(也可以是终端设备101或102)中获取多个保险理赔案件的数据,利用通用规则对所述多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据,利用集成学习模型对所述多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付,以此方式可以有效地避免了维护庞大的规则库,保证了核赔方案的灵活性,并且加入了通用规则可以最大限度利用核赔师的经验,降低对模型对训练数据的依赖性。

在一些实施例中,本发明实施例所提供的图像处理方法一般由服务器105执行,相应地,需求变更装置一般设置于服务器105中。在另一些实施例中,某些终端可以具有与服务器相似的功能从而执行本方法。因此,本发明实施例所提供的需求变更方法不限定在服务器端执行。

图2示意性示出了根据本发明的实施例的理赔数据的审核方法的流程图。

如图1所示,理赔数据的审核方法包括步骤s110~步骤s130。

在步骤s110中,获取多个保险理赔案件的数据。

在步骤s120中,利用通用规则对所述多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据。

在步骤s130中,利用集成学习模型对所述多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付。

该方法可以至少部分地解决现有技术中人工核赔和纯规则核赔存在的问题,并因此实现了利用通用规则对多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据,然后利用集成学习模型对多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付,以此方式可以有效地避免了维护庞大的规则库,保证了核赔方案的灵活性,并且加入了通用规则可以最大限度利用核赔师的经验,降低对模型对训练数据的依赖性。

在本公开的一些实施例中,上述保险理赔案件的数据可以是被保险人的个人信息、保单信息、报案信息和医疗信息。例如,个人信息可以是被保险人姓名、籍贯、家庭电话、社保卡号等等。保单信息可以是历史保单、累计保额、是否参与团险等等。报案信息可以是报案地点、报案方式、报案人与被保险人关系等。医疗信息可以是被保险人当前所患病的所有信息和/或历史信息。

在本公开的一些实施例中,上述通用规则是通过人工针对保险大类制定的共性规则,所述共性规则包括以下任意一项或多项:保单有效性规则、理赔资料真实性规则、保险责任规则、历史信息或同业共享信息规则、医疗fwa规则。

具体地,保险理赔案件的通用规则判定环节,通过对健康险大类制定共性规则,并确定通用规则。通用规则分别包含以下几部分。

1.保单有效性规则

保单有效性部分,主要审核事故是否发生在保单有效期内。根据疾病的种类及案发时间的保单状态,给予不同处理。

2.理赔资料真实性规则

理赔资料真实性涉及被保险人基本信息审核、篡改资料的审核以及编造资料的审核。包括但不局限于各项审核资料的一致性、完整性、时间有效性。

3.保险责任规则

保险责任审核主要分为报案信息审核、申请信息审核、诊断名称审核、住院病历审核、检验检查结果审核、发票审核。其中,重点对诊断名称进行审核,针对除外责任与特别约定生成规则。

4.历史信息或同业共享信息规则

考虑被保险人的历史保单信息及同业共享信息,生成审核决策。

5.医疗fwa规则

针对不合理医疗及医疗欺诈行为识别。主要是应用欺诈、浪费、滥用监管规则fwa规则(fraud,waste,abuse)以及限定支付类规则对理赔数据进行审核,识别不合理医疗和医疗欺诈、医疗浪费等行为。如重叠住院、分解住院、单次门诊费用异常、超长期住院、药品、诊疗项目限儿童使用、药品、诊疗项目限男(女)性使用及诊断与性别不符、科室与性别年龄不符、单次重症(普通)住院费用异常、药品(诊疗)项目限医院级别、药品(诊疗)诊疗项目限就诊类型、中药饮片单味药拒付或单味或复方拒付等。

对比相关技术中纯规则的核赔方案,上述方法仅采用了险种大类的通用规则筛选明显有问题的数据(例如,不合格的保险理赔案件的数据),对于需综合判断的不明显问题的数据(初步合格的保险理赔案件的数据)交予集成学习模型。该方法避免了维护庞大的规则库,保证了核赔方案的灵活性,分层解决定责问题。

在本公开的一些实施例中,基于专家的核赔经验,建立可配置的通用专家规则库方案,对保险理赔案件的数据进行初步审核,为明显不符合立案规范的保险理赔案件定责,然后利用集成学习算法,针对险种大类,从历史保险理赔案件的数据中发现规律,训练模型,预测核赔决策,并根据历史保险理赔案件的数据的分布实时更新集成学习模型。该方法提升了人工审核的核赔效率,核赔决策的输出不依赖于操作人员的经验,规范了核赔结果。相对于单纯的规则库,该方法不需要针对每一款保险维护一套规则库,避免了规则缺乏灵活性的问题,并可定期更新集成学习模型,这样可以应对新的商业模式。同时,该方法避免了单纯模型解决方案从头训练的问题,充分利用了现有的理赔经验,在常识方面表现良好。

例如,首先选择保险大类的规则库,对保险理赔案件的数据进行初步审核,对于未通过通用规则审核的保险理赔案件的数据(例如,问题案件),展示未通过审核的原因,交予业务人员人工处理;对于通过了通用规则审核的保险理赔案件的数据(例如,初步合格的案件),进入集成学习模型审核环节。对于未通过集成学习模型审核的保险理赔案件的数据,展示集成学习模型的结果,交予业务人员人工处理;对于通过集成学习模型审核的案件,可认定为应赔案件,对案件进行自动赔付。

图3示意性示出了根据本发明的另一个实施例的理赔数据的审核方法的流程图。

如图3所示,在步骤s110之前,上述方法还包括步骤s210~s230。

在步骤s210中,获取历史保险理赔案件的数据。

在步骤s220中,对所述历史保险理赔案件的数据进行数据清洗。

在步骤s230中,基于集成学习对数据清洗后的历史保险理赔案件的数据进行训练,生成所述集成学习模型。

该方法可以利用集成学习算法,针对险种大类,从历史保险理赔案件的数据中发现规律,训练模型并预测核赔决策,以此方式得到的核赔决策更加准确,在一定程度上降低了保险公司的经济损失。

在本公开的一些实施例中,为了将不同来源的历史保险理赔案件的数据统一分析,可以对历史保险理赔案件的数据进行数据清洗,关联各条业务线的历史保险理赔案件的数据,确认历史保险理赔案件的数据质量,排除录入等原因导致的异常,处理缺失值。数据清洗的策略包含以下几个环节:

1.数据关联:将健康险被保险人的历史保单信息、就诊信息、报案信息、客户个人信息以及理赔信息的数据关联,以理赔案件为维度,整合所有信息。

2.数据质量计算:历史保险理赔案件的数据质量确认,针对各字段的含义,结合业务知识,确定空值率限制,设置异常报警阈值,反馈空值率高于报警阈值的字段,为后续的特征人工选择提供依据。

3.冲突数据处理:历史保险理赔案件的数据来自于不同的系统/来源,可能导致历史保险理赔案件的数据内容冲突,信息不一致。设定信息冲突时的融合字段,对被保人提交信息,如诊断结果、费用明细,保留历史保险理赔案件的数据全貌,对系统产生的历史保险理赔案件的数据,按照历史保险理赔案件的数据的可信度,进行融合。

4.缺失值处理:针对不同含义的字段,确定缺失值处理策略。对于本应录入系统的缺失字段,根据历史保险理赔案件的数据类型,选择中位数、均值、众数等方式填充。对于缺失为自然状态的字段,生成新的类别,记录该字段是否缺失。

在本公开的一些实施例中,首先对具有理赔结论的历史保险理赔案件的数据进行通用规则的初步审核,去除明显问题案件,获取通用规则审核后的合格案件,并进入数据清洗环节。数据清洗分为数据关联、数据质量计算、冲突数据处理和缺失值处理。对数据清洗后的历史保险理赔案件的数据实施基于医学知识的特征衍生及基于历史保险理赔案件的数据本身的特征衍生。然后利用数据质量计算的结果及业务知识,人工对特征进行选择,并同时采用机器学习的方法,对特征自动选择。利用通用规则初步审核后的合格数据和特征选择后的特征数据训练集成学习模型,生成二分类模型,实现案件的定责,支持理赔决策。

在本公开的一些实施例中,上述历史保险理赔案件的数据包括初步合格的历史保险理赔案件的数据。例如,历史保险理赔案件的数据经过通用规则的初步审核,确定存在明显问题的历史保险理赔案件的数据,并显示问题历史保险理赔案件的数据对应的规则及原因,这样可以通过人工确认赔付决策。对于不能确认的历史保险理赔案件的数据和不存在明显问题的剩余历史保险理赔案件的数据,进入模型环节,通过建模方法及模型定期更新,检测每个险种的欺诈问题。

图4示意性示出了根据本发明的另一个实施例的理赔数据的审核方法的流程图。

如图4所示,上述步骤s230具体可以包括步骤s310~步骤s330。

在步骤s310中,从所述历史保险理赔案件的数据中确定待选特征数据的范围。

在步骤s320中,在所述待选特征数据的范围内,确定所述待选特征数据的范围中每个待选特征数据的区分度,并对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生。

在步骤s330中,利用随机森林算法对衍生后特征进行特征选择。

在步骤s340中,基于特征选择的结果生成集成学习模型。

该方法可以对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生,并利用随机森林算法对衍生后特征进行特征选择,然后基于特征选择的结果生成集成学习模型,以此方式生成的集成学习模型性能更好,输出的核赔决策可信度更高。

在本公开的一些实施例中,从原始保险理赔案件的数据中找出一些具有物理意义的特征数据(例如,被保险人的医疗数据),去除一些无意义的特征数据(例如,保单编号等信息),并针对物理意义的特征数据,进行数据探查,从而获得上述待选特征数据的范围。

在本公开的一些实施例中,对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生包括:基于医学知识对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生;并且/或者基于数据本身的分布对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生。

在本公开的一些实施例中,基于医学知识的特征衍生可以是利用医学知识库及医疗统计信息,结合核保信息中的医疗数据,计算医疗数据的合理程度,从而实现特征的衍生。例如,从各个维度评价被保险人的健康状况、逆选择风险、带病投保风险、欺诈风险等。

在本公开的一些实施例中,基于数据本身的分布的特征衍生可以是从数据分布的本身出发,完成分箱计算、均值计算、求和计算、计数计算、比例计算、时间差计算等操作,从而实现特征的衍生。

在本公开的一些实施例中,针对衍生后特征可以通过人工方法及模型方法进行特征选择。人工方法参考数据质量计算的结果,模型方法采用随机森林计算特征重要性的排序。

在本公开的一些实施例中,上述方法还包括:在预设时间段内,根据所述历史保险理赔案件的数据对所述集成学习模型进行更新,这样可以应对新的商业模式,从而提高了该集成学习模型的性能。

图5示意性示出了根据本发明的另一个实施例的理赔数据的审核方法的流程图。

如图5所示,上述步骤s330具体可以包括步骤s410和步骤s420。

在步骤s410中,利用随机森林算法计算随机森林中所有决策树的节点上的衍生后特征的重要性。

在步骤s420中,根据随机森林中所有决策树的节点上的衍生后特征的重要性,对衍生后特征进行特征选择。

该方法可以利用随机森林算法计算随机森林中所有决策树的节点上的衍生后特征的重要性,根据随机森林中所有决策树的节点上的衍生后特征的重要性,对衍生后特征进行特征选择,这样可以提高训练数据与核赔决策的相关度,从而提高集成学习模型的性能。

在本公开的一些实施例中,利用随机森林算法计算随机森林中所有决策树的节点上的衍生后特征的重要性。例如,采用随机森林计算特征重要性并进行排序。假设待选特征集为x1,x2,x3,...,xc。将衍生后特征的重要性用vim表示,基尼指数评分用gi表示,则计算目标位特征xj的基尼指数评分。该评分等同于随机森林所有决策树节点分裂不纯度的平均改变量。计算基尼指数评分可以采用下面公式(1):

其中,m为随机森林中决策树的节点,k为核赔决策的类别,例如,k=1时可以指自动理赔,k=2可以指不能自动理赔。另外k’可以理解为当k=1时,k’=2,或者当k=2时,k’=1。pmk和pmk’为m节点中k与k’的概率,例如,在赔付决策生成过程中,k=2,pmk为类别k所占比例。

进一步地,特征xj在节点m的重要性,为基尼指数的变化量,即其中l和r为m的子节点。如果特征xj在决策树i中,m为xj出现的集合。n为随机森林中树的棵树。重要性评分为对变分重要性归一处理,即获得xj特征在随机森林的重要性。以此方式可以计算出待选特征集中所有特征的的重要性并对其进行排序,这样便于进行特征选择。

例如,根据选特征集中所有特征的的重要性可以选择前n条特征,进行集成建模。考虑案件的特征中同时存在数值型和类别型数据,使用树模型作为学习器。集成学习使用一系列学习器进行学习,集合学习器结果,提升学习效果。例如,选择基于树的集成学习模型gbdt,通过采用加法模型,以及不断减小训练过程产生的残差,实现数据分类。具体地,假设前一轮迭代得到的学习器为ft-1(x),损失函数为l(y,ft-1(x)),本轮迭代目标为找到弱学习器ht(x),使本次迭代的损失函数最小。本轮损失函数可写为l(y,ft(x))=l(y,ft-1(x)+ht(x))。通过迭代,对分错的样本增加权重,专注于分错的样本,这样可以提高集成学习模型的精度。

图6示意性示出了根据本发明的实施例的理赔数据的审核装置的方框图。

如图6所示,理赔数据的审核装置500包括第一获取模块510、第一审核模块520和第二审核模块530。

第一获取模块510,用于获取多个保险理赔案件的数据。

第一审核模块520,利用通用规则对所述多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据。

第二审核模块530,利用集成学习模型对所述多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付。

该理赔数据的审核装置500可以至少部分地解决现有技术中人工核赔和纯规则核赔存在的问题,并因此实现了利用通用规则对多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据,然后利用集成学习模型对多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付,以此方式可以有效地避免了维护庞大的规则库,保证了核赔方案的灵活性,并且加入了通用规则可以最大限度利用核赔师的经验,降低对模型对训练数据的依赖性。

根据本公开实施例,理赔数据的审核装置500可以用于实现上述图2描述的理赔数据的审核方法。

图7示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图。

如图7所示,理赔数据的审核装置600还包括第二获取模块610、数据清洗模块620和生成模块630。

具体地,第二获取模块610,用于获取历史保险理赔案件的数据。

数据清洗模块620,用于对所述历史保险理赔案件的数据进行数据清洗。

生成模块630,基于集成学习对数据清洗后的历史保险理赔案件的数据进行训练,生成所述集成学习模型。

该理赔数据的审核装置600可以利用集成学习算法,针对险种大类,从历史保险理赔案件的数据中发现规律,训练模型并预测核赔决策,以此方式得到的核赔决策更加准确,在一定程度上降低了保险公司的经济损失。

根据本公开实施例,理赔数据的审核装置600可以用于实现上述图3描述的理赔数据的审核方法。

图8示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图。

如图8所示,上述生成模块630具体可以包括确定模块710、特征衍生模块720和特征选择模块730。

具体地,确定模块710,用于从所述历史保险理赔案件的数据中确定待选特征数据的范围。

特征衍生模块720,在所述待选特征数据的范围内,确定所述待选特征数据的范围中每个待选特征数据的区分度,并对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生。

特征选择模块730,利用随机森林算法对衍生后特征进行特征选择。

该生成模块630可以对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生,并利用随机森林算法对衍生后特征进行特征选择,然后基于特征选择的结果生成集成学习模型,以此方式生成的集成学习模型性能更好,输出的核赔决策可信度更高。

根据本公开实施例,生成模块630可以用于实现上述图4描述的理赔数据的审核方法。

图9示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图。

如图9所示,上述特征衍生模块720具体可以包括第一特征衍生模块810和/或第二特征衍生模块820。

具体地,第一特征衍生模块810,基于医学知识对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生。

第二特征衍生模块820,基于数据本身的分布对区分度较低的待选特征数据和/或可与医疗数据结合的待选特征数据进行特征衍生。

图10示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图。

如图10所示,上述特征选择模块730具体可以包括计算模块910和特征选择子模块920。

具体地,计算模块910,利用随机森林算法计算随机森林中所有决策树的节点上的衍生后特征的重要性。

特征选择子模块920,用于根据随机森林中所有决策树的节点上的衍生后特征的重要性,对衍生后特征进行特征选择。

该特征选择模块730可以利用随机森林算法计算随机森林中所有决策树的节点上的衍生后特征的重要性,根据随机森林中所有决策树的节点上的衍生后特征的重要性,对衍生后特征进行特征选择,这样可以提高训练数据与核赔决策的相关度,从而提高集成学习模型的性能。

根据本公开实施例,上述特征选择模块730可以用于实现上述图5描述的理赔数据的审核方法。

图11示意性示出了根据本发明的另一个实施例的理赔数据的审核装置的方框图。

如图11所示,理赔数据的审核装置700还包括更新模块1010。

具体地,更新模块1010,在预设时间段内,根据所述历史保险理赔案件的数据对所述集成学习模型进行更新。

在该理赔数据的审核装置700中,在预设时间段内,根据所述历史保险理赔案件的数据对所述集成学习模型进行更新,这样可以应对新的商业模式,从而提高了该集成学习模型的性能。

可以理解的是,第一获取模块510、第一审核模块520、第二审核模块530、第二获取模块610、数据清洗模块620、生成模块630、确定模块710、特征衍生模块720、特征选择模块730、第一特征衍生模块810、第二特征衍生模块820、计算模块910、特征选择子模块920、以及更新模块1010可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一获取模块510、第一审核模块520、第二审核模块530、第二获取模块610、数据清洗模块620、生成模块630、确定模块710、特征衍生模块720、特征选择模块730、第一特征衍生模块810、第二特征衍生模块820、计算模块910、特征选择子模块920、以及更新模块1010中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,第一获取模块510、第一审核模块520、第二审核模块530、第二获取模块610、数据清洗模块620、生成模块630、确定模块710、特征衍生模块720、特征选择模块730、第一特征衍生模块810、第二特征衍生模块820、计算模块910、特征选择子模块920、以及更新模块1010中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。

图12示意性示出了根据本公开实施例的电子设备的计算机系统的方框图。图12示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示,根据本公开实施例的电子设备的计算机系统800包括处理器801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行参考图2~图5描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在ram803中,存储有系统800操作所需的各种程序和数据。处理器801、rom802以及ram803通过总线804彼此相连。处理器801通过执行rom802和/或ram803中的程序来执行以上参考图2~图5描述的理赔数据的审核方法的各种步骤。需要注意,该程序也可以存储在除rom802和ram803以外的一个或多个存储器中。处理器801也可以通过执行存储在该一个或多个存储器中的程序来执行以上参考图2~图5描述的理赔数据的审核方法的各种步骤。

根据本公开的实施例,系统800还可以包括输入/输出(i/o)接口807,输入/输出(i/o)接口807也连接至总线804。系统800还可以包括连接至i/o接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的rom802和/或ram803和/或rom802和ram803以外的一个或多个存储器。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行根据本公开实施例的理赔数据的审核方法。该方法包括:获取多个保险理赔案件的数据;利用通用规则对所述多个保险理赔案件的数据进行审核,得到多个初步合格的保险理赔案件的数据;利用集成学习模型对所述多个初步合格的保险理赔案件的数据进行审核,并根据审核结果确定每个初步合格的保险理赔案件的数据是否真实且符合理赔规定,以便于决策所述保险理赔案件是否需要赔付。

以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1