基于共性抽取的案件审核方法、装置、设备及存储介质与流程

文档序号：19683605发布日期：2020-01-14 17:43阅读：129来源：国知局

本发明涉及大数据分析技术领域，尤其涉及基于共性抽取的案件审核方法、装置、设备及存储介质。

背景技术：

目前，国内保险公司理赔风控时一般仅对高额理赔案件进行监控，监控手段也较原始，大多采用的是人工调查的手段。随着健康险、小额医疗险等险种的大力推广，保险公司的理赔案件的结构也发生了变化，逐渐开始以门诊就诊的小额理赔案件为主，加上目前保险监督管理委员会对小额理赔案件的理赔时效要求较高，小额理赔案件大多采用自动审核的方式处理。现有自动审核的方式通常由保险人员设定好广泛适用的指标，通过采集理赔材料上这些指标的数值来具体判定理赔案件是否存在潜在风险，即虚假理赔。然而，现有自动审核中指标的设定容易受到人为因素的干扰，出现指标设定不准确或不正确的问题，进而影响自动审核的效果，导致自动审核时遗漏掉虚假理赔案件的情况出现。

技术实现要素：

本发明实施例提供一种基于共性抽取的案件审核方法、装置、计算机设备及存储介质，以解决现有自动审核指标设定不准确，容易遗漏虚假理赔案件的问题。

一种基于共性抽取的案件审核方法，包括：

确定待审核的目标理赔案件的被保险人；

获取所述被保险人在权威认证机构的材料数据；

获取理赔请求时上传的所述被保险人的各个理赔材料照片；

使用图像文字识别技术提取所述各个理赔材料照片中的理赔材料信息；

对比所述理赔材料信息和所述材料数据，并确定出所述材料数据与所述理赔材料信息之间存在差异的目标差异数据；

若所述目标差异数据中存在预设指定项目的数据，则将所述目标理赔案件转入人工审核环节；

若所述目标差异数据中不存在预设指定项目的数据，则确定所述目标理赔案件审核通过；

其中，所述预设指定项目通过以下步骤预先设定：

获取各个历史虚假理赔案件，以及所述各个历史虚假理赔案件的第一差异数据项，所述第一差异数据项是指历史虚假理赔案件中出现差异数据的项目；

统计每种所述第一差异数据项在所有历史虚假理赔案件中出现的次数，记为第一次数；

对各种第一差异数据项按照第一次数的多少排序，取排序靠前的n种第一差异数据项作为初始项目；

获取各个历史真实理赔案件，以及所述各个历史真实理赔案件的第二差异数据项，所述第二差异数据项是指历史真实理赔案件中出现差异数据的项目；

统计每种所述第二差异数据项在所有历史真实理赔案件中出现的次数，记为第二次数；

对各种第二差异数据项按照第二次数的多少排序，取排序靠前的m种第二差异数据项作为排除项目；

从所述初始项目中剔除所述排除项目，得到剩下的项目作为所述预设指定项目。

一种基于共性抽取的案件审核装置，包括：

被保险人确定模块，用于确定待审核的目标理赔案件的被保险人；

材料数据获取模块，用于获取所述被保险人在权威认证机构的材料数据；

材料照片获取模块，用于获取理赔请求时上传的所述被保险人的各个理赔材料照片；

材料信息提取模块，用于使用图像文字识别技术提取所述各个理赔材料照片中的理赔材料信息；

差异数据确定模块，用于对比所述理赔材料信息和所述材料数据，并确定出所述材料数据与所述理赔材料信息之间存在差异的目标差异数据；

案件转入模块，用于与若所述目标差异数据中存在预设指定项目的数据，则将所述目标理赔案件转入人工审核环节；

审核通过模块，用于若所述目标差异数据中不存在预设指定项目的数据，则确定所述目标理赔案件审核通过；

其中，所述预设指定项目通过以下模块预先设定：

虚假案件获取模块，用于获取各个历史虚假理赔案件，以及所述各个历史虚假理赔案件的第一差异数据项，所述第一差异数据项是指历史虚假理赔案件中出现差异数据的项目；

第一次数统计模块，用于统计每种所述第一差异数据项在所有历史虚假理赔案件中出现的次数，记为第一次数；

第一排序模块，用于对各种第一差异数据项按照第一次数的多少排序，取排序靠前的n种第一差异数据项作为初始项目；

真实案件获取模块，用于获取各个历史真实理赔案件，以及所述各个历史真实理赔案件的第二差异数据项，所述第二差异数据项是指历史真实理赔案件中出现差异数据的项目；

第二次数统计模块，用于统计每种所述第二差异数据项在所有历史真实理赔案件中出现的次数，记为第二次数；

第二排序模块，用于对各种第二差异数据项按照第二次数的多少排序，取排序靠前的m种第二差异数据项作为排除项目；

项目剔除模块，用于从所述初始项目中剔除所述排除项目，得到剩下的项目作为所述预设指定项目。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于共性抽取的案件审核方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于共性抽取的案件审核方法的步骤。

上述基于共性抽取的案件审核方法、装置、计算机设备及存储介质，首先，确定待审核的目标理赔案件的被保险人；然后，获取所述被保险人在权威认证机构的材料数据；接着，获取理赔请求时上传的所述被保险人的各个理赔材料照片；再使用图像文字识别技术提取所述各个理赔材料照片中的理赔材料信息；对比所述理赔材料信息和所述材料数据，并确定出所述材料数据与所述理赔材料信息之间存在差异的目标差异数据；若所述目标差异数据中存在预设指定项目的数据，则将所述目标理赔案件转入人工审核环节；若所述目标差异数据中不存在预设指定项目的数据，则确定所述目标理赔案件审核通过。

其中，关于预设指定项目，这些预设指定项目可以通过大数据统计的方式得到，无需人为设置：获取各个历史虚假理赔案件，以及所述各个历史虚假理赔案件的第一差异数据项，所述第一差异数据项是指历史虚假理赔案件中出现差异数据的项目；统计每种所述第一差异数据项在所有历史虚假理赔案件中出现的次数，记为第一次数；对各种第一差异数据项按照第一次数的多少排序，取排序靠前的n种第一差异数据项作为初始项目；获取各个历史真实理赔案件，以及所述各个历史真实理赔案件的第二差异数据项，所述第二差异数据项是指历史真实理赔案件中出现差异数据的项目；统计每种所述第二差异数据项在所有历史真实理赔案件中出现的次数，记为第二次数；对各种第二差异数据项按照第二次数的多少排序，取排序靠前的m种第二差异数据项作为排除项目；从所述初始项目中剔除所述排除项目，得到剩下的项目作为所述预设指定项目。

可见，本发明实时获取到各大权威认证机构的材料数据，并使用这些材料数据与上报的理赔材料照片中的信息比对，快速区分出上传的理赔材料中存在哪些差异数据，如果这些差异数据中存在预设指定项目的数据，说明该目标理赔案件的理赔材料中针对重要的信息存在隐瞒或伪造的情况，可以认为该目标理赔案件的风险较大，将其转入人工审核环节进行严格风控；反之，则可以确定该目标理赔案件审核通过。其中，本发明中的预设指定项目并非人为设定，而是大数据统计的方式得到，并创造性地将统计的数据划分为历史虚假理赔案件和历史真实理赔案件两大类，以统计的方式从中抽取出两大类的“共性”特征，并以排除法将得到的共性项目排除，最终确定出剩下的项目为对虚假理赔具有重大影响的项目，作为预设指定项目。由此可知，本发明实现了理赔材料中差异数据的快速定位，可以从理赔材料中准确分辨出可能包含有虚假材料的部分理赔材料，减少了遗漏虚假理赔案件的可能性；并且，大数据统计的方式确定预设指定项目，避免了人为因素对自动审核指标的干扰，提高了理赔案件审核的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于共性抽取的案件审核方法的一应用环境示意图；

图2是本发明一实施例中基于共性抽取的案件审核方法的一流程图；

图3是本发明一实施例中基于共性抽取的案件审核方法步骤104在一个应用场景下的流程示意图；

图4是本发明一实施例中基于共性抽取的案件审核方法在一个应用场景下检测发票号并处理的流程示意图；

图5是本发明一实施例中基于共性抽取的案件审核方法在一个应用场景下对目标差异数据进行综合评估的流程示意图；

图6是本发明一实施例中基于共性抽取的案件审核装置在一个应用场景下的结构示意图；

图7是本发明一实施例中材料信息提取模块的结构示意图；

图8是本发明一实施例中基于共性抽取的案件审核装置在另一个应用场景下的结构示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的基于共性抽取的案件审核方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，该客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于共性抽取的案件审核方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

101、确定待审核的目标理赔案件的被保险人；

本实施例中，服务器针对待审核的目标理赔案件，首先需要确定该目标理赔案件的被保险人。可知，服务器容易从该目标理赔案件的案件信息中提取得到被保险人的相关信息，比如被保险人的姓名、身份证号码等。

102、获取所述被保险人在权威认证机构的材料数据；

本实施例中的服务器为了在需要时更高效地获取到各个医疗机构的材料数据，该服务器与卫计委平台建立通信连接，建立数据直连和对接，由于卫计委平台上会实时更新各个医疗机构的材料数据，各大医疗机构被要求按时、及时地将材料数据上传到卫计委平台上，因此服务器可以通过该卫计委平台获取所述被保险人在医疗机构的材料数据，且可以认为这里获取到的材料数据为该被保险人的最新的材料数据。

可以理解的是，本实施例中获取到的该被保险人的材料数据可以来自于一家医疗机构，也可以来自于两家以上的医疗机构，比如被保险人在不同时间段分别在不同的医疗机构就医，就医过程中产生的材料数据存放在不同医疗机构中，但最后会上传至卫计委平台上，服务器便可从卫计委平台上获取到该被保险人的这些材料数据。

103、获取理赔请求时上传的所述被保险人的各个理赔材料照片；

可以理解的是，该目标理赔案件的申请人，也即理赔请求人，在发起理赔请求时，需要上传理赔材料，也即上述的所述被保险人的各个理赔材料，包括但不限于医疗机构的发票、住院消费清单、住院病历等，这些材料在自核案件中一般由申请人拍照上传，即上传该被保险人的各个理赔材料照片到服务器上。因此，服务器可以获取到理赔请求时上传的所述被保险人的各个理赔材料照片。

104、使用图像文字识别技术提取所述各个理赔材料照片中的理赔材料信息；

具体地，服务器可以采用ocr文字识别等图像文字识别技术，从各个理赔材料照片中提取出该被保险人的理赔材料信息。可以理解的是，这里所说的理赔材料信息包括但不限于发票号、发票金额、开票人、就诊医院名称、就诊医院地址、病历信息、住院结论、住院时间、病理指标，等等。

在实际应用中，具体从理赔材料照片中提取哪些项目的信息可以由保险公司自行决定，一般来说，哪些项目的信息会影响到理赔结论或理赔金额的，或者会影响理赔风控的，均可以确定为需要提取的信息，并从这些理赔材料照片中提取得到，作为所述理赔材料信息的内容。

为便于理解，下面对如何提取各个理赔材料照片中的理赔材料信息进行详细描述。如图3所示，进一步地，步骤104可以包括：

201、针对每张理赔材料照片，获取所述每张理赔材料照片的单据类型；

202、从预设的各个文字识别模板中获取与所述每张理赔材料照片的单据类型对应的目标文字识别模板；

203、针对所述目标文字识别模板中的每个信息项，根据所述每个信息项在所述目标文字识别模板中的位置和尺寸大小，使用图像文字识别技术对所述每张理赔材料照片上对应位置和尺寸大小的照片区域进行扫描识别，得到所述每个信息项对应的单据文本；

204、在扫描识别得到每张理赔材料照片中每个信息项对应的单据文本之后，将扫描识别得到的所有信息项以及所述所有信息项对应的单据文本确定为所述理赔材料信息，所述所有信息项至少包括就诊时间、就诊的医疗机构和病理指标。

对于步骤201，服务器可以针对每张理赔材料照片，获取所述每张理赔材料照片的单据类型。这里所说的单据类型包括但不限于：发票、住院消费清单、住院病历等，每张上传的理赔材料照片均有其所述的类型，一般情况下，申请人上传时已经区分好每张理赔材料照片的单据类型了，服务器直接读取即可。比如，申请人发起理赔申请的客户端界面上可以要求申请人上传理赔材料，界面上提供各种单据类型的上传接口，“发票”、“住院消费清单”、“身份证”等，申请人每次选择一个上传接口，然后对理赔材料实物进行拍照即可将理赔材料照片上传至服务器，服务器获取到这些理赔材料照片的同时也一并获知了其单据类型。

对于步骤202，可以理解的是，服务器上可以预先设置好各个文字识别模板，这些文字识别模板与各种单据类型一一对应，可知，由于每种单据类型的单据在格式上是固定的，因此，单据中的每个信息项分别有其固定位置和尺寸。比如，在医疗发票中，发票号在右上角区域，真实尺寸大约为2cm*0.3cm，就诊病人的姓名、性别、医保类型和医疗保险号码在发票号的下方区域中，等等。因此，针对医疗发票可以预先设定出一个文字识别模板与之对应。同理，其它单据类型均可一一设置对应的文字识别模板。

当服务器获取到每张理赔材料照片的单据类型之后，可以从预设的各个文字识别模板中获取与所述每张理赔材料照片的单据类型对应的文字识别模板，作为目标文字识别模板。

对于步骤203，可以理解的是，每个文字识别模板中均预设好各个信息项的位置和尺寸大小，因此，服务器针对获取到的目标文字识别模板中的每个信息项，可以根据所述每个信息项在所述目标文字识别模板中的位置和尺寸大小，使用图像文字识别技术对所述每张理赔材料照片上对应位置和尺寸大小的照片区域进行扫描识别，得到所述每个信息项对应的单据文本。具体地，服务器可以使用ocr文字识别软件对该照片区域进行扫描识别，经记录扫描识别的结果作为每个信息项对应的单据文本。

对于步骤204，可知，每张理赔材料照片的理赔材料信息是由其上各个信息项的内容组成的，因此，服务器扫描识别得到每张理赔材料照片中每个信息项对应的单据文本之后，可以将所有信息项以及所述所有信息项对应的单据文本确定为所述各个理赔材料照片中的理赔材料信息。可知，在理赔审核中，就诊时间、就诊的医疗机构和病理指标为必不可少的信息，因此上述扫描得到的所有信息项中至少包括就诊时间、就诊的医疗机构和病理指标。当然，一般来说，所述所有信息项还包括其它信息，比如发票金额、被保险人的身份证号码、被保险人的住院时段，等等，对此本实施例不作限定。

105、对比所述理赔材料信息和所述材料数据，并确定出所述材料数据与所述理赔材料信息之间存在差异的目标差异数据；

在理赔案件的实际应用场景中，一般理赔申请人上传的信息应当与从卫计委平台获取到的材料数据相一致。这里说的相一致是指上传的信息均存在于材料数据中，且没有遗漏重大的信息项。与之相比，不法分子和虚假理赔申请人会伪造上传的信息，出现与材料数据不一致的情况，比如上传的信息不存在于材料数据中、与材料数据记录的情况不一致、故意隐瞒重大信息项等情况。

因此，本方案中，为了从上传的理赔材料中筛选出虚假理赔材料或虚假信息，服务器可以对比所述理赔材料信息和所述材料数据，并确定出所述材料数据与所述理赔材料信息之间存在差异的目标差异数据。

可以理解的是，这里所说的目标差异数据包括以下几种情况下的数据：1、仅存在于理赔材料信息中、不存在于材料数据中的数据；2、仅存在于材料数据中、不存在于理赔材料信息中的数据；3、均存在于材料数据和理赔材料信息中、但存在差别的数据。

在实际应用场景中，理赔审核时更为重视涉及金额的单据的真实性，特别是发票的真实性，若上传的理赔材料中的发票虚假，则基本可以认为本次理赔申请存在造假的情况，可以直接确定该案件审核不通过。因此，本实施例中可以先检测理赔申请人上传的理赔材料中是否存在虚假发票，若存在，则无需进行后续步骤，直接确定该案件审核不通过，间接提高了理赔案件的审核效率。如图4所示，进一步地，在步骤105之前，本方法还可以包括：

301、若所述理赔材料信息中包括发票号，则提取所述理赔材料信息中的各个发票号作为各个目标发票号；

302、获取所述材料数据中的所有发票号；

303、检测所述所有发票号中是否包含有所有所述目标发票号；

304、若检测结果为否，则确定所述目标理赔案件审核不通过；

305、若检测结果为是，则执行对比所述理赔材料信息和所述材料数据，并确定出所述材料数据中与所述理赔材料信息存在差异的目标差异数据的步骤。

对于步骤301，首先，服务器可以从所述理赔材料信息中提取出各个发票号作为各个目标发票号，可知，这里提取到的发票号是来自于理赔材料信息，也即来自于理赔申请人的。

对于步骤302，另一方面，服务器也可以获取所述材料数据中的所有发票号。

对于步骤303-305，在获取到所述各个目标发票号和所述材料数据中的所有发票号之后，服务器可以检测所述所有发票号中是否包含有所有所述目标发票号，若检测结果为否，则表明理赔申请人提供的理赔材料中存在虚假发票，这些虚假发票在材料数据中没有记录，因此可以直接确定所述目标理赔案件审核不通过；反之，若检测结果为是，则可以认为在发票号上，理赔申请人提供的发票号码均正常，不存在虚假的发票号码，发票本身是真实存在的，因此可以执行后续步骤，也即对比所述理赔材料信息和所述材料数据，并确定出所述材料数据中与所述理赔材料信息存在差异的目标差异数据。

106、若所述目标差异数据中存在预设指定项目的数据，则将所述目标理赔案件转入人工审核环节；

应当理解的是，并非只要所述材料数据与所述理赔材料信息之间存在目标差异数据就将该目标理赔案件定性为虚假理赔案件，这是因为有些正常的理赔申请人可能在上传理赔材料是存在粗心大意、不了解理赔流程等情况，导致上传的理赔材料中存在差异数据；另一方面，也并非所有的差异数据均会影响理赔申请的结果，例如对于一般的医疗理赔来说，理赔申请人申请理赔是即便隐含了被保险人自幼患有蚕豆病这一项目的信息，由于蚕豆病通常不影响医疗理赔的结果和理赔数额，一般不纳入审核范围内，因此服务器在自动审核时不应当关心这项数据。

在本实施例中，服务器预先设置有多个预设指定项目，这些预设指定项目是指影响医疗理赔的结果和理赔数额的信息项，比如糖尿病、心脏病等重大疾病项目；住院消费金额等涉及金额的项目；身份证号码、被保险人姓名等涉及身份的项目；等等。

因此，服务器可以检测所述目标差异数据中是否存在预设指定项目的数据，若存在这些预设指定项目的数据，则说明目标差异数据中存在重大的信息项，也即该理赔申请人上传的理赔材料中存在重大虚假数据或遗漏数据，因此，为了严格把控风险，可以将所述目标理赔案件转入人工审核环节，由专业的理赔审核人员对该目标理赔案件进行深入的审核和调查。

本实施例中，预设指定项目可以通过大数据统计的方式得到，无需人为设置，见下述步骤1-7：

1、获取各个历史虚假理赔案件，以及所述各个历史虚假理赔案件的第一差异数据项，所述第一差异数据项是指历史虚假理赔案件中出现差异数据的项目；

2、统计每种所述第一差异数据项在所有历史虚假理赔案件中出现的次数，记为第一次数；

3、对各种第一差异数据项按照第一次数的多少排序，取排序靠前的n种第一差异数据项作为初始项目；

4、获取各个历史真实理赔案件，以及所述各个历史真实理赔案件的第二差异数据项，所述第二差异数据项是指历史真实理赔案件中出现差异数据的项目；

5、统计每种所述第二差异数据项在所有历史真实理赔案件中出现的次数，记为第二次数；

6、对各种第二差异数据项按照第二次数的多少排序，取排序靠前的m种第二差异数据项作为排除项目；

7、从所述初始项目中剔除所述排除项目，得到剩下的项目作为所述预设指定项目。

对于上述步骤1，这里所说的历史虚假理赔案件是指历史记录中已申请理赔的案件，且这些案件均因虚假理赔的原因而导致审核不通过，即理赔失败。因此，可知历史虚假理赔案件中均存在虚假材料和虚假数据，这些虚假材料、虚假数据必然位于差异数据项中。因此，步骤1获取这些历史虚假理赔案件的第一差异数据项，以便抽取其中虚假材料、虚假数据之间的“共性”。需要说明的是，本实施例中所说的差异数据是指理赔案件的申请材料中与实际数据不一致的数据。例如，某医疗理赔案件中，被保险人实际在医院就医缴费1万元，但申请材料中显示该就医缴费为2万元，该项就医缴费费用即为差异数据。

对于上述步骤2，可以理解的是，上述步骤1中获取到的历史虚假理赔案件可以有很多，比如1000件，这1000件历史虚假理赔案件中，每个案件可以存在一个、两个或多个第一差异数据项，这些历史虚假理赔案件之间的第一差异数据项会重复出现，因此，统计每种第一差异数据项的出现次数就显得有意义。可知，多种第一差异数据项之间，第一次数越多的第一差异数据项越常被用于虚假理赔行为中；反之，第一次数越少的第一差异数据项越不常被用于虚假理赔行为中，甚至这些出现次数较少的第一差异数据项可能是被误判为出现虚假数据的项目(因正常理赔申请中存在申请人的人为失误导致被误判的可能性)。

对于上述步骤3，由上述内容可知，为了挑选出常被用于虚假理赔行为中的第一差异数据项，本实施例中，先对各种第一差异数据项按照第一次数的多少排序，然后取排序靠前的n种第一差异数据项作为初始项目，这些初始项目即可被认为是常被用于虚假理赔行为的项目，可见每个初始项目基本上均包含了虚假理赔的“共性”。

对于上述步骤4，这里所说的历史真实理赔案件是指历史记录中已申请理赔的案件，且这些案件均审核通过，即理赔成功。但应当了解到，历史真实理赔案件在理赔过程中大多数会出现理赔材料上的信息遗漏、错误等情况，但这些情况均没有根本上影响案件的理赔结果，进过理赔过程中的纠正最终通过理赔。因此，可以认为在历史真实理赔案件中出现差异数据的项目，即第二差异数据项即为正常申请人在申请理赔过程中容易失误、犯错的项目，可以认为这些第二差异数据项在理赔时是可以被容忍甚至接受的，属于理赔过程中容错范围的“共性”。

对于上述步骤5，可以理解的是，上述步骤4中获取到的历史真实理赔案件可以有很多，比如1000件，这1000件历史真实理赔案件中，每个案件可以存在一个、两个或多个第二差异数据项，这些历史真实理赔案件之间的第二差异数据项会重复出现，因此，统计每种第二差异数据项的出现次数就显得有意义。可知，多种第二差异数据项之间，第二次数越多的第二差异数据项越常出现在真实理赔行为中；反之，第二次数越少的第二差异数据项越不常出现真实理赔行为中。

对于上述步骤6，由上述内容可知，为了挑选出常出现在真实理赔行为中的第二差异数据项，本实施例中，先对各种第二差异数据项按照第二次数的多少排序，然后取排序靠前的m种第二差异数据项作为排除项目，这些排除项目即可被认为是常出现在真实理赔行为的项目，可见每个排除项目基本上均包含了真实理赔情况下一般人容易失误的“共性”。

对于上述步骤7，为了确保初始项目中不存在真实理赔情况下一般人容易失误的“共性”，本实施例中，从所述初始项目中剔除所述排除项目，得到剩下的项目作为所述预设指定项目，这种方式确定出来的预设指定项目仅包含了虚假理赔的“共性”，因此可以认为包含所述预设指定项目的理赔案件，其属于虚假理赔的概率极大。

上述步骤1-7中，通过大数据统计的方式，从历史案件中抽取出虚假理赔案件具有的差异数据项，并以出现次数的多少来确定哪些项目为初始项目，排除了人工确定的因素；并且，考虑到部分项目属于误判的项目，或者一般理赔申请人容易犯错的项目，可以从真实理赔案件中抽取出这些容易出错的项目组作为排除项目，并从初始项目中排除掉，因此可认为剩下的项目均为对理赔案件的真实性影响较大的项目。

考虑到在目标差异数据中存在的各个预设指定项目之间也存在主次之分，也即不同的预设指定项目的重要性各不相同，加上数据的偏差大小对理赔的影响也存在区别，因此，本实施例通过对该目标差异数据进行综合评估来确定更加精细化的后续审核流程。如图5所示，进一步地，在将所述目标理赔案件转入人工审核环节之前，本方法还包括：

401、提取所述目标差异数据中各个预设指定项目的项目差异数据；

402、针对每个预设指定项目，计算所述每个预设指定项目的项目差异数据与所述理赔材料信息中对应项目数据之间的差值，作为指定项目差值；

403、确定所述每个预设指定项目的指定项目差值所落入的差值区间；

404、根据预设的区间分值对应关系确定所述每个预设指定项目的欺诈分值，所述区间分值对应关系记录了各个差值区间与各个欺诈分值之间的对应关系；

405、根据所述每个预设指定项目的欺诈分值和预设权重计算得到所述每个预设指定项目的单项欺诈值；

406、根据所述目标差异数据中各个预设指定项目各自的单项欺诈值确定所述目标理赔案件的综合欺诈值；

407、根据所述综合欺诈值从预设的各个后续审核流程中确定出所述目标理赔案件的后续审核流程，所述各个后续审核流程中至少包括将所述目标理赔案件转入人工审核环节的审核流程。

对于步骤401，首先，服务器可以提取所述目标差异数据中各个预设指定项目的项目差异数据。

对于步骤402，在提取得到项目差异数据之后，服务器可以针对每个预设指定项目，计算所述每个预设指定项目的项目差异数据与所述理赔材料信息中对应项目数据之间的差值，作为指定项目差值。例如，在住院费的消费金额中，理赔材料信息中记载的消费金额为2万元，而项目差异数据中记载的消费金额为1万元，两者差值为1万元，因此可以计算得到该指定项目差值为10000。

对于步骤403，服务器上可以针对每个预设指定项目均预设有差值区间，比如，针对住院费这一信息项，可以预设区间为：[0，1000]、(1000，10000]、(10000，∞]，当该指定项目差值为10000时，确定该指定项目差值落入(1000，10000]的差值区间内。

对于步骤404，本实施例中，服务器上预设有区间分值对应关系，该区间分值对应关系记录了各个差值区间与各个欺诈分值之间的对应关系，在确定出所述每个预设指定项目的指定项目差值所落入的差值区间之后，可以根据该差值区间确定出与之对应的欺诈分值，作为所述每个预设指定项目的欺诈分值。

对于步骤405，由上述内容可知，不同预设指定项目对理赔案件的影响存在区别，因此，可以预先设定各个预设指定项目的预设权重。针对每个预设指定项目，服务器可以根据所述每个预设指定项目的欺诈分值和预设权重计算得到所述每个预设指定项目的单项欺诈值。例如，假设上述(1000，10000]的差值区间对应的欺诈分值为20，住院费这一预设指定项目的预设权重为0.1，则可以计算得到住院费这一预设指定项目的单项欺诈值为20*0.1＝2。

对于步骤406，容易理解的是，服务器在计算出各个预设指定项目各自的单项欺诈值之后，可以直接计算各个单项欺诈值之和，得到的总值作为所述目标理赔案件的综合欺诈值。可以理解的是，该综合欺诈值表征了该目标理赔案件的虚假程度和欺诈风险，综合欺诈值越大，则表明该目标理赔案件存在虚假理赔的可能性越大，风险越高；反之，综合欺诈值越小，则表明该目标理赔案件存在虚假理赔的可能性越小，风险越低。

对于步骤407，可以理解的是，在后续审核流程中，针对该目标理赔案件的不同虚假程度和欺诈风险，也即不同综合欺诈值，可以采取不同的后续审核流程进行审核，综合欺诈值越小，采取的后续审核流程应当越简便，同时审核通过率也越高；反之，综合欺诈值越大，采取的后续审核流程应当越繁杂和严格，同时审核通过率也越低。为此，服务器上可以预先设置好多个后续审核流程，这些后续审核流程分别与不同的综合欺诈值对应，在确定出所述目标理赔案件的综合欺诈值之后，服务器可以从预设的各个后续审核流程中选取出与该目标理赔案件的综合欺诈值对应的后续审核流程，作为所述目标理赔案件的后续审核流程。其中，所述各个后续审核流程中至少包括将所述目标理赔案件转入人工审核环节的审核流程。

更进一步地，所述各个后续审核流程包括确定所述目标理赔案件审核通过的审核流程、确定所述目标理赔案件审核不通过的审核流程、以及将所述目标理赔案件转入人工审核环节的审核流程，步骤407可以包括：

501、若所述综合欺诈值小于预设的第一阈值，则确定所述目标理赔案件审核通过；

502、若所述综合欺诈值大于或等于预设的第一阈值、且小于或等于预设的第二阈值，则将所述目标理赔案件转入人工审核环节，所述第二阈值大于所述第一阈值；

503、若所述综合欺诈值大于预设的第二阈值，则确定所述目标理赔案件审核不通过。

对于步骤501-503，在具体应用场景中，可以设定各个后续审核流程与综合欺诈值的对应关系为：确定所述目标理赔案件审核通过的审核流程与小于预设的第一阈值的综合欺诈值对应、确定所述目标理赔案件审核不通过的审核流程与大于预设的第二阈值的综合欺诈值对应、其余综合欺诈值与将所述目标理赔案件转入人工审核环节的审核流程对应。因此，当所述综合欺诈值小于预设的第一阈值时，服务器可以确定所述目标理赔案件审核通过；当所述综合欺诈值大于或等于预设的第一阈值、且小于或等于预设的第二阈值时，服务器可以将所述目标理赔案件转入人工审核环节，所述第二阈值大于所述第一阈值；当所述综合欺诈值大于预设的第二阈值时，服务器可以确定所述目标理赔案件审核不通过。

107、若所述目标差异数据中不存在预设指定项目的数据，则确定所述目标理赔案件审核通过。

由上述内容可知，若所述目标差异数据中不存在预设指定项目的数据，则说明该目标差异数据均为与理赔审核无关的数据、或者是对理赔结果和理赔金额没有影响的数据，因此，可以认为该目标理赔案件不存在虚假理赔的情况，没有理赔风险，因此服务器可以确定所述目标理赔案件审核通过。

本发明实时获取到各大权威认证机构的材料数据，并使用这些材料数据与上报的理赔材料照片中的信息比对，快速区分出上传的理赔材料中存在哪些差异数据，如果这些差异数据中存在预设指定项目的数据，说明该目标理赔案件的理赔材料中针对重要的信息存在隐瞒或伪造的情况，可以认为该目标理赔案件的风险较大，将其转入人工审核环节进行严格风控；反之，则可以确定该目标理赔案件审核通过。其中，本发明中的预设指定项目并非人为设定，而是大数据统计的方式得到，并创造性地将统计的数据划分为历史虚假理赔案件和历史真实理赔案件两大类，以统计的方式从中抽取出两大类的“共性”特征，并以排除法将得到的共性项目排除，最终确定出剩下的项目为对虚假理赔具有重大影响的项目，作为预设指定项目。由此可知，本发明实现了理赔材料中差异数据的快速定位，可以从理赔材料中准确分辨出可能包含有虚假材料的部分理赔材料，减少了遗漏虚假理赔案件的可能性；并且，大数据统计的方式确定预设指定项目，避免了人为因素对自动审核指标的干扰，提高了理赔案件审核的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于共性抽取的案件审核装置，该基于共性抽取的案件审核装置与上述实施例中基于共性抽取的案件审核方法一一对应。如图6所示，该基于共性抽取的案件审核装置包括被保险人确定模块601、材料数据获取模块602、材料照片获取模块603、材料信息提取模块604、差异数据确定模块605、案件转入模块606和审核通过模块607。各功能模块详细说明如下：

被保险人确定模块601，用于确定待审核的目标理赔案件的被保险人；

材料数据获取模块602，用于获取所述被保险人在权威认证机构的材料数据；

材料照片获取模块603，用于获取理赔请求时上传的所述被保险人的各个理赔材料照片；

材料信息提取模块604，用于使用图像文字识别技术提取所述各个理赔材料照片中的理赔材料信息；

差异数据确定模块605，用于对比所述理赔材料信息和所述材料数据，并确定出所述材料数据与所述理赔材料信息之间存在差异的目标差异数据；

案件转入模块606，用于与若所述目标差异数据中存在预设指定项目的数据，则将所述目标理赔案件转入人工审核环节；

审核通过模块607，用于若所述目标差异数据中不存在预设指定项目的数据，则确定所述目标理赔案件审核通过；

其中，所述预设指定项目通过以下模块预先设定：

第一次数统计模块，用于统计每种所述第一差异数据项在所有历史虚假理赔案件中出现的次数，记为第一次数；

第一排序模块，用于对各种第一差异数据项按照第一次数的多少排序，取排序靠前的n种第一差异数据项作为初始项目；

第二次数统计模块，用于统计每种所述第二差异数据项在所有历史真实理赔案件中出现的次数，记为第二次数；

第二排序模块，用于对各种第二差异数据项按照第二次数的多少排序，取排序靠前的m种第二差异数据项作为排除项目；

项目剔除模块，用于从所述初始项目中剔除所述排除项目，得到剩下的项目作为所述预设指定项目。

如图7所示，进一步地，所述材料信息提取模块604可以包括：

单据类型获取单元6041，用于针对每张理赔材料照片，获取所述每张理赔材料照片的单据类型；

识别模板获取单元6042，用于从预设的各个文字识别模板中获取与所述每张理赔材料照片的单据类型对应的目标文字识别模板；

扫描识别单元6043，用于针对所述目标文字识别模板中的每个信息项，根据所述每个信息项在所述目标文字识别模板中的位置和尺寸大小，使用图像文字识别技术对所述每张理赔材料照片上对应位置和尺寸大小的照片区域进行扫描识别，得到所述每个信息项对应的单据文本；

材料信息确定单元6044，用于在扫描识别得到每张理赔材料照片中每个信息项对应的单据文本之后，将扫描识别得到的所有信息项以及所述所有信息项对应的单据文本确定为所述理赔材料信息，所述所有信息项至少包括就诊时间、就诊的医疗机构和病理指标。

如图8所示，进一步地，所述基于共性抽取的案件审核装置还可以包括：

差异数据提取模块608，用于提取所述目标差异数据中各个预设指定项目的项目差异数据；

差值计算模块609，用于针对每个预设指定项目，计算所述每个预设指定项目的项目差异数据与所述理赔材料信息中对应项目数据之间的差值，作为指定项目差值；

差值区间确定模块610，用于确定所述每个预设指定项目的指定项目差值所落入的差值区间；

欺诈分值确定模块611，用于根据预设的区间分值对应关系确定所述每个预设指定项目的欺诈分值，所述区间分值对应关系记录了各个差值区间与各个欺诈分值之间的对应关系；

单项欺诈值计算模块612，用于根据所述每个预设指定项目的欺诈分值和预设权重计算得到所述每个预设指定项目的单项欺诈值；

综合欺诈值计算模块613，用于根据所述目标差异数据中各个预设指定项目各自的单项欺诈值确定所述目标理赔案件的综合欺诈值；

后续流程确定模块614，用于根据所述综合欺诈值从预设的各个后续审核流程中确定出所述目标理赔案件的后续审核流程，所述各个后续审核流程中至少包括将所述目标理赔案件转入人工审核环节的审核流程。

进一步地，所述各个后续审核流程包括确定所述目标理赔案件审核通过的审核流程、确定所述目标理赔案件审核不通过的审核流程、以及将所述目标理赔案件转入人工审核环节的审核流程；

所述后续流程确定模块可以包括：

审核通过单元，用于若所述综合欺诈值小于预设的第一阈值，则确定所述目标理赔案件审核通过；

转入审核单元，用于若所述综合欺诈值大于或等于预设的第一阈值、且小于或等于预设的第二阈值，则将所述目标理赔案件转入人工审核环节，所述第二阈值大于所述第一阈值；

审核不通过单元，用于若所述综合欺诈值大于预设的第二阈值，则确定所述目标理赔案件审核不通过。

进一步地，所述基于共性抽取的案件审核装置还可以包括：

发票号提取模块，用于若所述理赔材料信息中包括发票号，则提取所述理赔材料信息中的各个发票号作为各个目标发票号；

发票号获取模块，用于获取所述材料数据中的所有发票号；

发票号检测模块，用于检测所述所有发票号中是否包含有所有所述目标发票号；

检测处理模块，用于若所述发票号检测模块的检测结果为否，则确定所述目标理赔案件审核不通过；

触发模块，用于若所述发票号检测模块的检测结果为是，则触发所述差异数据确定模块。

关于基于共性抽取的案件审核装置的具体限定可以参见上文中对于基于共性抽取的案件审核方法的限定，在此不再赘述。上述基于共性抽取的案件审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于共性抽取的案件审核方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于共性抽取的案件审核方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于共性抽取的案件审核方法的步骤，例如图2所示的步骤101至步骤107。或者，处理器执行计算机程序时实现上述实施例中基于共性抽取的案件审核装置的各模块/单元的功能，例如图6所示模块601至模块607的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于共性抽取的案件审核方法的步骤，例如图2所示的步骤101至步骤107。或者，计算机程序被处理器执行时实现上述实施例中基于共性抽取的案件审核装置的各模块/单元的功能，例如图6所示模块601至模块607的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龙科家;钱慈婳;孙剑立
技术所有人：平安健康保险股份有限公司
我是此专利的发明人

上一篇：一种建筑用多功能围栏的制作方法
上一篇：一种生铁熔模铸造用粘结剂的制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。