赔案信息的处理方法、装置及电子设备与流程

文档序号:30423618发布日期:2022-06-15 14:09阅读:63来源:国知局
赔案信息的处理方法、装置及电子设备与流程

1.本技术涉及软件技术领域,尤其是涉及一种赔案信息的处理方法、装置及电子设备。


背景技术:

2.现有的理赔业务流程一般是客户申请,提交诊疗资料,人工审核申请资料的一诉五史有无阳性记录,再根据投保情况、保全情况等因素,进一步审核保险责任,核定是否给付的理赔结论。保险公司采集客户就诊信息的手段单一,如客户主动提供或公司调查采集,大部分风控信息还是需要通过面对面的人工沟通获得,欺诈风险的管控更多是被动防范。


技术实现要素:

3.本技术的目的在于提供一种赔案信息的处理方法、装置及电子设备,能够通过预先构建的模型对用户的赔案文字信息进行自动化提取和标准化入库处理,提高处理效率,减少人员录入的人工误差,加强客户信息安全管理,规范客户信息的录入,提升客户信息安全保护能力。
4.第一方面,本技术实施例提供一种赔案信息的处理方法,方法包括:获取用户的赔案文字信息;赔案文字信息包括医疗文字信息;将赔案文字信息输入至赔案信息处理模型;赔案信息处理模型包括实体信息提取模型和标准化处理模型;通过实体信息提取模型对赔案文字信息进行实体信息提取,得到实体医疗信息;通过标准化处理模型将实体医疗信息进行标准化处理,得到标准赔案信息;其中,实体医疗信息包括用户个人信息、一诉五史信息和出院诊断信息;将标准赔案信息存储于指定数据库中。
5.进一步地,上述获取用户的赔案文字信息的步骤,包括:获取用户上传的医疗数据图片;对医疗数据图片进行光学字符识别,得到医疗文字信息;将医疗文字信息作为赔案文字信息。
6.进一步地,上述实体信息提取模型的生成过程如下:获取训练样本集;训练样本集中的样本包括历史出险人对应的历史医疗信息;对历史医疗信息进行bio标注,得到标注有类别的标注数据集;应用标注数据集对cner中文实体识别模型进行训练,得到实体信息提取模型。
7.进一步地,上述对历史医疗信息进行bio标注,得到标注有类别的标注数据集的步骤,包括:将历史医疗信息进行分词,得到文本序列;针对文本序列中的每个文本,添加对应标签;标签用于表征文本为实体类别或触发词类别。
8.进一步地,上述标准化处理模型包括多标签多分类模型和疾病编码数据字典库;通过标准化处理模型将实体医疗信息进行标准化处理,得到标准赔案信息的步骤,包括:通过多标签多分类模型将实体医疗信息进行文本分类,得到多个分类类别下的医疗信息;将多个分类类别下的医疗信息与疾病编码数据字典库中的对应数据编码进行匹配,得到标准化的医疗信息及对应编码;将标准化的医疗信息及对应编码作为标准赔案信息。
9.进一步地,上述多标签多分类模型为基于文本分类算法构建的。
10.进一步地,上述将标准赔案信息存储于指定数据库中的步骤,包括:将标准赔案信息以hive文件存储格式存储于指定数据库中。
11.第二方面,本技术实施例还提供一种赔案信息的处理装置,装置包括:信息获取模块,用于获取用户的赔案文字信息;赔案文字信息包括医疗文字信息;信息输入模块,用于将赔案文字信息输入至赔案信息处理模型;赔案信息处理模型包括实体信息提取模型和标准化处理模型;信息处理模块,用于通过实体信息提取模型对赔案文字信息进行实体信息提取,得到实体医疗信息;通过标准化处理模型将实体医疗信息进行标准化处理,得到标准赔案信息;实体医疗信息包括用户个人信息、一诉五史信息和出院诊断信息;信息存储模块,用于将标准赔案信息存储于指定数据库中。
12.第三方面,本技术实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面所述的方法。
13.第四方面,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。
14.本技术实施例提供的赔案信息的处理方法、装置及电子设备中,首先获取用户的赔案文字信息;赔案文字信息包括医疗文字信息;然后将赔案文字信息输入至包括实体信息提取模型和标准化处理模型的赔案信息处理模型;通过实体信息提取模型对赔案文字信息进行实体信息提取,得到实体医疗信息;通过标准化处理模型将实体医疗信息进行标准化处理,得到标准赔案信息;其中,实体医疗信息包括用户个人信息、一诉五史信息和出院诊断信息;最后将标准赔案信息存储于指定数据库中。本技术实施例中能够通过预先构建的模型对用户的赔案文字信息进行自动化提取和标准化入库处理,提高处理效率,减少人员录入的人工误差,加强客户信息安全管理,规范客户信息的录入,提升客户信息安全保护能力。
附图说明
15.为了更清楚地说明本技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1为本技术实施例提供的一种赔案信息的处理方法的流程图;
17.图2为本技术实施例提供的一种实体信息提取模型生成过程的流程图;
18.图3为本技术实施例提供的一种标准化处理的流程图;
19.图4为本技术实施例提供的一种赔案信息的处理装置的结构框图;
20.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
21.下面将结合实施例对本技术的技术方案进行清楚、完整地描述,显然,所描述的实
施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
22.目前,保险公司采集客户就诊信息的手段比较单一,如客户主动提供医疗相关信息或公司调查采集客户信息,大部分风控信息还是需要通过面对面的人工沟通获得,欺诈风险的管控更多是被动防范;此外,当前业务流程中,由于一诉五史数据、核保结论数据大都是非结构化数据,在业务使用中,较少被利用,造成大量的数据资源未被有效利用,且欺诈赔案未被预警、发现,而造成巨大的经济损失。
23.基于此,本技术实施例提供一种赔案信息的处理方法、装置及电子设备,能够通过预先构建的模型对用户的赔案文字信息进行自动化提取和标准化入库处理,提高处理效率,减少人员录入的人工误差,加强客户信息安全管理,规范客户信息的录入,提升客户信息安全保护能力。为便于对本实施例进行理解,首先对本技术实施例所公开的一种赔案信息的处理方法进行详细介绍。
24.图1为本技术实施例提供的一种赔案信息的处理方法的流程图,该方法具体包括以下步骤:
25.步骤s102,获取用户的赔案文字信息;赔案文字信息包括医疗文字信息。
26.上述赔案文字信息可以是从其它相关系统或平台获取到的核保结论信息,或者也可以是从用户上传的图片中进行文字提取得到的医疗文字信息,上述图片可以是相机拍照得到的图片或者也可以是通过扫描软件进行扫描得到的扫描件。比如入院记录图片,该图片中包含有用户个人信息、一诉五史信息和出院诊断信息的相关描述或记录,文字提取后得到该用户的医疗文字信息。
27.步骤s104,将赔案文字信息输入至赔案信息处理模型;赔案信息处理模型包括实体信息提取模型和标准化处理模型。
28.本步骤中的赔案信息处理模型本质上为nlp(natural language processing,自然语言处理)自动化处理模块,包括两个不同功能的模型,一个是实体信息提取模型,用于进行实体信息提取,另一个是标准化处理模型,用于将信息进行标准化。当上述赔案文字信息输入至上述赔案信息处理模型后,即可由实体信息提取模型和标准化处理模型分别进行信息处理,如下一个步骤:
29.步骤s106,通过实体信息提取模型对赔案文字信息进行实体信息提取,得到实体医疗信息;通过标准化处理模型将实体医疗信息进行标准化处理,得到标准赔案信息。
30.上述实体医疗信息包括用户个人信息、一诉五史信息和出院诊断信息;标准化处理后得到的信标准赔案信息中,除了用户个人信息外,还有标准化疾病名称,以及对应的icd编码。
31.步骤s108,将标准赔案信息存储于指定数据库中。
32.本技术实施例提供的赔案信息的处理方法中,首先获取用户的赔案文字信息;赔案文字信息包括医疗文字信息;然后将赔案文字信息输入至包括实体信息提取模型和标准化处理模型的赔案信息处理模型;通过实体信息提取模型对赔案文字信息进行实体信息提取,得到实体医疗信息;通过标准化处理模型将实体医疗信息进行标准化处理,得到标准赔案信息;其中,实体医疗信息包括用户个人信息、一诉五史信息和出院诊断信息;最后将标
准赔案信息存储于指定数据库中。本技术实施例中能够通过预先构建的模型对用户的赔案文字信息进行自动化提取和标准化入库处理,提高处理效率,减少人员录入的人工误差,加强客户信息安全管理,规范客户信息的录入,提升客户信息安全保护能力。
33.本技术实施例还提供一种赔案信息的处理方法,该方法在上一实施例的基础上实现,本实施例重点描述赔案文字信息的获取方式、模型的训练过程等。
34.上述获取用户的赔案文字信息的步骤,包括:
35.获取用户上传的医疗数据图片;
36.对医疗数据图片进行光学字符识别,得到医疗文字信息;
37.将医疗文字信息作为赔案文字信息。
38.此外,本技术实施例中还可以通过从其它关联的系统或平台中获取核保结论信息,作为赔案文字信息,一起进行后续的实体信息提取和标准化处理。
39.上述实体信息提取模型的生成过程如下,参见图2所示:
40.步骤s202,获取训练样本集;训练样本集中的样本包括历史出险人对应的历史医疗信息。该历史出险人也就是已经购买过保险,核保通过,且已经赔付的用户。历史出险人对应的历史医疗信息可以包括一诉五史非结构化数据,也就是通过ocr(optical character recognition,光学字符识别)识别后的信息。
41.步骤s204,对历史医疗信息进行bio标注,得到标注有类别的标注数据集。具体的,将历史医疗信息进行分词,得到文本序列;针对文本序列中的每个文本,添加对应标签;该标签用于表征文本为实体类别或触发词类别。
42.具体的标注过程如下:
43.数据标注方法将ocr处理后的一诉五史数据作为训练语料,对训练语料进行预处理,并对训练语料进行bio标签标注,最终生成实体标注语料库及对实体进行分类的标注类型分类文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,标注方法为对每一个文档中的词,使用添加实体或触发词类型的bio标签对实体和触发词进行标注,具体包括以下子步骤:
44.(a)将文本中的单词以及符号进行切分,逐行保存,作为训练语料的第一列;
45.(b)将每个单词对应的实体类型和触发词类型生成bio标签方式,分别作为训练语料的第二列和第三列,第三列为每个单词待预测的真实标签,bio标签给出三种类别的标签,即begin,简称为b,in,简称为i,out,简称为o,标签为b的单词为短语的起始,i为短语的中间,o为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用b标签;对于不同事件类别的标签,bio机制通过拼接类别的bio标签进行标注,对于regulation事件的一个触发词play a role,play对应标签b-regulation,a和role对应标签i-regulation,而其他非触发词的单词的标签则为o。
46.步骤s206,应用标注数据集对cner中文实体识别模型进行训练,得到实体信息提取模型。以上述已标注数据集为模型训练集使用nlp算法,搭建cner中文实体识别模型,得到本实施例中的实体信息提取模型,能够快速提取疾病、手术阳性症状文字等实体内容。
47.在一种优选的实施方式中,上述标准化处理模型包括多标签多分类模型和疾病编码数据字典库;其中,多标签多分类模型为基于文本分类算法构建的。通过所述标准化处理模型将所述实体医疗信息进行标准化处理,得到标准赔案信息的过程,包括以下步骤,参见
图3所示:
48.步骤s302,通过多标签多分类模型将实体医疗信息进行文本分类,得到多个分类类别下的医疗信息;
49.步骤s304,将多个分类类别下的医疗信息与疾病编码数据字典库中的对应数据编码进行匹配,得到标准化的医疗信息及对应编码;
50.步骤s306,将标准化的医疗信息及对应编码作为标准赔案信息。
51.本技术实施例中,使用textcnn文本分类算法构建多标签多分类模型,结合现有的业务既有经验形成的疾病及编码的数据字典,完成实体内容的标准化处理;此外,将上述实体信息提取模型和标准化处理模型进行串行部署封装,形成nlp自动化处理模块,形成api接口,供线上化流程调用,并将提取及标准化结果输出,录入至指定数据库中。
52.在一种优选的方式中,上述将标准赔案信息存储于指定数据库中的步骤包括:将标准赔案信息以hive文件存储格式存储于指定数据库中。
53.本技术实施例提供的赔案信息的处理方法中,能够将既有的非结构化数据进行批量信息提取及标准化处理,完成既有数据的一次性优化并留存,形成优质的数据资产;同时对新发赔案,进行实时的信息提取及标准化,能够及时提取有用的既往病症及出院诊断信息,以及核保结论中涉及的疾病信息,扩充对赔案审核的重要信息。智能化提取及录入,提高数据录入的效率和准确性,降低人工成本的同时,扩充数据维度,可有效提升审计效率和覆盖面。
54.随着个人信息保护法政策的出台,客户个人信息权益保护制度预渐完善。智能化提取并标准化非结构化或半结构化数据,能大幅度减少由于人工参与客户数据录入而带来的客户隐私信息外泄的可能,加强客户信息安全管理,规范客户信息的录入和访问权限以及承载客户信息的环境,对客户信息安全防护能力进行提升。
55.基于上述方法实施例,本技术实施例还提供一种赔案信息的处理装置,参见图4所示,该装置包括:信息获取模块42,用于获取用户的赔案文字信息;赔案文字信息包括医疗文字信息;信息输入模块44,用于将赔案文字信息输入至赔案信息处理模型;赔案信息处理模型包括实体信息提取模型和标准化处理模型;信息处理模块46,用于通过实体信息提取模型对赔案文字信息进行实体信息提取,得到实体医疗信息;通过标准化处理模型将实体医疗信息进行标准化处理,得到标准赔案信息;实体医疗信息包括用户个人信息、一诉五史信息和出院诊断信息;信息存储模块48,用于将标准赔案信息存储于指定数据库中。
56.本技术实施例提供的赔案信息的处理装置中,通过预先构建的模型对用户的赔案文字信息进行自动化提取和标准化入库处理,提高处理效率,减少人员录入的人工误差,加强客户信息安全管理,规范客户信息的录入,提升客户信息安全保护能力。
57.上述信息获取模块42,还用于获取用户上传的医疗数据图片;对医疗数据图片进行光学字符识别,得到医疗文字信息;将医疗文字信息作为赔案文字信息。
58.上述装置还包括模型生成模块,用于执行以下步骤生成实体信息提取模型:获取训练样本集;训练样本集中的样本包括历史出险人对应的历史医疗信息;对历史医疗信息进行bio标注,得到标注有类别的标注数据集;应用标注数据集对cner中文实体识别模型进行训练,得到实体信息提取模型。
59.上述模型生成模块,还用于将历史医疗信息进行分词,得到文本序列;针对文本序
列中的每个文本,添加对应标签;标签用于表征文本为实体类别或触发词类别。
60.上述标准化处理模型包括多标签多分类模型和疾病编码数据字典库;上述信息处理模块46还用于通过多标签多分类模型将实体医疗信息进行文本分类,得到多个分类类别下的医疗信息;将多个分类类别下的医疗信息与疾病编码数据字典库中的对应数据编码进行匹配,得到标准化的医疗信息及对应编码;将标准化的医疗信息及对应编码作为标准赔案信息。
61.上述多标签多分类模型为基于文本分类算法构建的。
62.上述信息存储模块48还用于:将标准赔案信息以hive文件存储格式存储于指定数据库中。
63.本技术实施例提供的赔案信息的处理装置,使用bio标注标准完成对客户的一诉五史及核保结论数据进行标注,并应用优化后的nlp算法完成模型训练,形成信息提取模型,完成对保险理赔相关的非结构化数据的信息提取;
64.另外,还使用文本分类算法,以及既有经验形成的疾病及编码的数据字典搭建模型,形成标准化处理模型,完成对文本中提取出的疾病、手术信息的标准化,并对同一疾病匹配唯一的编码,形成结构化数据,录入数据库中,形成数据资产;
65.本实施例中将实体信息提取模型与标准化处理模型联合部署,封装成nlp自动化处理模块,应用于保险业务中,能够将非结构化数据进行自动提取,并自动录入至数据库中。
66.本技术实施例提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置的实施例部分未提及之处,可参考前述方法实施例中相应内容。
67.本技术实施例还提供了一种电子设备,如图5所示,为该电子设备的结构示意图,其中,该电子设备包括处理器51和存储器50,该存储器50存储有能够被该处理器51执行的计算机可执行指令,该处理器51执行该计算机可执行指令以实现上述方法。
68.在图5示出的实施方式中,该电子设备还包括总线52和通信接口53,其中,处理器51、通信接口53和存储器50通过总线52连接。
69.其中,存储器50可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线52可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线52可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
70.处理器51可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称
asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器51读取存储器中的信息,结合其硬件完成前述实施例的方法的步骤。
71.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述方法,具体实现可参见前述方法实施例,在此不再赘述。
72.本技术实施例所提供的方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
73.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本技术的范围。
74.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
75.在本技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
76.最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1