数据标准化处理方法、装置、计算机设备和存储介质与流程

文档序号:16608749发布日期:2019-01-14 21:23阅读:173来源:国知局
数据标准化处理方法、装置、计算机设备和存储介质与流程

本申请涉及数据处理技术领域,特别是涉及一种数据标准化处理方法、装置、计算机设备和存储介质。



背景技术:

现有医疗数据和保险数据中,各个城市的表结构、字段、同一字段的取值情况并不一致。例如,有些参保保险类型是以静态形式提供,通过从数据库中直接获取已有的参保保险类型,有些城市参保保险类型是以动态形式提供的,通过从数据库中实时采集不断更新的参保保险类型,参保人员的保险类型有多个不同的对应参保区间,因此,为了提高对多个地区的医疗数据和保险数据的获取和同步的效率,,需要提供可实现多个地区不同医疗数据和保险数据之间的统一方法。

在传统的数据标准化中,通常是利用基于医术术语字典的双向最大匹配分词算法,对医疗文本数据进行分词,得到结构化数据,简单实现医疗数据结构标准化。但由于不同地区的医疗数据之间的存在差异数据,不仅仅限于数据结构差异,还包括不同数据的字段差异和取值差异,而且传统的数据标准化方法中,也未涉及与保险理赔数据相关的统一方法,因此并不适用于多个地区中医疗数据和保险数据之间实现标准化。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够实现多个地区中医疗数据和保险数据标准化的数据标准化处理方法、装置、计算机设备和存储介质。

一种数据标准化处理方法,所述方法包括:

获取初始表,所述初始表中包括了初始数据;

从所述初始表中提取所述初始数据的关键字段;

获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;

根据所述映射关系,将所述关键字段转换为标准字段;

利用转换后的多个标准字段生成与所述初始表对应的标准化表。

在其中一个实施例中,在所述获取初始表之前,还包括:

建立与第三方数据库的连接;

从所述第三方数据库获取所述初始表,将所述初始表标记为原始表;

利用所述原始表对所述初始表进行初始校验;

当通过初始校验时,对所述初始表中的多个关键字段进行完整性校验。

在其中一个实施例中,所述关键字段包括用户标识;所述方法还包括:

获取所述标准化表对应的类型,所述类型包括医疗类型和理赔类型;

根据用户标识获取对应的医疗类型的标准化表以及理赔类型的标准化表;

将所述医疗类型的标准化表以及理赔类型的标准化表进行交叉验证,识别医疗类型的标准化表以及理赔类型的标准化表之间的差异数据。

在其中一个实施例中,在所述获取所述初始表与标准表之间的映射关系之前,所述方法还包括:

获取所述初始表中的主键和外键,并获取所述主键和所述外键之间的对应关系;

获取所述标准表中的主键和外键,并获取所述主键和所述外键之间的对应关系;

根据所述初始表中的主键和所述标准表的主键,建立所述初始表和所述标准表间的映射关系;

根据所述初始表中的外键、所述主键和所述外键间的对应关系,以及所述标准表中的外键、所述主键和所述外键间的对应关系,建立所述关键字段和所述标准字段之间的映射关系。

在其中一个实施例中,所述方法还包括:

当所述标准表中无与关键字段对应的标准字段时,在所述标准表中添加对应的标准字段,并为所述标准字段设置标准值;

当所述初始表中无与标准字段对应的关键字段时,将所述标准字段保留至所述标准化表中,并将所述标准字段的标准值,设置为所述标准化表中对应字段的标准值。

一种数据标准化处理装置,所述装置包括:

初始表获取模块,用于获取初始表,所述初始表中包括了初始数据;

关键字段提取模块,用于从所述初始表中提取所述初始数据的关键字段;

映射关系获取模块,用于获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;

字段转换模块,用于根据所述映射关系,将所述关键字段转换为标准字段;

标准化表生成模块,用于利用转换后的多个标准字段生成与所述初始表对应的标准化表。

在其中一个实施例中,所述装置还包括:

第一检测模块,用于建立与第三方数据库的连接;对所述第三方数据库获取所述初始表,将所述初始表标记为原始表;利用所述原始表对所述初始表进行初始校验;当通过初始校验时,对所述初始表中的多个关键字段进行完整性校验。

在其中一个实施例中,所述装置还包括:

第二检测模块,用于获取所述标准化表对应的类型,所述类型包括医疗类型和理赔类型;根据用户标识获取对应的医疗类型的标准化表以及理赔类型的标准化表;将所述医疗类型的标准化表以及理赔类型的标准化表进行交叉验证,识别医疗类型的标准化表以及理赔类型的标准化表之间的差异数据。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取初始表,所述初始表中包括了初始数据;

从所述初始表中提取所述初始数据的关键字段;

获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;

根据所述映射关系,将所述关键字段转换为标准字段;

利用转换后的多个标准字段生成与所述初始表对应的标准化表。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取初始表,所述初始表中包括了初始数据;

从所述初始表中提取所述初始数据的关键字段;

获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;

根据所述映射关系,将所述关键字段转换为标准字段;

利用转换后的多个标准字段生成与所述初始表对应的标准化表。

上述数据标准化处理方法、装置、计算机设备和存储介质,通过初始表提取初始数据的关键字段,并获取初始表和标准表之间的映射关系,由于初始表和标准表之间的映射关系,可体现初始表中的关键字段与标准表之间的标准字段的对应关系,因此可将根据映射关系将关键字段转换成标准字段,利用转换后的多个标准字段生成与初始表对应的标准化表,由于可以实现多个地区内的数据之间的标准化,因此可为不同地区的数据更新以及整理等提供了方便。

附图说明

图1为一个实施例中数据标准化处理方法的应用场景图;

图2为一个实施例中数据标准化处理方法的流程示意图;

图3为另一个实施例中数据标准化处理方法的流程示意图;

图4为再一个实施例中数据标准化处理方法的流程示意图;

图5为一个实施例中数据标准化处理装置的结构框图;

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的数据标准化处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104从终端102的数据库中获取初始表,初始表中包括了初始数据,从获取的初始表中提取初始数据的关键字段,获取初始表与标准表之间的映射关系,标准表中包括了标准字段,根据映射关系,将关键字段转换为标准字段,利用转换后的多个标准字段生成与初始表对应的标准化表。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种数据标准化处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

s202,获取初始表,初始表中包括了初始数据。

其中,初始表为不同数据库中未进行标准化处理之前的表,包括多个地区的医疗数据和保险数据。初始数据即为不同地区的初始表包括的数据,可以是不同的关键字段、关键字段的定义以及对应关键字段的不同取值。

具体地,服务器从不同地区的数据库中,获取未进行标准化处理的表,即初始表,包括了多个地区的医疗数据和保险数据,其中,医疗数据包括用户的个人信息,如性别、年龄、身高和体重等,包括用户的医疗记录,比如病情诊疗、用药、费用、治疗时间和治疗地点等。保险数据包括用户的参保信息,即参保人的基本信息,包括参保人的保费信息,即参保缴费信息,包括参保人的理赔相关的信息和理赔的支付信息等。

s204,从初始表中提取初始数据的关键字段。

其中,初始表包括多个初始数据,初始数据包括不同的关键字段、关键字段的定义以及对应关键字段的不同取值。

具体地,服务器从获得的初始表中提取多个初始数据对应的关键字段,初始表包括:参保人基本信息初始表、参保信息初始表、保费信息初始表、医疗信息初始表、支付信息初始表以及理赔细项信息初始表。

进一步地,参保人基本信息初始表包括参保人的基本信息,对应的关键字段包括:参保人的性别、年龄、身高、体重等,参保信息初始表包括参保人的参保信息,对应的关键字段包括:身份证信息、户口信息、工作单位以及联系方式等,保费信息初始表包括参保人的缴费信息,对应的关键字段包括:参保人、缴费时间、缴费途径以及缴费数额等,医疗信息初始表包括参保人治疗的相关信息,对应的关键字段包括:诊疗、出入院时间、用药、医药费以及治疗地点等,支付信息初始表包括参保人理赔的支付信息,对应的关键字段包括:险种、理赔时效以及理赔费用等,理赔细项信息初始表包括参保人理赔的细项信息,对应的关键字段包括:诊疗、药物费用和住院费用等。

s206,获取初始表与标准表之间的映射关系;标准表中包括了标准字段。

其中,服务器需要预先建立初始表和标准表之间的映射关系,并存入数据库中,需要执行标准化操作时,服务器从数据库中读取初始表和标准表之间的映射关系,并获取标准表中的标准字段。

具体地,服务器获取初始表中的主键和外键,并获取主键和所述外键之间的对应关系;获取所标准表中的主键和外键,并获取主键和所述外键之间的对应关系;根据初始表中的主键和标准表的主键,建立初始表和所述标准表间的映射关系;根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系,服务器获取预先建立的初始表与标准表之间的映射关系。

s208,根据映射关系,将关键字段转换为标准字段。

其中,服务器根据初始表中的主键和标准表的主键,建立初始表和所述标准表间的映射关系;根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系。

具体地,标准表包括标准字段,初始表包括关键字段,服务器根据初始表和标准表之间的映射关系,以及关键字段和标准字段之间的映射关系,将关键字段转换成标准字段,并将关键字段的取值转换成标准字段的取值。

进一步地,不同地区的初始表和标准表之间存在不同的映射关系,在其中一个地区,初始表和标准表之间存在一一对应的关系,比如初始表中的a01表对应标准表中的参保人基本信息标准表,初始表a02对应参保信息标准表,即初始表和标准表之间的对应关系是固定的,且相应初始表和标准表之间的关键字段也存在一一对应的关系,比如初始表a01中的关键字段参保人姓名nam,与参保人基本信息标准表中的name对应,初始表a02中的关键字段参保人身份号idn与参保信息标准表中的idnumber对应。

在另一个地区,初始表和标准表之间的字段,存在不同的对应关系,比如,参保信息标准表中的信息来源于初始表中的a02表和a03表。其中,险种类型来源于初始表ac02中的险种类型字段,身份类别则来源于初始表a03表中的身份类别字段。在这种情况下,会涉及到初始表到标准表的表结构的调整,并且,a02表中记录的是在数据提取时刻的静态信息,而a03表中则记录了参保人员的身份类别及对应的时间段。例如,绍兴数据中idn“0000002044”的参保人员在a03中存在两条记录,在2010年12月7日以前,以普通职工身份参保,在之后则以公务员身份参保,吉林数据中也存在相同的情况。这种情况下,则认为a02表中的险种类型适用于该参保人员在a03表中的所有参保时段。

s210,利用转换后的多个标准字段生成与初始表对应的标准化表。

具体地,标准化表为经过标准化处理的初始表,由于标准表和初始表之间存在映射关系,且关键字段和标准字段之间存在映射关系,因此将关键字段转换成标准字段,并将关键字段的取值转换成标准字段的取值后,可得到与初始表对应的标准化表。

上述数据标准化处理方法中,通过初始表提取初始数据的关键字段,并获取初始表和标准表之间的映射关系,由于初始表和标准表之间的映射关系,可体现初始表中的关键字段与标准表之间的标准字段的对应关系,因此可将根据映射关系将关键字段转换成标准字段,利用转换后的多个标准字段生成与初始表对应的标准化表,由于可以实现多个地区内的数据之间的标准化,因此可为不同地区的数据更新以及整理等提供了方便。

在一个实施例中,如图3所示,提供了一种数据标准化处理方法,在获取初始表之前,该方法还包括:

s302,建立与第三方数据库的连接。

具体地,第三方数据库包括不同平台或不同地区的数据库,比如某地区的参保信息存储数据库,用于存储该地区不同人员的参保信息,或某个医院的用户信息存储数据库,包括用户的基本信息,如性别、年龄、身高体重等,还包括诊疗信息、用药、治疗之间和费用等信息。服务器可通过调用接口或网络通讯建立与第三方数据库的连接。

s304,从第三方数据库获取初始表,将初始表标记为原始表。

具体地,服务器从多个第三方数据库中获取多个初始表,不同初始表包括不同的关键字段,且不同关键字段具有不同的取值。为不同初始表添加对应标识,根据标识将初始表标记为原始表。

s306,利用原始表对初始表进行初始校验。

其中,初始校验包括:

(1)服务器对多个初始表包括的数据条目数进行统计,获取原始表中的数据条目数,将初始表中的数据条目数和原始表中的条目数进行比对,当初始表中的条目数和原始表中条目数大小一致或处于误差大小的允许范围内,可将误差范围设置为[-10,10],也就是说,初始表的条目数可大于原始表条目数也可小于原始表的条目事,范围为[-10,10]。

具体地,数据条目数包括总条目数和分年条目数,根据条目数可判断对应的城市中的数据是否异常,比如总条目数与分年条目数的总额不等,或者前一年的条目数与后一年的条目数的数值差异非常大,说明该城市的数据处于异常状态。

(2)服务器获取初始表和原始表中包括的,数据覆盖的地区、对应的人口数量以及关键字段之间的对应关系,并根据数据所覆盖地区的人口数量,和该地区的数据条目数之间是否对应,以及人口数量与关键字段取值的大小是否一致,判断初始表中数据是否异常。

具体地,当数据所覆盖地区的人口数量,和该地区的数据条目数大小一致或人口数量与关键字段取值的大小一致时,对应地区的初始表中的数据处于正常状态,反之则处于异常状态。

(3)服务器基于多个初始表中的关键字段,对与各关键字段对应的取值情况进行检测,当关键字段对应的取值处于预设的合理范围时,对应的取值为有效状态。当关键字段的取值未处于预设的合理范围,或取值缺失时,对应的关键字段的取值为无效状态。

具体地,当医疗信息初始表中参保人的入院时间为1900年2月10日,出院时间为1900年3月2日,不属于预设的时间范围,比如此处可将预设时间范围设置为1990年至2018年,则说明此医疗信息初始表中,参保人对应的出入院时间为无效时间,属于无效数据,可将此无效数据进行删除,或根据业务时间进行补充,比如诊疗相关的诊疗时间,作为出入院时间。

(4)服务器获取多个地区的取数情况,当出现多次取数,并出现数据重合时,及时将初始表中各关键字段的取值更新,将原有数据修改为更新后的数据。比如,在a地区第一次取数时,获取的人口数量为50万,第二次取数时,获取的人口数量为51万,则需要将第一次获取的数据更新为第二次获取的数据,实现重复取数时的更新处理。

在判断某城市为多次取数时,还包括获取每次取数覆盖的区域和取数时间范围,及时更新数据。比如,在a地区第一次取数时缺失了学生数据,第二次取数时未覆盖到第一次取数的区域,所缺少的信息需要及时补充,通过再次取数并扩大原有范围的操作实现。

s308,当通过初始校验时,对所初始表中的多个关键字段进行完整性校验。

具体地,完整性校验即为,对初始表中的多个关键字段的完整性进行校验操作,包括字段完整性以及字段取值的完整性。

其中,字段完整性包括对各初始表中所具备的多个关键字段进行识别和分类,并预设的字段规则表,将所获取的多个关键字段和预设的字段规则表进行比对,当初始表中所具备的关键字段的个数符合预设字段规则表中记载的个数时,表明各初始表中的关键字段处于完整状态。

字段取值的完整性包括,将关键字段分为三种类型分别进行检查,包括数值型、字符型以及日期型,分别获取上述三种字段类型的多个字段取值,并根据多个字段取值,分别生成与字段类型对应的取值分布图,提取取值分布图,根据分布图生成取值范围,根据取值范围可判断,对应字段的取值情况,当某个初始表中的相应字段,取值超出范围或不包括取值范围中的多数取值时,表明该字段的取值不完整或存在无效取值,可删除无效取值,或根据业务规则补充取值,实现字段取值得完整性。

上述数据标准化处理方法,服务器通过将初始表标记为原始表,并利用原始表对初始表进行初始校验,包括对初始表中数据条目数的统计、数据是否异常、关键字段取值是否无效以及是否存在数据重合的检验,通过初始校验后还需进行完整性检验,包括字段完整性和字段取值的完整性的检验,可在将初始表中关键字段转换成标准字段之前,实现多方位的数据检验,减少无效数据的流入,降低字段转换量,提高转换效率。

在另一个实施例中,如图4所示,提供了一种数据标准化处理方法,该方法还包括:

s402,获取标准化表对应的类型,类型包括医疗类型和理赔类型。

其中,将初始表中的关键字段转换成标准字段,并利用转换后的多个标准字段可生成与初始表对应的标准化表。

具体地,标准化表包括医疗类型的标准化表和理赔类型的标准化表,其中,医疗类型的标准化表包括:参保人基本信息标准化表,包括参保人的基本信息,对应的关键字段包括:参保人的性别、年龄、身高、体重等,以及医疗信息标准化表,包括参保人治疗的相关信息,对应的关键字段包括:诊疗、出入院时间、用药、医药费以及治疗地点等。

理赔类型的标准化表包括:参保信息标准化表,包括参保人的参保信息,对应的关键字段包括:身份证信息、户口信息、工作单位以及联系方式等,保费信息标准化表,包括参保人的缴费信息,对应的关键字段包括:参保人、缴费时间、缴费途径以及缴费数额等,以及支付信息标准化表,包括参保人理赔的支付信息,对应的关键字段包括:险种、理赔时效以及理赔费用等,和理赔细项信息标准化表,包括参保人理赔的细项信息,对应的关键字段包括:诊疗、药物费用和住院费用等。

s404,根据用户标识获取对应的医疗类型的标准化表以及理赔类型的标准化表。

具体地,用户标识与参保人一一对应,可根据用户标识,获取与参保人对应的医疗类型的标准化表以及理赔类型的标准化表,包括参保人基本信息标准化表、医疗信息标准化表、参保信息标准化表、保费信息标准化表、支付信息标准化表和理赔细项信息标准化表。

s406,将所医疗类型的标准化表以及理赔类型的标准化表进行交叉验证,识别医疗类型的标准化表以及理赔类型的标准化表之间的差异数据。

具体地,获取医疗类型的标准化表中的多个关键字段,包括参保人基本信息标准化表,以及医疗信息标准化表中的各个关键字段,获取理赔类型的标准化表中的多个关键字段,包括参保信息标准化表、保费信息标准化表、支付信息标准化表,以及理赔细项信息标准化表中的多个关键字段,并获取不同关键字段的取值,对不同类型的标准化表中的关键字段取值进行交叉验证,判断不同标准化表中的同一关键字段的取值是否一致,当取值一致时,表明该关键字段的取值为有效取值。

上述数据标准化处理方法,通过将标准化表分为医疗类型和理赔类型,并分布获取不同类型的标准化表中的各个关键字段的取值,并对不同类型的标准化表中的关键字段取值进行交叉验证,判断不同标准化表中的同一关键字段的取值是否一致,当取值一致时,表明该关键字段的取值为有效取值,提高了字段取值的有效性。

在一个实施例中,提供了一种数据标准化处理方法,在获取初始表与标准表之间的映射关系之前,该方法还包括:

服务器获取初始表中的主键和外键,并获取主键和外键之间的对应关系;获取标准表中的主键和外键,并获取主键和外键之间的对应关系;根据初始表中的主键和标准表的主键,建立初始表和标准表间的映射关系;根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系。

具体地,服务器获取不同初始表中的主键和外键,比如对于参保人基本信息初始表的处理,其中的主键为参保人的性别,外键包括参保人的年龄、身高和体重等,参保信息初始表中的主键包括参保人的身份证信息,外键包括参保人的户口信息、工作单位以及联系方式等,其中,参保人性别可与参保人身份证信息存在对应关系,也就是说,参保人身份证信息包括参保人的性别,而参保人的年龄,与参保人的身份证信息以及户口信息均存在对应关系。

同样地,服务器获取不同标准表中的主键和外键,比如对于医疗信息标准表进行处理,其主键为参保人的诊疗信息,外键包括出入院时间、用药、医药费以及治疗地点等,理赔细项信息标准表的主键为参保人的诊疗信息,外键包括药物费用和住院费用等。

其中,获取各初始表中主键和外键的对应关系,以及各标准表中主键和外键的对应关系,可建立初始表和标准表之间的对应关系,根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系。

上述数据标准化处理方法,服务器通过根据初始表中的主键和标准表的主键,建立初始表和标准表间的映射关系,根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系,可为关键字段向标准字段进行转换,提供直接的对应关系,提高转换的准确率和转换效率。

在一个实施例中,提供了一种数据标准化处理方法,该方法还包括:

当标准表中无与关键字段对应的标准字段时,服务器在标准表中添加对应的标准字段,并为标准字段设置标准值;当初始表中无与标准字段对应的关键字段时,服务器将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值。

具体地,当标准表中无与关键字段对应的标准字段,也就是说,初始表中存在的关键字段,在标准表中无与该关键字段对应的标准字段,标准表中缺失与关键字段对应的标准表字段,服务器在标准表中添加与关键字段对应的标准字段,并根据业务规则为所添加的标准字段设置标准值。

当初始表中无与标准字段对应的关键字段,也就是说,标准表中的标准字段,在初始表中无与该标准字段对应的关键字段,初始表中的关键字段处于缺失状态,服务器将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值。

上述数据标准化处理方法,在初始表或标准表出现字段缺失的情况下,及时在标准表中添加与关键字段对应的标准字段,并根据业务规则为所添加的标准字段设置标准值,或将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值,在执行标准化处理之前,解决初始表或标准表字段缺失的情况,提高标准化处理效率。

应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图5所示,提供了一种数据标准化处理装置,包括:初始表获取模块502,关键字段提取模块504,映射关系获取模块506,字段转换模块508和标准化表生成模块510,其中:

初始表获取模块502,用于获取初始表,初始表中包括了初始数据。

其中,初始表为不同数据库中未进行标准化处理之前的表,包括多个地区的医疗数据和保险数据。初始数据即为不同地区的初始表包括的数据,可以是不同的关键字段、关键字段的定义以及对应关键字段的不同取值。

具体地,服务器从不同地区的数据库中,获取未进行标准化处理的表,即初始表,包括了多个地区的医疗数据和保险数据,其中,医疗数据包括用户的个人信息,如性别、年龄、身高和体重等,包括用户的医疗记录,比如病情诊疗、用药、费用、治疗时间和治疗地点等。保险数据包括用户的参保信息,即参保人的基本信息,包括参保人的保费信息,即参保缴费信息,包括参保人的理赔相关的信息和理赔的支付信息等。

关键字段提取模块504,用于从初始表中提取初始数据的关键字段。

其中,初始表包括多个初始数据,初始数据包括不同的关键字段、关键字段的定义以及对应关键字段的不同取值。

具体地,服务器从获得的初始表中提取多个初始数据对应的关键字段,初始表包括:参保人基本信息初始表、参保信息初始表、保费信息初始表、医疗信息初始表、支付信息初始表以及理赔细项信息初始表。

映射关系获取模块506,用于获取初始表与标准表之间的映射关系;标准表中包括了标准字段。

其中,服务器需要预先建立初始表和标准表之间的映射关系,并存入数据库中,需要执行标准化操作时,服务器从数据库中读取初始表和标准表之间的映射关系,并获取标准表中的标准字段。

字段转换模块508,用于根据映射关系,将关键字段转换为标准字段。

其中,服务器根据初始表中的主键和标准表的主键,建立初始表和所述标准表间的映射关系;根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系。

具体地,标准表包括标准字段,初始表包括关键字段,服务器根据初始表和标准表之间的映射关系,以及关键字段和标准字段之间的映射关系,将关键字段转换成标准字段,并将关键字段的取值转换成标准字段的取值。

标准化表生成模块510,用于利用转换后的多个标准字段生成与初始表对应的标准化表。

具体地,标准化表为经过标准化处理的初始表,由于标准表和初始表之间存在映射关系,且关键字段和标准字段之间存在映射关系,因此将关键字段转换成标准字段,并将关键字段的取值转换成标准字段的取值后,可得到与初始表对应的标准化表。

上述数据标准化处理装置,通过初始表提取初始数据的关键字段,并获取初始表和标准表之间的映射关系,由于初始表和标准表之间的映射关系,可体现初始表中的关键字段与标准表之间的标准字段的对应关系,因此可将根据映射关系将关键字段转换成标准字段,利用转换后的多个标准字段生成与初始表对应的标准化表,由于可以实现多个地区内的数据之间的标准化,因此可为不同地区的数据更新以及整理等提供了方便。

在一个实施例中,提供了一种数据标准化处理装置,还包括:

第一就检测模块,用于建立与第三方数据库的连接;从第三方数据库获取初始表,将初始表标记为原始表;利用原始表对初始表进行初始校验;当通过初始校验时,对所初始表中的多个关键字段进行完整性校验。

具体地,第三方数据库包括不同平台或不同地区的数据库,比如某地区的参保信息存储数据库,用于存储该地区不同人员的参保信息,或某个医院的用户信息存储数据库,包括用户的基本信息,如性别、年龄、身高体重等,还包括诊疗信息、用药、治疗之间和费用等信息。服务器可通过调用接口或网络通讯建立与第三方数据库的连接。

服务器从多个第三方数据库中获取多个初始表,不同初始表包括不同的关键字段,且不同关键字段具有不同的取值。为不同初始表添加对应标识,根据标识将初始表标记为原始表。

其中,初始校验包括:

(1)服务器对多个初始表包括的数据条目数进行统计,获取原始表中的数据条目数,将初始表中的数据条目数和原始表中的条目数进行比对,当初始表中的条目数和原始表中条目数大小一致或处于误差大小的允许范围内,可将误差范围设置为[-10,10],也就是说,初始表的条目数可大于原始表条目数也可小于原始表的条目事,范围为[-10,10]。

(2)服务器获取初始表和原始表中包括的,数据覆盖的地区、对应的人口数量以及关键字段之间的对应关系,并根据数据所覆盖地区的人口数量,和该地区的数据条目数之间是否对应,以及人口数量与关键字段取值的大小是否一致,判断初始表中数据是否异常。

(3)服务器基于多个初始表中的关键字段,对与各关键字段对应的取值情况进行检测,当关键字段对应的取值处于预设的合理范围时,对应的取值为有效状态。当关键字段的取值未处于预设的合理范围,或取值缺失时,对应的关键字段的取值为无效状态。

(4)服务器获取多个地区的取数情况,当出现多次取数,并出现数据重合时,及时将初始表中各关键字段的取值更新,将原有数据修改为更新后的数据。比如,在a地区第一次取数时,获取的人口数量为50万,第二次取数时,获取的人口数量为51万,则需要将第一次获取的数据更新为第二次获取的数据,实现重复取数时的更新处理。

其中,字段完整性包括对各初始表中所具备的多个关键字段进行识别和分类,并预设的字段规则表,将所获取的多个关键字段和预设的字段规则表进行比对,当初始表中所具备的关键字段的个数符合预设字段规则表中记载的个数时,表明各初始表中的关键字段处于完整状态。

字段取值的完整性包括,将关键字段分为三种类型分别进行检查,包括数值型、字符型以及日期型,分别获取上述三种字段类型的多个字段取值,并根据多个字段取值,分别生成与字段类型对应的取值分布图,提取取值分布图,根据分布图生成取值范围,根据取值范围可判断,对应字段的取值情况,当某个初始表中的相应字段,取值超出范围或不包括取值范围中的多数取值时,表明该字段的取值不完整或存在无效取值,可删除无效取值,或根据业务规则补充取值,实现字段取值得完整性。

上述数据标准化处理装置,服务器通过将初始表标记为原始表,并利用原始表对初始表进行初始校验,包括对初始表中数据条目数的统计、数据是否异常、关键字段取值是否无效以及是否存在数据重合的检验,通过初始校验后还需进行完整性检验,包括字段完整性和字段取值的完整性的检验,可在将初始表中关键字段转换成标准字段之前,实现多方位的数据检验,减少无效数据的流入,降低字段转换量,提高转换效率。

在一个实施例中,提供了一种数据标准化处理装置,还包括:

第二检测模块,用于获取标准化表对应的类型,类型包括医疗类型和理赔类型;根据用户标识获取对应的医疗类型的标准化表以及理赔类型的标准化表;将医疗类型的标准化表以及理赔类型的标准化表进行交叉验证,识别医疗类型的标准化表以及理赔类型的标准化表之间的差异数据。

具体地,标准化表包括医疗类型的标准化表和理赔类型的标准化表,其中,医疗类型的标准化表包括:参保人基本信息标准化表,包括参保人的基本信息,对应的关键字段包括:参保人的性别、年龄、身高、体重等,以及医疗信息标准化表,包括参保人治疗的相关信息,对应的关键字段包括:诊疗、出入院时间、用药、医药费以及治疗地点等。

理赔类型的标准化表包括:参保信息标准化表,包括参保人的参保信息,对应的关键字段包括:身份证信息、户口信息、工作单位以及联系方式等,保费信息标准化表,包括参保人的缴费信息,对应的关键字段包括:参保人、缴费时间、缴费途径以及缴费数额等,以及支付信息标准化表,包括参保人理赔的支付信息,对应的关键字段包括:险种、理赔时效以及理赔费用等,和理赔细项信息标准化表,包括参保人理赔的细项信息,对应的关键字段包括:诊疗、药物费用和住院费用等。

获取医疗类型的标准化表中的多个关键字段,包括参保人基本信息标准化表,以及医疗信息标准化表中的各个关键字段,获取理赔类型的标准化表中的多个关键字段,包括参保信息标准化表、保费信息标准化表、支付信息标准化表,以及理赔细项信息标准化表中的多个关键字段,并获取不同关键字段的取值,对不同类型的标准化表中的关键字段取值进行交叉验证,判断不同标准化表中的同一关键字段的取值是否一致,当取值一致时,表明该关键字段的取值为有效取值。

上述数据标准化处理装置,通过将标准化表分为医疗类型和理赔类型,并分布获取不同类型的标准化表中的各个关键字段的取值,并对不同类型的标准化表中的关键字段取值进行交叉验证,判断不同标准化表中的同一关键字段的取值是否一致,当取值一致时,表明该关键字段的取值为有效取值,提高了字段取值的有效性。

在一个实施例中,提供了一种数据标准化处理装置,还包括:

映射关系建立模块,用于获取初始表中的主键和外键,并获取主键和所述外键之间的对应关系;获取所标准表中的主键和外键,并获取主键和所述外键之间的对应关系;根据初始表中的主键和标准表的主键,建立初始表和所述标准表间的映射关系;根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系。

具体地,服务器获取不同初始表中的主键和外键,比如对于参保人基本信息初始表的处理,其中的主键为参保人的性别,外键包括参保人的年龄、身高和体重等,参保信息初始表中的主键包括参保人的身份证信息,外键包括参保人的户口信息、工作单位以及联系方式等,其中,参保人性别可与参保人身份证信息存在对应关系,也就是说,参保人身份证信息包括参保人的性别,而参保人的年龄,与参保人的身份证信息以及户口信息均存在对应关系。

上述数据标准化处理装置,服务器通过根据初始表中的主键和标准表的主键,建立初始表和标准表间的映射关系,根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系,可为关键字段向标准字段进行转换,提供直接的对应关系,提高转换的准确率和转换效率。

在一个实施例中,提供了一种数据标准化装置,该装置还包括:

第三检测模块,用于当标准表中无与关键字段对应的标准字段时,在标准表中添加对应的标准字段,并为标准字段设置标准值;当初始表中无与标准字段对应的关键字段时,将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值。

具体地,当标准表中无与关键字段对应的标准字段,也就是说,初始表中存在的关键字段,在标准表中无与该关键字段对应的标准字段,标准表中缺失与关键字段对应的标准表字段,服务器在标准表中添加与关键字段对应的标准字段,并根据业务规则为所添加的标准字段设置标准值。

当初始表中无与标准字段对应的关键字段,也就是说,标准表中的标准字段,在初始表中无与该标准字段对应的关键字段,初始表中的关键字段处于缺失状态,服务器将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值。

上述数据标准化处理装置,在初始表或标准表出现字段缺失的情况下,及时在标准表中添加与关键字段对应的标准字段,并根据业务规则为所添加的标准字段设置标准值,或将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值,在执行标准化处理之前,解决初始表或标准表字段缺失的情况,提高标准化处理效率。

关于数据标准化处理装置的具体限定可以参见上文中对于数据标准化处理方法的限定,在此不再赘述。上述数据标准化处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗数据和保险数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标准化处理方法。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取初始表,初始表中包括了初始数据;

从初始表中提取初始数据的关键字段;

获取初始表与标准表之间的映射关系;标准表中包括了标准字段;

根据映射关系,将关键字段转换为标准字段;

利用转换后的多个标准字段生成与初始表对应的标准化表。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

建立与第三方数据库的连接;

从第三方数据库获取所述初始表,将初始表标记为原始表;

利用原始表对初始表进行初始校验;

当通过初始校验时,对初始表中的多个关键字段进行完整性校验。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取标准化表对应的类型,类型包括医疗类型和理赔类型;

根据用户标识获取对应的医疗类型的标准化表以及理赔类型的标准化表;

将医疗类型的标准化表以及理赔类型的标准化表进行交叉验证,识别医疗类型的标准化表以及理赔类型的标准化表之间的差异数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取初始表中的主键和外键,并获取主键和所述外键之间的对应关系;

获取所标准表中的主键和外键,并获取主键和所述外键之间的对应关系;

根据初始表中的主键和标准表的主键,建立初始表和所述标准表间的映射关系;

根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

当标准表中无与关键字段对应的标准字段时,在标准表中添加对应的标准字段,并为标准字段设置标准值;

当初始表中无与标准字段对应的关键字段时,将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取初始表,初始表中包括了初始数据;

从初始表中提取初始数据的关键字段;

获取初始表与标准表之间的映射关系;标准表中包括了标准字段;

根据映射关系,将关键字段转换为标准字段;

利用转换后的多个标准字段生成与初始表对应的标准化表。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

建立与第三方数据库的连接;

从第三方数据库获取所述初始表,将初始表标记为原始表;

利用原始表对初始表进行初始校验;

当通过初始校验时,对初始表中的多个关键字段进行完整性校验。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取标准化表对应的类型,类型包括医疗类型和理赔类型;

根据用户标识获取对应的医疗类型的标准化表以及理赔类型的标准化表;

将医疗类型的标准化表以及理赔类型的标准化表进行交叉验证,识别医疗类型的标准化表以及理赔类型的标准化表之间的差异数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取初始表中的主键和外键,并获取主键和所述外键之间的对应关系;

获取所标准表中的主键和外键,并获取主键和所述外键之间的对应关系;

根据初始表中的主键和标准表的主键,建立初始表和所述标准表间的映射关系;

根据初始表中的外键、主键和外键间的对应关系,以及标准表中的外键、主键和外键间的对应关系,建立关键字段和标准字段之间的映射关系。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

当标准表中无与关键字段对应的标准字段时,在标准表中添加对应的标准字段,并为标准字段设置标准值;

当初始表中无与标准字段对应的关键字段时,将标准字段保留至所述标准化表中,并将标准字段的标准值,设置为标准化表中对应字段的标准值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1