一种数据处理方法、电子设备及存储介质与流程

文档序号:16781709发布日期:2019-02-01 19:11阅读:152来源:国知局
一种数据处理方法、电子设备及存储介质与流程

本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、电子设备及计算机存储介质。



背景技术:

大数据已经被广泛认为是一种战略性的新型资源,可以定义当今时代产生的海量数据以及相关的技术发展与服务创新。大数据蕴藏着巨大的商业价值。在数据流通领域,随着数据量迅速增长,不同数据源的数据质量参次不齐,数据质量有不同的概念和标准,数据质量一般包括数据的准确性、完整性、及时性、一致性等定量描述。对于大数据时代下的用户来说,其所需存储、处理的数据量大,数据来源和数据结构繁多复杂,为大数据的分析和应用带来很多挑战。用户要想充分发挥大数据所赋予的机遇和优势,前提是必须拥有可靠、准确、及时的高质量的数据,只有从高质量的大规模数据中提取隐含的、有用的信息,才能做出更加精准、更加符合市场和客户需求的决策。为此,用户更加注重数据质量及其重要性。

在医疗保健领域,在各方面都需要处理大量的医保数据,因此数据处理依然需要在保证准确性的前提下,提高处理效率。一般而言,可以通过采集接收的数据或者购买的数据进行数据比对分析和处理,实现获取有效信息的目的,但数据本身可能存在一定的误差,其数据类型等可能差异较大,因此在数据处理和分析的过程中不能准确有效地评估数据以及获得分析结果,数据处理的准确率和处理效率较低。



技术实现要素:

本申请实施例提供一种数据处理方法、电子设备及存储介质,可以获得规范数据和评估数据质量,以提高数据处理的效率和准确度。

第一方面,本申请实施例提供了一种数据处理方法,该方法包括:

获取待处理的目标数据;确定所述目标数据的目标项目类别;

获取所述目标项目类别对应的目标打分规则;

按照所述目标打分规则对所述目标数据进行打分,获得数据评分;将所述数据评分大于第一分值的目标数据标记为有效数据。

作为一种可能的实施方式,所述获得数据评分之后,所述方法还包括:

将所述数据评分低于第二分值的目标数据标记为无效数据;

将所述无效数据删除,和/或获取所述无效数据的发送方的联系地址,向所述联系地址发送提示信息,所述提示信息用于提示来自所述发送方的数据中有无效数据。

作为一种可能的实施方式,所述获取待处理的目标数据之前,所述方法还包括:

接收来自终端设备的原始数据;

按照脱敏规则对所述原始数据进行脱敏处理,获得满足所述脱敏规则的目标数据。

作为一种可能的实施方式,所述获取待处理的目标数据之后,所述方法还包括:

依据重复排查规则对所述目标数据进行排查,确定所述目标数据中的重复数据,删除所述重复数据。

作为一种可能的实施方式,所述将所述数据评分大于第一分值的目标数据标记为有效数据之后,所述方法还包括:

按照数据清洗规则清洗所述有效数据,获得满足所述数据清洗规则的第一数据;

存储所述第一数据。

第二方面,本申请实施例提供了一种电子设备,包括:获取模块、确定模块、打分模块和标记模块,其中:

所述获取模块,用于获取待处理的目标数据;

所述确定模块,用于确定所述目标数据的目标项目类别;

所述获取模块,还用于获取所述目标项目类别对应的目标打分规则;

所述打分模块,用于按照所述目标打分规则对所述目标数据进行打分,获得数据评分;

所述标记模块,用于将所述数据评分大于第一分值的目标数据标记为有效数据。

第三方面,本申请实施例还提供了一种电子设备,包括:处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面及其任一种可能的实施方式所述的方法。

第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面及其任一种可能的实施方式的方法。

本申请实施例通过获取待处理的目标数据,确定上述目标数据的目标项目类别,再获取该目标项目类别对应的目标打分规则,并按照上述目标打分规则对上述目标数据进行打分,获得数据评分,将上述数据评分大于第一分值的目标数据标记为有效数据,可以获得规范数据和评估数据质量,以提高数据处理的效率和准确度。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种数据处理方法的流程示意图;

图2是本申请另一实施例提供的一种数据处理方法的流程示意图;

图3是本申请实施例提供的一种电子设备的结构示意图;

图4是本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

为了能够更好地理解本申请实施例,下面将对应用本申请实施例的方法进行介绍。

本申请实施例中提到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(例如智能手表、智能手环、计步器等)、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(userequipment,ue),移动台(mobilestation,ms),终端设备(terminaldevice)等等。为方便描述,上面提到的设备统称为电子设备。

请参见图1,是本申请实施例提供的一种数据处理方法的示意流程图,本方法可以应用于电子设备,如图1所示该方法可包括:

101、获取待处理的目标数据,确定上述目标数据的目标项目类别。

本申请实施例中的原始数据可以为医疗数据,可以是医疗机构中各项事务产生的数据,比如可以为医保数据。医保一般指基本医疗保险,是为了补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度,通过用人单位与个人缴费,建立医疗保险基金,参保人员患病就诊发生医疗费用后,由医疗保险机构对其给予一定的经济补偿。在上述过程中会涉及到大量的医保数据处理。

上述目标数据可以是各类型文档中的数据,比如word、excel等文字编辑软件产生的文件中的数据。

可选的,在步骤101之前,该方法还包括:

接收来自终端设备的原始数据;

按照脱敏规则对上述原始数据进行脱敏处理,获得满足上述脱敏规则的目标数据。

上述电子设备可以与终端设备进行通信,接收来自终端设备的原始数据,在接收到上述原始数据之后可以立即执行步骤101,而电子设备中可以存储预设执行时刻,即用户可以提前设置数据处理的时间,进而可以在上述预设执行时刻执行上述步骤101。

本申请实施例中提到的数据脱敏,是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括:拖库、刷库、撞库。

具体的,可以预先设置上述脱敏规则,上述脱敏规则可以包括脱敏字段,以及针对上述各类脱敏字段的处理,比如设置身份证号、手机号、卡号、客户号进行脱敏,也可以设置对某种预定类型的数据进行脱敏。可以根据实际情况设置脱敏规则,选择需要进行脱敏的数据进行处理。本申请实施例中可以预先设置并存储上述脱敏规则,其中,主要脱敏字段可以包括:姓名、身份证号、地址信息、电话号码。

在医保领域通过数据脱敏处理,脱敏处理后获得的目标数据不涉及敏感字段,可以提高数据安全性,保障用户隐私。

为了对数据快速、规范化地进行处理,本申请实施例中使用对上述目标数据进行分类的方式,对不同类型的目标数据进行打分。电子设备中可以存储有针对不同项目类别的数据的打分规则。

本申请实施例中,针对医保数据的项目类别,可以包括:患者基本信息、住院过程信息、诊疗信息、费用信息等,也可以按照需求进行其他项目分类。

举例来说,在医保数据中,可以按照患者基本信息、住院过程信息、诊疗信息和费用信息分为四种项目类别,不同的项目类别中包括不同项目名称,比如患者基本信息可以包括:新生儿出生体重、新生儿入院体重、病案号、性别、出生日期、年龄、医疗付款方式、健康卡号、患者姓名、身份证号、电话号码、联系人关系、联系人姓名、联系人电话等项目,不同项目涉及的具体打分规则是不同的,在确定上述目标项目类别之后,可以执行步骤102。

具体的,上述原始数据可以携带不同的数据标签,通过上述数据标签,可以确定上述目标数据的目标项目类别,上述数据标签可以是根据数据类型划分的,比如不同医院上报了不同格式的数据,以进行数据标准化、建立数据库;每一个格式都对应一种数据标签,根据上述数据标签可以确定其数据格式。

可选的,可以通过扫描目标数据的字段名称或者项目名称,确定目标数据的目标项目类别。其中,在医保数据领域举例来讲,上述项目名称可以为各类医疗事项的名称,比如入院途径、手术及操作名称、入院病情、入院科别+病区等等,上述字段名称则可以为对应的编码或编号,字段名称与项目名称可以一一对应,比如上述字段名称可以是项目名称的拼音首字母缩写,比如,患者基本信息可包括:新生儿入院体重xserytz、性别xb、出生日期csrq、年龄nl、医疗付款方式ylfkfs等,举例来说,电子设备可以确定“性别xb”属于的项目类别为“患者基本信息”。

102、获取上述目标项目类别对应的目标打分规则。

本申请实施例中可以预先设置和存储目标数据的打分规则,以及可以存储有项目类别和打分规则的对应关系,针对不同项目类别的数据,可以有不同的打分规则。

在确定了目标项目类别之后,可以根据上述项目类别和打分规则的对应关系,在预存的打分规则中获取上述目标项目类别对应的目标打分规则,再执行步骤103。

不同的数据项目类别都有详细的打分规则,可以根据数据的完整性、正确率等统计数据得分。可选的,上述打分规则可以由相关人员根据需要进行修改、保存,即可以修改打分规则,也可以增加或者删除打分规则。

103、按照上述目标打分规则对上述目标数据进行打分,获得数据评分。

上述打分规则可以包括针对数据值域的评分细则。其中,值域为数学名词,函数经典定义中,因变量改变而改变的取值范围叫做这个函数的值域,在函数现代定义中是指定义域中所有元素在某个对应法则下对应的所有的象所组成的集合,本申请实施例中可以理解为数据转化为数值的范围。

按照上述打分规则对上述目标数据进行检测,获得上述数据评分可以反应数据质量。其中,上述打分规则可以涉及以下方面的数据检测项:数据齐全、数据有效(数据的类型,范围是否满足物理量定义,满足算法需求)、数据在时间上面的稳定性(是否存在数据缺失情况)、数据的准确性(是实际采集的物理量保持一致几个维度去衡量项目数据)等,可以根据实际情况设置上述数据检测项来对数据质量进行数据打分。

针对不同的数据项目类别,可以有不同的打分规则,打分规则可以包括针对数据值域的评分规则,比如,项目名称为职业时,对应的数据不在值域范围时,获取的评分规则中针对“职业”一项包括:填写不在值域范围内扣0.5分;值域范围:11,13,17,21,24,27,31,37,51,54,70,80,9;又如,项目名称为现住址,检查到现住址等三项均未填写时,获取的评分规则中针对“现住址”一项包括:现住址、户口地址和工作单位地址三项中至少填写一项,否则扣0.5分;(三填其一),即可以对目标数据进行检查,以及按照打分规则对其进行详细地打分,获得目标数据的数据评分。上述打分规则可以根据对目标数据的评估需求进行编写,本申请实施例中提到的数据质量可以包括以下几个方面:完整性、规范性、一致性、准确性、唯一性、关联性。而上述打分规则,可以针对上述方面进行设置,从而对目标数据的数据质量进行评估。

上述目标数据可能包括多项目标项目类别的数据,可以针对多个项目类别的目标数据进行打分,获得对应的多个数据得分。

在获得数据评分之后,可以执行步骤104。

104、将上述数据评分大于第一分值的目标数据标记为有效数据。

具体的,可以通过上述数据评分判断目标数据是否满足数据质量要求,电子设备中可以存储有上述第一分值(比如90分),在获得上述数据评分之后,可以判断上述数据评分是否高于上述第一分值,若目标数据的数据评分高于上述第一分值,则该目标数据满足数据质量要求,即可以将上述数据评分大于第一分值的目标数据标记为有效数据,可以存储上述有效数据。

可选的,电子设备中还可以存储多个分值,通过与上述数据评分的比较,可以确定目标数据的质量等级。比如可以设置高于上述第一分值的第二分值,可以判断上述数据评分数据评分是否高于第二分值(比如95分),若上述数据评分高于第二分值,则满足上述数据质量要求并且数据质量等级为优,若上述数据评分高于上述第一分值但不高于上述第二分值,则满足上述数据质量要求但数据质量等级为良,可以以此类推。

可选的,上述有效数据可以进行分组存储,分组依据可以是依据数据质量等级进行分组,或者数据类型进行分组,此处不做限制。

具体的,在获得上述有效数据之后,可以对上述有效数据进行后续的数据处理过程,比如分组进行进一步的数据排查和分值计算等。标记为有效数据的目标数据可以被系统识别,利用这些数据可以进行数据分析处理,以及可以将其存储到预设空间进行保存,便于后续调用。

可选的,该方法还包括:生成上述目标数据的数据评估报告,上述数据评估报告包括上述目标数据的数据打分时刻、上述数据评分、数据有效率和/或数据无效率。其中,上述数据有效率为有效数据占所有目标数据的百分比,数据无效率为无效数据占所有目标数据的百分比。通过上述数据评估报告,可以清晰地反应数据质量情况,便于用户对数据的维护和数据获取、数据处理系统的完善和改进。

本申请实施例通过获取待处理的目标数据,确定上述目标数据的目标项目类别,再获取该目标项目类别对应的目标打分规则,并按照上述目标打分规则对上述目标数据进行打分,获得数据评分,将上述数据评分大于第一分值的目标数据标记为有效数据,便于后续的数据存储和处理,可以获得规范数据和评估数据质量,以提高数据处理的效率和准确度。

参见图2,是本申请实施例提供的另一种数据处理方法的示意流程图,图2所示的实施例可以是在图1所示的实施例的基础上得到的,如图2所示该方法可包括:

201、获取待处理的目标数据;依据重复排查规则对上述目标数据进行排查,确定上述目标数据中的重复数据,删除上述重复数据。

其中,电子设备中可以存储有上述重复排查规则,用于作为数据去重处理的依据。具体的,电子设备可以根据上述重复排查规则对上述目标数据进行一一比对,检测是否有重复数据,上述重复数据可以理解为与某一目标数据完全相同的重复数据,即可能是用户输入的重复数据或者上传了相同的文档数据造成的重复数据等,通过删除重复数据,可以仅保留唯一的目标数据。数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。

在删除的同时,要考虑数据重建,即虽然文件的部分内容被删除,但当需要时,仍然将完整的文件内容重建出来,这就需要保留文件与唯一数据单元之间的索引信息。

本申请实施例中,针对海量医保数据,通过数据去重,可以节省存储空间,减少多余的数据,比如可以删除重复的病案。通过重复数据删除,可以大大降低需要的存储介质数量,进而降低成本。甚至可以使基于硬盘的存储系统成本低于磁带库,同时提供更好的性能。因此,支持数据去重技术的存储系统,特别适合用来做数据的备份。

数据去重还可以提升写入性能。磁盘的写入性能是有限的,通常顺序写入在100mb/s左右,如果在写入数据的时候就进行数据去重,可以避免一部分的数据写入磁盘,从而提升写入性能。

该方法可以节省网络带宽。如果在客户端进行数据去重,仅将新增的数据传输到存储系统,可以减少网络上的数据传输量,从而节省网络带宽。

202、确定上述目标数据的目标项目类别。

其中,上述步骤201和步骤202可以参考图1所示实施例的步骤101中的具体描述,此处不再赘述。

203、获取上述目标项目类别对应的目标打分规则。

其中,上述步骤203可以参考图1所示实施例的步骤102中的具体描述,此处不再赘述。

204、按照上述目标打分规则对上述目标数据进行打分,获得数据评分。

其中,上述步骤204可以参考图1所示实施例的步骤103中的具体描述,此处不再赘述。在获得上述数据评分之后,可以执行步骤205和步骤207,其中,步骤205和步骤207可以不分先后顺序执行。

205、将上述数据评分大于第一分值的目标数据标记为有效数据。

其中,上述步骤205可以参考图1所示实施例的步骤104中的具体描述,此处不再赘述。

206、按照数据清洗规则清洗上述有效数据,获得满足上述数据清洗规则的第一数据,存储上述第一数据。

数据清洗(datacleaning),是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

本申请实施例中电子设备可以存储有上述数据清洗规则,上述数据清洗规则可以包括对错误数据的处理,错误产生的原因可能是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写sql语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致etl运行失败,这一类错误可以去业务系统数据库用sql的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

依据上述数据清洗规则处理所述有效数据,主要是清洗数据陷阱和清洗数据格式,可以获得满足数据完整性和数据格式标准的第一数据,再进行存储。

本申请实施例中提到的drgs(diagnosisrelatedgroups)中文翻译为(疾病)诊断相关分类,它根据病人的年龄、性别、住院天数、临床诊断、病症、手术、疾病严重程度,合并症与并发症及转归等因素把病人分入500-600个诊断相关组,然后决定应该给医院多少补偿。

drgs是当今世界公认的比较先进的支付方式之一。drgs的指导思想是:通过统一的疾病诊断分类定额支付标准的制定,达到医疗资源利用标准化。有助于激励医院加强医疗质量管理,迫使医院为获得利润主动降低成本,缩短住院天数,减少诱导性医疗费用支付,有利于费用控制。

可选的,上述目标数据(或第一数据)可以为医疗领域的病历数据,可以将上述第一数据或者上述目标数据输入drg分组器进行数据清洗处理,以将具有某一方面相同特征的病例数据归为一组,以方便管理,以及可以把医院对病人的治疗和所发生的费用联系起来,从而为付费标准的制定尤其是预付费的实施提供了基础。

207、将上述数据评分低于上述第一分值的目标数据标记为无效数据。

具体的,若上述数据评分低于上述第一分值,可以将上述目标数据标记为无效数据,无效数据的数据质量不满足要求,因此可以以标记的形式提醒用户。

在标记无效数据之后,可以执行步骤208。

208、获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自上述发送方的数据中有无效数据。

对于无效数据可以打回,不能进入电子设备的数据库中,即可以将所述无效数据删除,和/或获取上述无效数据的发送方的联系地址(比如邮箱地址或者其他应用软件账号),向上述联系地址发送上述提示信息,上述提示信息用于提示来自上述发送方的数据中有无效数据,以通知上述发送方重新发送上述无效数据,获取满足质量要求的数据。

本申请实施例中的数据处理方法可以在电子设备后台运行,用户可以在前台执行其他操作,比如设置其他处理任务等。

本申请实施例通过获取待处理的目标数据,依据重复排查规则对上述目标数据进行排查,确定上述目标数据中的重复数据,删除上述重复数据,再确定上述目标数据的目标项目类别,获取上述目标项目类别对应的目标打分规则,然后按照上述目标打分规则对上述目标数据进行打分,获得数据评分,将上述数据评分大于第一分值的目标数据标记为有效数据,再按照数据清洗规则清洗上述有效数据,可以获得满足上述数据清洗规则的第一数据,存储上述第一数据;另一方面,通过将上述数据评分低于上述第一分值的目标数据标记为无效数据,还可以获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自上述发送方的数据中有无效数据,便于后续的数据存储和处理,可以获得规范数据和评估数据质量,以提高数据处理的效率和准确度。

请参见图3,图3是本申请实施例提供的一种电子设备300的结构示意图,该电子设备300包括获取模块310、确定模块320、打分模块330和标记模块340,其中:

上述获取模块310,用于获取待处理的目标数据;

上述确定模块320,用于确定上述目标数据的目标项目类别;

上述获取模块310,还用于获取上述目标项目类别对应的目标打分规则;

上述打分模块330,用于按照上述目标打分规则对上述目标数据进行打分,获得数据评分;

上述标记模块340,用于将上述数据评分大于第一分值的目标数据标记为有效数据。

本申请实施例中的原始数据可以为医疗数据,可以是医疗机构中各项事务产生的数据,比如可以为医保数据。医保一般指基本医疗保险,是为了补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度,通过用人单位与个人缴费,建立医疗保险基金,参保人员患病就诊发生医疗费用后,由医疗保险机构对其给予一定的经济补偿。在上述过程中会涉及到大量的医保数据处理。

上述目标数据可以是各类型文档中的数据,比如word、excel等文字编辑软件产生的文件中的数据。

可选的,电子设备300还可以用于:

接收来自终端设备的原始数据;

按照脱敏规则对上述原始数据进行脱敏处理,获得满足上述脱敏规则的目标数据。

上述电子设备300可以与终端设备进行通信,接收来自终端设备的原始数据,在接收到上述原始数据之后可以立即执行步骤101,而电子设备300中可以存储预设执行时刻,即用户可以提前设置数据处理的时间,进而可以在上述预设执行时刻执行上述步骤101。

为了对数据快速、规范化地进行处理,本申请实施例中使用对上述目标数据进行分类的方式,对不同类型的目标数据进行打分。电子设备300中可以存储有针对不同项目类别的数据的打分规则。

本申请实施例中,针对医保数据的项目类别,可以包括:患者基本信息、住院过程信息、诊疗信息、费用信息等,也可以按照需求进行其他项目分类。

举例来说,在医保数据中,可以按照患者基本信息、住院过程信息、诊疗信息和费用信息分为四种项目类别,不同的项目类别中包括不同项目名称,比如患者基本信息可以包括:新生儿出生体重、新生儿入院体重、病案号、性别、出生日期、年龄、医疗付款方式、健康卡号、患者姓名、身份证号、电话号码、联系人关系、联系人姓名、联系人电话等项目,不同项目涉及的具体打分规则是不同的。

具体的,上述原始数据可以携带不同的数据标签,确定模块320通过上述数据标签,可以确定上述目标数据的目标项目类别,上述数据标签可以是根据数据类型划分的,比如不同医院上报了不同格式的数据,以进行数据标准化、建立数据库;每一个格式都对应一种数据标签,根据上述数据标签可以确定其数据格式。

可选的,确定模块320可以通过扫描目标数据的字段名称或者项目名称,确定目标数据的目标项目类别。其中,在医保数据领域举例来讲,上述项目名称可以为各类医疗事项的名称,比如入院途径、手术及操作名称、入院病情、入院科别+病区等等,上述字段名称则可以为对应的编码或编号,字段名称与项目名称可以一一对应,比如上述字段名称可以是项目名称的拼音首字母缩写,比如,患者基本信息可包括:新生儿入院体重xserytz、性别xb、出生日期csrq、年龄nl、医疗付款方式ylfkfs等,举例来说,电子设备300可以确定“性别xb”属于的项目类别为“患者基本信息”。

本申请实施例中电子设备300可以预先设置和存储目标数据的打分规则,以及可以存储有项目类别和打分规则的对应关系,针对不同项目类别的数据,可以有不同的打分规则。

在确定模块320确定了目标项目类别之后,获取模块310可以根据上述项目类别和打分规则的对应关系,在预存的打分规则中获取上述目标项目类别对应的目标打分规则。

不同的数据项目类别都有详细的打分规则,可以根据数据的完整性、正确率等统计数据得分。可选的,上述打分规则可以由相关人员根据需要进行修改、保存,即可以修改打分规则,也可以增加或者删除打分规则。

上述打分规则可以包括针对数据值域的评分细则。其中,值域为数学名词,函数经典定义中,因变量改变而改变的取值范围叫做这个函数的值域,在函数现代定义中是指定义域中所有元素在某个对应法则下对应的所有的象所组成的集合,本申请实施例中可以理解为数据转化为数值的范围。

打分模块330可以按照上述打分规则对上述目标数据进行检测,获得上述数据评分可以反应数据质量。其中,上述打分规则可以涉及以下方面的数据检测项:数据齐全、数据有效(数据的类型,范围是否满足物理量定义,满足算法需求)、数据在时间上面的稳定性(是否存在数据缺失情况)、数据的准确性(是实际采集的物理量保持一致几个维度去衡量项目数据)等,可以根据实际情况设置上述数据检测项来对数据质量进行数据打分。

针对不同的数据项目类别,可以有不同的打分规则,打分规则可以包括针对数据值域的评分规则,比如,项目名称为职业时,对应的数据不在值域范围时,获取的评分规则中针对“职业”一项包括:填写不在值域范围内扣0.5分;值域范围:11,13,17,21,24,27,31,37,51,54,70,80,9;又如,项目名称为现住址,检查到现住址等三项均未填写时,获取的评分规则中针对“现住址”一项包括:现住址、户口地址和工作单位地址三项中至少填写一项,否则扣0.5分;(三填其一),即可以对目标数据进行检查,以及按照打分规则对其进行详细地打分,获得目标数据的数据评分。上述打分规则可以根据对目标数据的评估需求进行编写,本申请实施例中提到的数据质量可以包括以下几个方面:完整性、规范性、一致性、准确性、唯一性、关联性。而上述打分规则,可以针对上述方面进行设置,从而对目标数据的数据质量进行评估。

上述目标数据可能包括多项目标项目类别的数据,打分模块330可以针对多个项目类别的目标数据进行打分,获得对应的多个数据得分。

具体的,可以通过上述数据评分判断目标数据是否满足数据质量要求,电子设备300中可以存储有上述第一分值(比如90分),在获得上述数据评分之后,标记模块340可以判断上述数据评分是否高于上述第一分值,若目标数据的数据评分高于上述第一分值,则该目标数据满足数据质量要求,即标记模块340可以将上述数据评分大于第一分值的目标数据标记为有效数据,可以存储上述有效数据。

可选的,电子设备300中还可以存储多个分值,标记模块340通过与上述数据评分的比较,可以确定目标数据的质量等级。比如可以设置高于上述第一分值的第二分值,可以判断上述数据评分数据评分是否高于第二分值(比如95分),若上述数据评分高于第二分值,则满足上述数据质量要求并且数据质量等级为优,若上述数据评分高于上述第一分值但不高于上述第二分值,则满足上述数据质量要求但数据质量等级为良,可以以此类推。

具体的,在获得上述有效数据之后,可以对上述有效数据进行后续的数据处理过程,比如分组进行进一步的数据排查和分值计算等。标记为有效数据的目标数据可以被系统识别,利用这些数据可以进行数据分析处理,以及可以将其存储到预设空间进行保存,便于后续调用。

可选的,电子设备300还用于:生成上述目标数据的数据评估报告,上述数据评估报告包括上述目标数据的数据打分时刻、上述数据评分、数据有效率和/或数据无效率。其中,上述数据有效率为有效数据占所有目标数据的百分比,数据无效率为无效数据占所有目标数据的百分比。通过上述数据评估报告,可以清晰地反应数据质量情况,便于用户对数据的维护和数据获取、数据处理系统的完善和改进。

可选的,上述电子设备300还包括删除模块350和传输模块360;

上述标记模块340还用于,在获得上述数据评分之后,将上述数据评分低于第二分值的目标数据标记为无效数据;

上述删除模块350用于,将上述无效数据删除;

上述传输模块360用于,获取上述无效数据的发送方的联系地址,向上述联系地址发送提示信息,上述提示信息用于提示来自上述发送方的数据中有无效数据。

具体的,若上述数据评分低于上述第一分值,标记模块340可以将上述目标数据标记为无效数据,无效数据的数据质量不满足要求,因此可以以标记的形式提醒用户。

对于无效数据可以打回,不能进入电子设备300的数据库中,即删除模块350可以将所述无效数据删除,和/或传输模块360获取上述无效数据的发送方的联系地址(比如邮箱地址或者其他应用软件账号),向上述联系地址发送上述提示信息,上述提示信息用于提示来自上述发送方的数据中有无效数据,以通知上述发送方重新发送上述无效数据,获取满足质量要求的数据。

本申请实施例中的数据处理方法可以在电子设备300后台运行,用户可以在前台执行其他操作,比如设置其他处理任务等。

可选的,上述电子设备300还包括脱敏模块370,其中:

上述传输模块360,还用于接收来自终端设备的原始数据;

上述脱敏模块370,用于按照脱敏规则对上述原始数据进行脱敏处理,获得满足上述脱敏规则的目标数据。

本申请实施例中提到的数据脱敏,是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括:拖库、刷库、撞库。

具体的,可以预先设置上述脱敏规则,上述脱敏规则可以包括脱敏字段,以及针对上述各类脱敏字段的处理,比如设置身份证号、手机号、卡号、客户号进行脱敏,也可以设置对某种预定类型的数据进行脱敏。可以根据实际情况设置脱敏规则,选择需要进行脱敏的数据进行处理。本申请实施例中可以预先设置并存储上述脱敏规则,其中,主要脱敏字段可以包括:姓名、身份证号、地址信息、电话号码。

在医保领域通过数据脱敏处理,脱敏处理后获得的目标数据不涉及敏感字段,可以提高数据安全性,保障用户隐私。

可选的,上述电子设备300还包括重复排查模块380,用于在获取待处理的目标数据之后,依据重复排查规则对上述目标数据进行排查,确定上述目标数据中的重复数据;

上述删除模块350,还用于删除上述重复数据。

其中,电子设备300中可以存储有上述重复排查规则,用于作为数据去重处理的依据。具体的,重复排查模块380可以根据上述重复排查规则对上述目标数据进行一一比对,检测是否有重复数据,上述重复数据可以理解为与某一目标数据完全相同的重复数据,即可能是用户输入的重复数据或者上传了相同的文档数据造成的重复数据等,通过删除模块350删除重复数据,可以仅保留唯一的目标数据。数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。

在删除模块350删除的同时,要考虑数据重建,即虽然文件的部分内容被删除,但当需要时,仍然将完整的文件内容重建出来,这就需要保留文件与唯一数据单元之间的索引信息。

可选的,上述电子设备300还包括数据清洗模块390和存储模块3100,其中:

上述数据清洗模块390,用于在将上述数据评分大于第一分值的目标数据标记为有效数据之后,按照数据清洗规则清洗上述有效数据,获得满足上述数据清洗规则的第一数据;

上述存储模块3100用于存储上述第一数据。

本申请实施例中电子设备300可以存储有上述数据清洗规则,上述数据清洗规则可以包括对错误数据的处理,错误产生的原因可能是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写sql语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致etl运行失败,这一类错误可以去业务系统数据库用sql的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

数据清洗模块390依据上述数据清洗规则处理所述有效数据,主要是清洗数据陷阱和清洗数据格式,可以获得满足数据完整性和数据格式标准的第一数据,再进行存储。

drgs是当今世界公认的比较先进的支付方式之一。drgs的指导思想是:通过统一的疾病诊断分类定额支付标准的制定,达到医疗资源利用标准化。有助于激励医院加强医疗质量管理,迫使医院为获得利润主动降低成本,缩短住院天数,减少诱导性医疗费用支付,有利于费用控制。

可选的,上述目标数据(或第一数据)可以为医疗领域的病历数据,数据清洗模块390可以将上述第一数据或者上述目标数据输入drg分组器进行数据清洗处理,以将具有某一方面相同特征的病例数据归为一组,以方便管理,以及可以把医院对病人的治疗和所发生的费用联系起来,从而为付费标准的制定尤其是预付费的实施提供了基础。

可选的,上述第一数据可以进行分组存储,分组依据可以是依据数据质量等级进行分组,或者数据类型进行分组,此处不做限制。

根据本申请实施例的具体实施方式,图1与图2所示的数据处理方法涉及的步骤101~104、201~208可以是由图3所示的电子设备300中的各个模块来执行的。例如,图1中的步骤101~104可以分别由图3中所示的获取模块310、确定模块320、打分模块330和标记模块340来执行。

通过本申请实施例的电子设备300,电子设备300可以获取待处理的目标数据,确定上述目标数据的目标项目类别,再获取该目标项目类别对应的目标打分规则,并按照上述目标打分规则对上述目标数据进行打分,获得数据评分,将上述数据评分大于第一分值的目标数据标记为有效数据,便于后续的数据存储和处理,可以获得规范数据和评估数据质量,以提高数据处理的效率和准确度。

请参阅图4,图4是本申请实施例公开的另一种电子设备的结构示意图。如图4所示,该电子设备400包括处理器401和存储器402,其中,电子设备400还可以包括总线403,处理器401和存储器402可以通过总线403相互连接,总线403可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。总线403可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,电子设备400还可以包括输入输出设备404,输入输出设备404可以包括显示屏,例如液晶显示屏。存储器402用于存储包含指令的一个或多个程序;处理器401用于调用存储在存储器402中的指令执行上述图1和图2实施例中提到的部分或全部方法步骤。

应当理解,在本申请实施例中,所称处理器401可以是中央处理单元(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备403可以包括显示器(lcd等)、扬声器等。

该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。

通过本申请实施例的电子设备400,电子设备400可以获取待处理的原始数据,采用预处理规则对上述原始数据进行预处理,获得目标数据,再对上述目标数据的数据质量进行评估,获得数据评估结果,然后,判断上述数据评估结果是否满足数据质量要求,若满足,将上述数据评估结果满足上述数据质量要求的目标数据标记为有效数据,并将上述有效数据存储于存储空间,若不满足,将上述目标数据标记为无效数据,便于获得规范数据以进行后续的数据存储或者处理过程,可以提高数据处理的效率和准确度。

本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种数据处理方法的部分或全部步骤。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1