数据测试方法及装置与流程

文档序号:17080239发布日期:2019-03-09 00:10阅读:243来源:国知局
数据测试方法及装置与流程

本公开涉及数据处理领域,具体而言,涉及一种数据测试方法及数据测试装置。



背景技术:

随着互联网技术的不断发展,“互联网+医疗”成为医疗行业的新发展方向,催生传统医疗向医疗信息化过渡,同时也推动着健康行业与信息技术行业的深化结合。

医疗信息化历经十几年的发展,取得巨大成就的同时,大批医疗机构积累和存储的医疗数据已经远远超过了目前人力所能处理的范畴。尤其是近几年在精准医学的推动下,基于大数据技术开展高质量的临床科学研究已成为必然趋势。对大数据的生产处理质量,直接决定了大数据医疗智能应用的可靠性。

由于大数据中包含海量的信息,数据质量检测的指标、规则、流程、工具都在不断地丰富,然而通用性平台化工具从研发到交付使用的过程比较缓慢,灵活机动性不强,针对精细化质控任务凸显出明显不足。

图1示出现有技术中一种数据测试方法的示意图。

现有技术中,数据质量检测平台在自动化完成最新版本数据的通用性指标(例如,规范性(命名违规、空值、非标准)、传输差异)检测后,会根据选定的病案编号进行对应的数据样本抽取,病案编号来源于医疗结机构提供的纸质病例记录。被抽取完成的病案数据以页面表格形式展现,依靠人工来完成与纸质病例记录的逐项核对。如图1所示,为一个web页病案数据的实例。

上述现有技术至少存在以下缺点:

第一,核对工作主要靠人工,重复劳动,效率低,很难避免人为错漏。

第二,对纸质档案的保存管理水平有依赖,一旦纸质档案丢失或损毁且无备份,将会造成核对无法开展。

第三,数据质量检测平台是流水式作业方式,有新版本载入后,则历史版本就不再接受处理,在需要增补对历史版本的数据抽样时就无能为力,固化的流程缺乏灵活机动性。

因此,在数据高质量的目标要求下,测试验收环节迫切需要更高效更灵活更准确的测试方法和工具。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开的目的在于提供一种数据测试方法及数据测试装置,能够实现数据测试的自动化执行,提升数据质量检测的效率。

根据本公开的一个方面,提供一种数据测试方法,包括:根据输入的目标样本编号在第一非基础数据版本上自动抽取,获得当前待检样本;将所述当前待检样本与数据库中存储的相应标准样板进行自动比对,获得所述当前待检样本与所述相应标准样板之间的差异结果;根据配置的指标参数对所述差异结果进行自动评测,获得所述当前待检样本的评测结果。

在本公开的一种示例性实施例中,还包括:根据输入的所述目标样本编号在第一基础数据版本上自动抽取,获得基础待检样本;根据所述基础待检样本生成所述相应标准样板;其中,所述第一非基础数据版本和所述第一基础数据版本对应数据结构的同一版本。

在本公开的一种示例性实施例中,所述根据所述基础待检样本生成所述相应标准样板,包括:将所述基础待检样本与相应的纸质病例进行核对;若核对通过,则将所述基础待检样本作为所述相应标准样板自动存储至所述数据库。

在本公开的一种示例性实施例中,还包括:以个体采样法选择病案集;被选择的病案集中的病案以唯一的样本编号进行标识。

在本公开的一种示例性实施例中,每个样本编号对应唯一的病案编号,所述病案编号对应一对病人编号和就诊编号。

在本公开的一种示例性实施例中,所述差异结果包括表级别差异、表结构差异和字段值差异中的任意一种或者多种。

在本公开的一种示例性实施例中,所述指标参数包括定性和/或定量指标参数。

在本公开的一种示例性实施例中,还包括:升级所述数据结构的版本,生成第二基础数据版本。

在本公开的一种示例性实施例中,还包括:更新业务数据,生成第二非基础数据版本;其中,所述第二非基础数据版本和所述第二基础数据版本对应所述数据结构的同一版本。

根据本公开的一个方面,提供一种数据测试装置,包括:样本抽取模块,配置为根据输入的目标样本编号在第一非基础数据版本上自动抽取,获得当前待检样本;自动比对模块,配置为将所述当前待检样本与数据库中存储的相应标准样板进行自动比对,获得所述当前待检样本与所述相应标准样板之间的差异结果;自动评测模块,配置为根据配置的指标参数对所述差异结果进行自动评测,获得所述当前待检样本的评测结果。

本公开的一种示例性实施例中的数据测试方法及数据测试装置,根据输入的目标样本编号在第一非基础数据版本上自动抽取,获得当前待检样本;将所述当前待检样本与数据库中存储的相应标准样板进行自动比对,获得所述当前待检样本与所述相应标准样板之间的差异结果;根据配置的指标参数对所述差异结果进行自动评测,获得所述当前待检样本的评测结果,能够实现数据测试的自动化执行,提升了数据质量检测的效率,且能够避免人为错漏对检测结果的主观影响。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。

图1示出现有技术中一种数据测试方法的示意图。

图2示出根据本公开一示例性实施例的数据测试方法的流程图。

图3示出根据本公开另一示例性实施例的数据测试方法的流程图。

图4示出根据本公开又一示例性实施例的数据测试方法的流程图。

图5示出根据本公开再一示例性实施例的数据测试方法的流程图。

图6示出根据本公开一示例性实施例的数据测试方法的示意图。

图7示出根据本公开一示例性实施例的数据测试装置的框图。

具体实施例

现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面对本发明实施例中涉及到的一些术语进行说明。

病案:指按规范记录病人疾病表现和诊疗情况的档案,由医疗机构的病案管理部门按相关规定保存。不仅有纸质的,还有电子文档、医学影像检查胶片、病理切片等保存形式。病案是医务人员记录疾病诊疗过程的文件,它客观地、完整地、连续地记录了病人的病情变化、诊疗经过、治疗效果及最终转归,是医疗、教学、科研的基础资料,也是医学科学的原始档案材料。

需要说明的是,一般病历指住院病历,是正在运行的、还没有归档的病案。病人在医院所有的病历最终归档都为病案,并按规定年限保存。病人可以按程序向医院病案管理部门申请调阅或复制。病历在运行的过程中和在病案室的排列顺序也是不同的,具体顺序各个教材有所不同,可以参考《中国医院管理》(病案管理部分)。

图2示出根据本公开一示例性实施例的数据测试方法的流程图。

如图2所示,本发明实施方式提供的数据测试方法可以包括以下步骤。

在步骤s210中,根据输入的目标样本编号在第一非基础数据版本上自动抽取,获得当前待检样本。

本发明实施例中,关于数据版本,可以对应一个病案数据批次。非基础数据版本是基于基础数据版本而言的,即基础数据版本之后进行业务数据更新后,另外生成的新版本数据。

在步骤s220中,将所述当前待检样本与数据库中存储的相应标准样板进行自动比对,获得所述当前待检样本与所述相应标准样板之间的差异结果。

在示例性实施例中,所述差异结果可以包括表级别差异、表结构差异和字段值差异等中的任意一种或者多种。

在步骤s230中,根据配置的指标参数对所述差异结果进行自动评测,获得所述当前待检样本的评测结果。

在示例性实施例中,所述指标参数包括定性和/或定量指标参数。

本发明实施例中,定性是指评测结果为“通过”或者“不通过”。

例如,所述当前待检样本中的重点字段抽出来为空,那就将所述当前待检样本视为不合格的批次或者版本。

本发明实施例中,定量一般是统计数据,例如通过率或者误差率。

例如,抽取了150个病案样本,通过的为50个,则通过率为三分之一。

再例如,一个病案样本,标记重点的关键字段假设一共为500个,出现偏差的有100个,那误差率就是20%。

需要说明的是,上述通过率或者误差率的计算仅是一种举例说明,实际情况中可能比这个计算要复杂。

图3示出根据本公开另一示例性实施例的数据测试方法的流程图。

如图3所示,本发明实施方式提供的数据测试方法可以包括以下步骤。

在步骤s310中,根据输入的目标样本编号在第一基础数据版本上自动抽取,获得基础待检样本。

例如,数据结构_v3.1上的一个批次叫v3.1_20180103_bjhospital,这个批次通过严格质控后会被选为基础版本。

在步骤s320中,根据所述基础待检样本生成所述相应标准样板。

在示例性实施例中,所述根据所述基础待检样本生成所述相应标准样板,可以包括:将所述基础待检样本与相应的纸质病例进行核对;若核对通过,则将所述基础待检样本作为所述相应标准样板自动存储至所述数据库。

在步骤s330中,根据输入的所述目标样本编号在第一非基础数据版本上自动抽取,获得当前待检样本。

在示例性实施例中,所述第一非基础数据版本和所述第一基础数据版本对应数据结构的同一版本。

在步骤s340中,将所述当前待检样本与数据库中存储的相应标准样板进行自动比对,获得所述当前待检样本与所述相应标准样板之间的差异结果。

本发明实施例中,自动比对检测环节只需要依赖数据库系统中的标准样板。标准样板是纸质档案的备份。

在步骤s350中,根据配置的指标参数对所述差异结果进行自动评测,获得所述当前待检样本的评测结果。

其中,上述步骤s330-350可以参考上述图2所示实施例的步骤s210-230。

在示例性实施例中,所述方法还可以包括:升级所述数据结构的版本,生成第二基础数据版本。

在示例性实施例中,所述方法还可以包括:更新业务数据,生成第二非基础数据版本。其中,所述第二非基础数据版本和所述第二基础数据版本对应所述数据结构的同一版本。

本发明实施例中,基础数据版本会有多个,数据结构的版本会不断升级,比如6个月前是在数据结构_v3.1上的一个批次叫v3.1_20180103_bjhospital,这个批次通过严格质控后会被选为基础数据版本,医院业务数据也是会不断更新过来,就有了其他日期的批次,例如v3.1_20180203_bjhospital,此时,v3.1_20180203_bjhospital为v3.1_20180103_bjhospital这个基础数据版本的非基础数据版本。

如果数据结构升级到v3.2后就可以切换成v3.2_20180703_bjhospital作为新的基础数据版本,一般叫基准版base_database。类似的,医院业务数据也是会不断更新过来,就有了其他日期的批次,例如v3.2_20180803_bjhospital,此时,v3.2_20180803_bjhospital为v3.2_20180703_bjhospital这个基础数据版本的非基础数据版本。

需要说明的是,本发明实施例中,数据结构的版本不是数据库版本。数据版本主要对应的一个批次的数据库。

图4示出根据本公开又一示例性实施例的数据测试方法的流程图。

如图4所示,本发明实施方式提供的数据测试方法可以包括以下步骤。

在步骤s410中,以个体采样法选择病案集。

其中,所述个体采样法参照流行病统计学分析法,采样范围涉及不同性别、不同年龄组的病人,不同年份的就诊病例,从科室、病种、医疗业务系统等多个维度选择病案样本。

其中,科室可以包括综合性医院常规科室、专科医院科室及针对单个医院的重点特色科室等,例如:疝外科等。

病种可以包括人体几大系统的常规病种及特殊病种,针对单个医院的重点病种,例如:白血病、法洛四联症(先心病)等。

医疗业务系统可以包括但不限于:常规检验,非常规检验,常规检查,非常规检查,手麻系统,输血系统,体检系统,护理系统,icu(intensivecareunit,重症加强护理病房)系统等。

在步骤s420中,被选择的病案集中的病案以唯一的样本编号进行标识。

在示例性实施例中,每个样本编号对应唯一的病案编号,所述病案编号对应一对病人编号和就诊编号。

本发明实施例中,样本编号对应了唯一的病案编号,而病案编号对应了唯一的一对病人编号patient_sn(可以简写为psn)和就诊编号visit_sn(可以简写为vsn),这个以excel格式存放,传给样本编号后,可以对应到相应的病案编号,在数据库中,根据相应的病案编号程序可以自动读到psn和vsn,这两个字段是所有数据表的主键,可以理解为病人id和就诊id,同病人id和就诊id就是一套完整的病案数据,病案数据在存储时例如可以有30多个表,有门诊、挂号、住院、检查检验等等。然后根据psn和vsn执行数据库查询。数据库里面把等于病人编号和就诊编号的记录都取出来,形式上就是有多个表,每个表中得到记录解析为字段英文名、字段值的key:value格式,而现有技术是web平台展示的,如上述图1所示。

例如,s0001、s0002分别为1号样本、2号样本的样本编号,由于病案编号中的住院号、psn、vsn都很长不好标识,所以将病案编号与样本编号一一对应起来,是从业务数据到程序化的一个过程,这样可以对病案编号起简化作用。在下面的比对环节,1号样本比对结果就是s0001的diff,这样比较简洁。

需要说明的是,现有技术中被抽取完成的病案数据以页面表格形式展现,描述的是现有数据质控平台提供的功能,功能会按业务角度术语来描述。而本发明实施例中,用的是非业务功能描述用语,用是纯数据角度。

在步骤s430中,根据输入的目标样本编号在第一基础数据版本上自动抽取,获得基础待检样本。

在步骤s440中,根据所述基础待检样本生成所述相应标准样板。

在步骤s450中,根据输入的所述目标样本编号在第一非基础数据版本上自动抽取,获得当前待检样本。

在示例性实施例中,所述第一非基础数据版本和所述第一基础数据版本对应数据结构的同一版本。

本发明实施例中,业务数据不是静止的,根据业务数据不断更新或者数据结构升级,会不断有新的批次,即生成新版本数据作为非基础数据版本。

在步骤s460中,将所述当前待检样本与数据库中存储的相应标准样板进行自动比对,获得所述当前待检样本与所述相应标准样板之间的差异结果。

在步骤s470中,根据配置的指标参数对所述差异结果进行自动评测,获得所述当前待检样本的评测结果。

其中,上述步骤s430-470可以参考上述图3所示实施例的步骤s310-350。

图5示出根据本公开再一示例性实施例的数据测试方法的流程图。

如图5所示,本发明实施方式提供的数据测试方法可以包括以下步骤。

在步骤s510中,以个体采样法选择真实病案集,被选中的病案以唯一的样本编号进行识别。

在步骤s520中,输入样本编号,触发自动化程序在某个基础数据版本上进行样本抽取。

在步骤s530中,抽取成功后得到的待检样本,进行纸质病例记录的全量核对。

在步骤s540中,判断步骤s530获得的待检样本是否合格;若步骤s530获得的待检样本合格,则进入步骤s560;反之,则进入步骤s550。

在步骤s550中,若步骤s530获得的待检样本经过与纸质病例记录的全量核对为不合格,则将步骤s530获得的待检样本与所述纸质病例记录的差异反馈给数据生产部门进行追溯定位,对问题进行修复,然后继续回到步骤s540判断修复后的样本是否合格,循环执行上述步骤s540和s550直至获得合格样本。

具体的,抽取成功后得到的待检样本,先进行纸质病例记录的全量核对,如果样本不合格则人工将差异反馈给数据生产部门进行追溯定位,直至问题修复可得到合格样本为止。合格样本将作为标准样板经自动化程序存储到数据库中。

本发明实施例中,全量数据的质量,包括但不限于:完整性(包括记录级、字段基本)、规范性(命名违规、空值、非标准);在内容质控上,一般会对照医院原始纸质病案或电子病案的记录,与从大数据库抽出的对应样本数据做比对,检查数据处理是否有严重的质量缺陷。

本发明实施例中,样本合格与不合格是根据测试人员的测试用例或者经验来判断,例如,主键字段为空了,那肯定是有问题;有的例如科室名称变化,可能是正常的,就不是问题。若判断数据是有问题的,不能交付。则由数据生产工程师定位修复,重新生成新的批次数据库,然后再抽样本,检查。

在步骤s560中,将上述步骤获得的合格样本作为标准样板经自动化程序存储到数据库中。

在步骤s570中,输入与上述步骤s520相同的样本编号,在其他数据版本上触发自动化程序进行样本抽取,得到待检样本。

在步骤s580中,触发自动化程序将步骤s570中的待检样本与所述数据库存储的标准样板进行比对,输出差异结果。

本发明实施例中,所述差异结果可能包括:表级别差异,按表名对比;表结构差异,字段级别,缺字段或者新增字段;值差异,字段名一样,值不同。

例如,新版本数据抽取完成的病案数据与基本版本抽取完成的病案数据中的标准样板key:value数据直接diff比对,先比key,key相同再比value,找出差异的部分。

在步骤s590中,所述差异结果可以做定性或定量的分析,把定性或定量的指标参数配置到评测程序中,可直接输出对应的指标评测结果,可用于质量评估或质量分级。

本发明实施方式提供的数据测试方法,是一种基于真实病案个体采样的样本比对自动化检测方法,通过对核定的标准样板进行储存,配合自动化比对检测程序,替代人工检测的重复过程,自动化提升数据采样法的检测执行效率,避免人为错漏对检测结果的主观影响,灵活机动性强,降低时间成本和人力成本,促进质量指标化度量。

图6示出根据本公开一示例性实施例的数据测试方法的示意图。

如图6所示,首先,采用个体采样法选择真实病案,输出被选择的病案的病案编号。

然后,根据所述病案编号可以查询到数据库中对应的病人编号和就诊编号。

根据查询到的病人编号和就诊编号可以在数据版本上自动抽取样本,从而输出待检样本。

判断上述获得的待检样本是否在基础数据版本上确定标准样板;若是,则核对待检样本与纸质病例记录,判断待检样本与纸质病例记录的核对结果是否通过;若为通过,则将合格的样本作为标准样板存储到数据库;若为没通过,则返回到上述数据版本上自动抽取样本步骤,继续进行样本抽取,重新获得新的待检样本。

若自动抽取的待检样本不为基础数据版本上确定标准样板,则将获得的待检样本与数据库中存储的标准样板进行自动比对检测,输出待检样本与标准样板之间的差异结果。

对所述差异结果根据配置的定性或定量指标参数进行自动评测,输出评测结果。

本发明实施方式提供的数据测试方法,对一个病案来说,在一个基础版本上抽出与之对应的生产数据样品,数据样品合格后即作为标准样板存入数据库系统留存,人工只需要做确定标准样板相关的核对工作,后续新版本生成完成后再做同编号的病案数据抽样,可以直接拿留存的标准样板做比对检测。抽取、存库、检测三个环节自动化,且不依赖原有数据质量检测平台,大大降低了人工核对的重复劳动并消除人为错误,纸质档案有了电子信息化备份便于集中管理和获取,可随时更换病案编号在不同数据版本上即抽即检而不再受固化流程的限制。

需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

图7示出了根据本公开另一示例性实施例的数据测试装置700的框图。

如图7所述,数据测试装置700可以包括:样本抽取模块710、自动比对模块720以及自动评测模块730。其中:

样本抽取模块710可以配置为根据输入的目标样本编号在第一非基础数据版本上自动抽取,获得当前待检样本。

自动比对模块720可以配置为将所述当前待检样本与数据库中存储的相应标准样板进行自动比对,获得所述当前待检样本与所述相应标准样板之间的差异结果。

自动评测模块730可以配置为根据配置的指标参数对所述差异结果进行自动评测,获得所述当前待检样本的评测结果。

在示例性实施例中,数据测试装置700还可以包括:基础待检样本获得模块,可以配置为根据输入的所述目标样本编号在第一基础数据版本上自动抽取,获得基础待检样本;标准样板生成模块,可以配置为根据所述基础待检样本生成所述相应标准样板;其中,所述第一非基础数据版本和所述第一基础数据版本对应数据结构的同一版本。

在示例性实施例中,所述标准样板生成模块可以进一步包括:样本核对单元,可以配置为将所述基础待检样本与相应的纸质病例进行核对;样板存储单元,可以配置为若核对通过,则将所述基础待检样本作为所述相应标准样板自动存储至所述数据库。

在示例性实施例中,数据测试装置700还可以包括:病案集选择模块,可以配置为以个体采样法选择病案集;病案标识模块,可以配置为被选择的病案集中的病案以唯一的样本编号进行标识。

在示例性实施例中,每个样本编号对应唯一的病案编号,所述病案编号对应一对病人编号和就诊编号。

在示例性实施例中,所述差异结果可以包括表级别差异、表结构差异和字段值差异等中的任意一种或者多种。

在示例性实施例中,所述指标参数可以包括定性和/或定量指标参数。

在示例性实施例中,数据测试装置700还可以包括:数据结构升级模块,可以配置为升级所述数据结构的版本,生成第二基础数据版本。

在示例性实施例中,数据测试装置700还可以包括:数据更新模块,可以配置为更新业务数据,生成第二非基础数据版本;其中,所述第二非基础数据版本和所述第二基础数据版本对应所述数据结构的同一版本。

由于本公开的示例实施例的数据测试装置700的各个功能模块与上述数据测试方法的示例实施例的步骤对应,因此在此不再赘述。

应当注意,尽管在上文详细描述中提及了数据测试装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1