一种健康医疗大数据合并后冲突项的检查与校正方法

文档序号:24984897发布日期:2021-05-07 23:02阅读:113来源:国知局
一种健康医疗大数据合并后冲突项的检查与校正方法
本发明涉及医疗大数据的治理和数据合并
技术领域
,尤其涉及一种健康医疗大数据合并后冲突项的检查与校正方法。
背景技术
:当前,健康大数据规模急剧剧增,数据体量巨大,数据类型繁多,数据质量参差不齐。如何提高数据质量问题成为大数据时代的重中之重任务。数据内在的冲突作为其中一大数据质量问题,已经成为大数据整合的一大难点。由于数据生产源头激增,产生的数据来源众多,结构各异,以及系统更新升级加快和应用技术更新换代频繁,使得不同的数据源之间、相同的数据源之间都可能存在着冲突、不一致或相互矛盾的现象,再加上数据收集与集成往往由多个团队协作完成,期间增大了数据处理过程中产生问题数据的概率。介于数据质量的提升仍需要时间,而当前已经暴露的数据冲突仍无规范解决流程,我国健康医疗大数据的整合仍困难重重。当面机构面临健康医疗大数据整合过程中出现的冲突解决方法不一,导致同一数据源数据经过不同数据治理流程可能会产生不同的数据结果,这将大大影响数据后期分析。因此本发明将提供一种规范的数据冲突检查和校正流程,这将为当前亟需解决的数据冲突矛盾带来统一处理方法,也为未来健康医疗大数据治理后质量的提升奠定基础。技术实现要素:本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种健康医疗大数据合并后冲突项的检查与校正方法。本发明解决其技术问题所采用的技术方案是:本发明提供一种健康医疗大数据合并后冲突项的检查与校正方法,该方法包括以下步骤:步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,健康体检数据的数据结构包括:一列体检编号、多列体检指标,基于体检编号和体检指标名称进行健康体检数据的比较合并;步骤2、判断待合并的健康体检数据的数据类型;若为文本数据,则直接合并数据;若为计量数据,则对有多个体检编号的计量数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的计量冲突项,并输出计量冲突项;若为等级数据,则对有多个体检编号的等级数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的等级冲突项,并输出等级冲突项;步骤3、对合并后的文本数据、冲突校正后的计量数据、冲突校正后的等级数据进行汇集整合处理,输出检查与校正后的标准健康数据。进一步地,本发明的所述步骤1中健康体检数据的数据结构包括:一列体检编号、多列体检指标。进一步地,本发明的所述步骤2中判断计量冲突项,并输出计量冲突项,其具体方法为:准备待合并的计量资料数据,算法将判断计量数据的列名中是否有多个体检编号;如果有多个体检编号,则将判断体检编号是否一致;如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;接下来算法提取所有体检指标,对这些体检指标去重,依次循环这些体检指标,判断这些体检指标在计量数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的体检编号,将这些人群的相同指标值进行内容进行判断:如果有重复指标,则去重并取其一作为该指标值;如果其中之一为空值,另一个为非空值,取非空值作为该指标值;如果二者指标值冲突,则将其指标值清空,在质检表中存储该机构名称、对应列号、冲突计量指标、冲突计量指标对应的原始数据的列号、冲突计量指标对应的内容;如果无重复指标,则取该计量指标值作为该值;直到该人群循环处理完毕;直到该体检指标循环处理完毕;最后,将存储合并后的计量数据和计量冲突列表进行输出即可。进一步地,本发明的所述步骤2中判断等级冲突项,并输出等级冲突项,其具体方法为:准备待合并的等级资料数据,算法将判断等级数据的列名中是否有多个体检编号,如果有多个体检编号,则将判断体检编号是否一致,如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;接下来算法提取所有体检指标,对这体检些指标去重,依次循环这些体检指标,判断这些指标在等级数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的体检编号,将这些人群的相同指标值进行内容进行判断:如果有重复指标,则去重取其一作为该指标值;如果其中之一为空值,另一个为非空值,取非空值作为该指标值;如果二者指标值冲突,则将其指标值清空,在质检表中存储该机构名称,对应列号,冲突等级指标,冲突等级指标对应的原始数据的列号,冲突等级指标对应的内容;如果无重复指标,则取该等级指标值作为该值;直到该人群循环处理完毕;直到该指标循环处理完毕。最后,将存储合并后的等级数据和等级冲突列表进行输出即可。本发明产生的有益效果是:本发明的健康医疗大数据合并后冲突项的检查与校正方法,提供一种规范的数据冲突检查和校正流程方法,为当前亟需解决的数据冲突矛盾带来统一处理方法,也为未来健康医疗大数据治理后质量的提升奠定基础;本发明的方法能最大程度上保证原始数据的真实有效,提高了健康大数据的数据质量。附图说明下面将结合附图及实施例对本发明作进一步说明,附图中:图1是本发明实施例的方法流程图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图1所示,本发明实施例的健康医疗大数据合并后冲突项的检查与校正方法,该方法包括以下步骤:步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,健康体检数据的数据结构包括:一列体检编号、多列体检指标,基于体检编号和体检指标名称进行健康体检数据的比较合并;步骤1中提取的健康体检数据,其数据结构为:步骤1中基于体检编号和体检指标名称进行健康体检数据的比较合并,其合并后的数据结构为:其中,||||表示合并操作。读取待合并的三类数据入程序,根据体检编号列及指标名称列进行数据的合并,如表1所示。文本数据直接合并输出。计量、等级资料分别合并并输出冲突项,如表2所示。表1待合并数据表2计量数据合并冲突项输出结果及校正体检编号列名列号指标形态校正形态818239身高_计量3||||969||||1681688186622身高_计量3||||963||||1631638187386身高_计量3||||938||||1591598196739身高_计量3||||965||||1651658203602身高_计量3||||952||||1591598205768身高_计量3||||973||||1751758205927身高_计量3||||973||||1751758211112身高_计量3||||960||||1701708212331身高_计量3||||977||||1781788215131身高_计量3||||965||||1721728215915身高_计量3||||969||||1891898233867身高_计量3||||995||||182182步骤2、判断待合并的健康体检数据的数据类型;若为文本数据,则直接合并数据;若为计量数据,则对有多个体检编号的计量数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的计量冲突项,并输出计量冲突项;若为等级数据,则对有多个体检编号的等级数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的等级冲突项,并输出等级冲突项;步骤2中判断计量冲突项,并输出计量冲突项,其具体方法为:准备待合并的计量资料数据,算法将判断计量数据的列名中是否有多个体检编号;如果有多个体检编号,则将判断体检编号是否一致;如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;接下来算法提取所有体检指标,对这些体检指标去重,依次循环这些体检指标,判断这些体检指标在计量数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的体检编号,将这些人群的相同指标值进行内容进行判断:如果有重复指标,则去重并取其一作为该指标值;如果其中之一为空值,另一个为非空值,取非空值作为该指标值;如果二者指标值冲突,则将其指标值清空,在质检表中存储该机构名称、对应列号、冲突计量指标、冲突计量指标对应的原始数据的列号、冲突计量指标对应的内容;如果无重复指标,则取该计量指标值作为该值;直到该人群循环处理完毕;直到该体检指标循环处理完毕;最后,将存储合并后的计量数据和计量冲突列表进行输出即可。合并计量数据示例:计量冲突示例:步骤2中判断等级冲突项,并输出等级冲突项,其具体方法为:准备待合并的等级资料数据,算法将判断等级数据的列名中是否有多个体检编号,如果有多个体检编号,则将判断体检编号是否一致,如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;接下来算法提取所有体检指标,对这体检些指标去重,依次循环这些体检指标,判断这些指标在等级数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的体检编号,将这些人群的相同指标值进行内容进行判断:如果有重复指标,则去重取其一作为该指标值;如果其中之一为空值,另一个为非空值,取非空值作为该指标值;如果二者指标值冲突,则将其指标值清空,在质检表中存储该机构名称,对应列号,冲突等级指标,冲突等级指标对应的原始数据的列号,冲突等级指标对应的内容;如果无重复指标,则取该等级指标值作为该值;直到该人群循环处理完毕;直到该指标循环处理完毕。最后,将存储合并后的等级数据和等级冲突列表进行输出即可。合并计量数据示例等级冲突列表示例将校正冲突项结果根据指标名称和体检编号进行还原校正,如表3所示。表3计量数据冲突项校正项还原步骤3、对合并后的文本数据、冲突校正后的计量数据、冲突校正后的等级数据进行汇集整合处理,输出检查与校正后的标准健康数据。步骤3中输出检查与输出的冲突列表的校正后合并整理的标准健康数据,其数据结构具体为:如表4所示。表4整合的标准健康数据应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1