提高医疗数值型数据矫正效率的方法、系统及存储介质

文档序号:24975011发布日期:2021-05-07 22:47阅读:78来源:国知局
提高医疗数值型数据矫正效率的方法、系统及存储介质

本发明属于数据处理技术领域,具体涉及一种提高医疗数值型数据矫正效率的方法、系统及存储介质。



背景技术:

近年来,医疗卫生信息化建设速度不断加快,医疗数据迅猛增长,数据开放共享趋势显著,数据的管理与应用面临着新的挑战和机会。医疗机构的医疗数据不可避免地存在数据缺失、数据错误、多机构数据标准不一致等问题。数据治理是对医疗行业数据质量控制、数据应用能力提升的有效方法。健康医疗数据的数据量巨大,人工一一核对、矫正、标化数据会消耗大量财力,时间和人力,也无法保证结果的准确性。这极大的增加了数据治理和数据应用的成本。



技术实现要素:

本发明的目的在于,提供一种提高医疗数值型数据矫正效率的方法、系统及存储介质,对医疗数据中的数值型变量数据进行统计分析,找出异常数据并进行数据矫正,降低数据治理的成本,提高数据治理的效率。

本发明提供一种提高医疗数值型数据矫正效率的方法,包括以下步骤:

从多个医疗机构的医疗数据中,提取待分析的数值型指标的数值数据;

计算总体数据中该指标的统计量和待分析机构中该指标的统计量;统计量包括均值、中位数、标准差、第一四分位数和第二四分位数;

计算该机构的各个统计量与总体数据中同类型的统计量的差异比;

设置多个差异比阈值,将该机构的各个统计量的差异比与每一个差异比阈值进行比较;每有一个统计量的差异比超过其中一个差异比阈值,则该机构累加1票;

计算该指标下该机构的总票数;根据总票数判断该数值型指标的数值数据是否异常,并对异常数据进行数据矫正。

进一步地,在计算总票数之前,对该指标的总体数据进行正态检验,判断该指标的总体数据是否符合正态分布;

若是,则将该指标下该机构中的数据与总体数据进行t检验,得到第一p值;若否,则进行非参数检验,得到第二p值;

判断得到的p值是否小于预设阈值;若是,则该机构累加1票。

进一步地,计算该指标下各机构的总票数。

进一步地,最后利用箱线图或密度图的方法,将该指标下各机构的数据和总体数据可视化,辅助查找异常数据。

进一步地,统计量的差异比k的计算公式如下:

k=|tmp-all|/all

式中,tmp表示机构中该指标的统计量,all表示总体数据中该指标的统计量。

进一步地,从多个机构的医疗数据中,并行提取待分析的数值型指标的数值数据,并行计算总体数据中该指标的统计量和待分析机构中该指标的统计量。

本发明还提供一种用于实现上述提高医疗数值型数据矫正效率的方法的提高医疗数值型数据矫正效率的系统,包括:

数据提取模块,用于从多个医疗机构的医疗数据中,提取待分析的数值型指标的数值数据;

统计量模块,用于计算总体数据中该指标的统计量和待分析机构中该指标的统计量;统计量包括均值、中位数、标准差、第一四分位数和第二四分位数;

差异比模块,用于计算该机构的各个统计量与总体数据中同类型的统计量的差异比;

第一投票模块,用于设置多个差异比阈值,将该机构的各个统计量的差异比与每一个差异比阈值进行比较;每有一个统计量的差异比超过其中一个差异比阈值,则该机构累加1票;

计票矫正模块,用于计算该指标下该机构的总票数;根据总票数判断该数值型指标的数值数据是否异常,并对异常数据进行数据矫正。

进一步地,该系统还包括:第二投票模块,用于对该指标的总体数据进行正态检验,判断该指标的总体数据是否符合正态分布;

若是,则将该指标下该机构中的数据与总体数据进行t检验,得到第一p值;若否,则进行非参数检验,得到第二p值;

判断得到的p值是否小于预设阈值;若是,则该机构累加1票。

本发明还提供一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行上述的提高医疗数值型数据矫正效率的方法。

本发明的有益效果是:本发明的提高医疗数值型数据矫正效率的方法、系统及存储介质,解决了健康医疗数据数据标准统一时的质量控制问题,填补了数据治理领域数值型系统误差检测的空白;可侦测数值型数据合并过程中潜在的数据质量问题,帮助找出异常数据并进行矫正,降低数据治理的成本,提高数据治理的效率。

进一步地,设置多个差异比阈值,提高准确率;计算该指标下各机构的总票数,可以通过比较各机构的总票数来快速查找数据异常的机构。

进一步地,提供可视分析结果,辅助查找异常数据,投票票数和可视化结果相结合,提高查找的准确率,同时可以迅速、直观地确认问题数据。

附图说明

图1是本发明的提高医疗数值型数据矫正效率的方法流程图。

图2是本发明的差异比投票示意图。

图3是本发明的可视化结果示意图。

图4是本发明的提高医疗数值型数据矫正效率的系统示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明:

本发明解决了健康医疗数据数据标准统一时的质量控制问题,填补了数据治理领域数值型系统误差检测的空白。本方法可智能侦测数值型数据合并过程中潜在的数据质量问题,并提供可视分析结果,可以迅速确认问题数据,有效提高健康医疗数据治理的效率和准确度。

本发明实施例的提高医疗数值型数据矫正效率的方法,如图1所示,包括以下步骤:

s1、从多个医疗机构的医疗数据中,提取待分析的数值型指标的数值数据。

将获取的健康医疗数据切割成若干个小数据集,通过正则匹配的方式,从各表中并行抓取列名中含有“xx_计量”的指标列名,如:舒张压_计量,收缩压_计量等,并统计出xx_计量来自哪家机构,具体的数值以及数量,并将此信息作为检索信息以便后续复查溯源使用。

s2、计算总体数据中该指标的统计量和待分析机构中该指标的统计量;统计量包括均值、中位数、标准差、第一四分位数和第二四分位数。

对该指标的数据进行统计分析:1、计算出该指标在总体数据中的均值all_mean,中位数all_median,标准差all_sd,第一四分位数all_1st_qu,第三四分位数all_3rd_qu等。2、以每个机构为单位,计算出各机构中该指标的均值tmp_mean,中位数tmp_median,标准差tmp_sd,第一四分位数tmp_1st_qu,第三四分位数tmp_3rd_qu等。总体数据中该指标的统计量和待分析机构中该指标的统计量可以并行同时计算,节省时间。

s3、计算该机构的各个统计量与总体数据中同类型的统计量的差异比。

统计量的差异比k的计算公式如下:

k=|tmp-all|/all

式中,tmp表示机构中该指标的统计量,all表示总体数据中该指标的统计量。

以均值为例,其差异比计算公式为:|tmp_mean-all_mean|/all_mean。这样可以算出各个统计量:均值、中位数、标准差、第一四分位数和第二四分位数的差异比,差异比的计算可以并行进行。

s4、设置多个差异比阈值,将该机构的各个统计量的差异比与每一个差异比阈值进行比较;每有一个统计量的差异比超过其中一个差异比阈值,则该机构累加1票。若未超过,则加0票。

如图2所示,还可以设置多个差异比阈值,如:5%,10%,15%,20%等,然后将该机构的各个统计量的差异比与每一个差异比阈值进行比较;每有一个统计量的差异比超过其中一个差异比阈值,则该机构累加1票。多个差异比阈值会使计票结果更加可靠,假设均值差异比为12%,那么均值就会记2票,票数会反应数据的差异程度。各个统计量的差异比判断过程可以同时进行,最后将各个统计量的记票数相加即可。

s6、计算该指标下该机构的总票数;票数越高,数据错误概率越高,由此根据总票数判断该数值型指标的数值数据是否异常,并对异常数据进行数据矫正。

由于错误数据一般情况下是少数,因此,可以将各机构的数据与总体数据进行比较,即可找出哪个机构的数据是异常的。但是有一种例外,如某个机构的数据较多,而且该机构的数据是异常的。此时,根据该方法查找出的数据异常的机构,可能会出现误差。

进一步地,为了提高查找数据异常的机构的准确率,还可以设置另一投票方式:

对该指标的总体数据进行正态检验,判断该指标的总体数据是否符合正态分布;若是,则将该指标下该机构中的数据与总体数据进行t检验,得到第一p值;若否,则进行非参数检验,得到第二p值;

判断得到的p值是否小于预设阈值;若是,则该机构累加1票;若否,则加0票。该投票方式可与上述的投票方式相结合使用,并可设置不同的调节系数,即每种方式计算出来的票数乘以调节系数后再相加。

进一步地,计算该指标下各机构的总票数,此时以其他机构的票数作为对照,判断该机构的数据差异情况。为了使结果更加直观和准确,最后可以利用箱线图或密度图的方法,将该指标下各机构的数据和总体数据可视化,进而辅助查找异常数据。如图3所示,上方为各机构的数据量,左下方为箱线图,右下角为密度图。正常的数据的分布差别不大,异常数据分布会有显著区别。

若待分析指标下,某机构数据与整体分布差异明显:

1、该机构数据量占总体比例小且其他机构中该指标数据分布都一致,则该单位数据错误可能性较大;

2、待分析指标下,待分析机构数据量极大且与其他所有机构分布都不一致,那么大概率是该机构错误。这样就可以填补计票方法的那一种例外,即如某个机构的数据较多,而且该机构的数据是异常的,计票方法会出现误差。

本发明还提供一种用于实现上述提高医疗数值型数据矫正效率的方法的提高医疗数值型数据矫正效率的系统,如图4所示,包括:

数据提取模块101,用于从多个医疗机构的医疗数据中,提取待分析的数值型指标的数值数据;

统计量模块102,用于计算总体数据中该指标的统计量和待分析机构中该指标的统计量;统计量包括均值、中位数、标准差、第一四分位数和第二四分位数;

差异比模块103,用于计算该机构的各个统计量与总体数据中同类型的统计量的差异比;

第一投票模块104,用于设置多个差异比阈值,将该机构的各个统计量的差异比与每一个差异比阈值进行比较;每有一个统计量的差异比超过其中一个差异比阈值,则该机构累加1票;

计票矫正模块106,用于计算该指标下该机构的总票数;根据总票数判断该数值型指标的数值数据是否异常,并对异常数据进行数据矫正。

进一步地,该系统还包括第二投票模块105,用于对该指标的总体数据进行正态检验,判断该指标的总体数据是否符合正态分布;

若是,则将该指标下该机构中的数据与总体数据进行t检验,得到第一p值;若否,则进行非参数检验,得到第二p值;

判断得到的p值是否小于预设阈值;若是,则该机构累加1票。

本发明还提供一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行上述的提高医疗数值型数据矫正效率的方法。

本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1