提高医疗等级型数据矫正效率的方法、系统及存储介质

文档序号：24975008发布日期：2021-05-07 22:47阅读：113来源：国知局

本发明属于数据处理技术领域，具体涉及一种提高医疗等级型数据矫正效率的方法、系统及存储介质。

背景技术：

近年来，医疗卫生信息化建设速度不断加快，医疗数据迅猛增长。由于信息标准不一、数据结构不一、信息录入缺乏质控等原因,产生了大量的“脏数据”,这些数据给健康医疗大数据信息关联和挖掘分析造成了障碍。必须健康医疗数据进行系统性的数据治理,提高数据的质量。基于经过数据治理后形成的标准化数据集，运用大数据分析挖掘的方法，才能真正发现数据中隐藏的价值规律。而医疗大数据体量巨大，仅靠人工核对、矫正数据会消耗大量财力，时间和人力，也无法保证结果的准确性，会极大的增加了数据治理和应用的成本。

技术实现要素：

本发明解决的目的在于，提供一种提高医疗等级型数据矫正效率的方法、系统及存储介质，对医疗数据中的等级型变量数据进行统计分析，找出异常数据并进行矫正，降低数据治理的成本，提高数据治理的效率。

本发明提供一种提高医疗等级型数据矫正效率的方法，包括以下步骤：

从多个医疗机构的医疗数据中，提取待分析的等级型指标的等级数据；

统计总体数据和待分析机构中该指标的等级和各等级的数量；等级包括肯定性等级、否定性等级和可疑性等级；

对总体数据和该机构中的该指标的等级，利用以下3种归类方法进行归类：

①去掉可疑性等级，计算肯定性等级、否定性等级的占比；

②将可疑性等级归入肯定性等级，计算归入后肯定性等级、否定性等级的占比；

③将可疑性等级归入否定性等级，计算肯定性等级、归入后否定性等级的占比；

计算这3种归类方法下，该指标在总体数据和该机构中的归类占比；

在每种归类方法下，利用卡方检验，判断该机构的等级数据与总体数据是否存在显著性差异；每有一种归类方法存在显著性差异，则该机构累加1分；

统计该机构的总分数；根据总分数判断该等级型指标的等级数据是否异常，并对异常数据进行数据矫正。

进一步地，若该指标仅包括肯定性等级和否定性等级，则直接利用卡方检验，判断该机构的等级数据与总体数据是否存在显著性差异；若是，则该机构的该等级型指标的数据异常的可能性高。

进一步地，计算该指标下各机构的总分数。

进一步地，最后利用柱状图或雷达图的方法，将该指标下总体数据中各等级数据和各机构的各等级数据可视化，辅助查找异常数据。

进一步地，从多个机构的医疗数据中，并行提取待分析的等级型指标的等级数据，并行计算归类占比。

本发明还提供一种用于实现上述提高医疗等级型数据矫正效率的方法的提高医疗等级型数据矫正效率的系统，包括：

数据提取模块，用于从多个医疗机构的医疗数据中，提取待分析的等级型指标的等级数据；

等级统计模块，用于统计总体数据和待分析机构中该指标的等级和各等级的数量；等级包括肯定性等级、否定性等级和可疑性等级；

等级归类模块，用于对总体数据和该机构中的该指标的等级，利用以下3种归类方法进行归类：

①去掉可疑性等级，计算肯定性等级、否定性等级的占比；

②将可疑性等级归入肯定性等级，计算归入后肯定性等级、否定性等级的占比；

③将可疑性等级归入否定性等级，计算肯定性等级、归入后否定性等级的占比；

归类占比模块，用于计算这3种归类方法下，该指标在总体数据和该机构中的归类占比；

卡方检验模块，用于在每种归类方法下，利用卡方检验，判断该机构的等级数据与总体数据是否存在显著性差异；每有一种归类方法存在显著性差异，则该机构累加1分；

计分统计模块，用于统计该机构的总分数；根据总分数判断该等级型指标的等级数据是否异常，并对异常数据进行数据矫正。

进一步地，还包括可视化模块，用于利用柱状图或雷达图的方法，将该指标下总体数据中各等级数据和该机构的各等级数据可视化，辅助查找异常数据。

本发明还提供一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行上述的提高医疗等级型数据矫正效率的方法。

本发明的有益效果是：本发明的提高医疗等级型数据矫正效率的方法、系统及存储介质，可解决海量医疗数据清洗中等级型数据的质量的评估和错误的智能侦测及矫正，有效降低数据治理的成本，提高健康医疗数据治理的效率和准确度。

进一步地，计算该指标下各机构的总分数，可以通过比较各机构的总分数来快速查找数据异常的机构，对并异常数据进行矫正。

进一步地，提供可视分析结果，辅助查找异常数据，分数和可视化结果相结合，提高查找的准确率，同时可以迅速、直观地确认问题数据。

附图说明

图1是本发明的提高医疗等级型数据矫正效率的方法流程图。

图2是本发明的3种归类方法示意图。

图3是本发明的可视化结果示意图。

图4是本发明的提高医疗等级型数据矫正效率的系统示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明：

本发明的提高医疗等级型数据矫正效率的方法、系统及存储介质，可解决海量医疗数据清洗中等级型数据的质量的评估和错误的智能侦测，有效降低数据治理的成本，提高健康医疗数据治理的效率和准确度。

本发明实施例的提高医疗等级型数据矫正效率的方法，如图1所示，包括以下步骤：

s1、从多个医疗机构的医疗数据中，提取待分析的等级型指标的等级数据。

将获取的健康医疗数据切割成若干个小数据集，通过正则匹配的方式，并行从数据集中提取等级型的指标，如iii型前胶原n端肽_等级，统计出每个等级型指标在每个机构中的非空值的数量，及在上一步中的小数据集编号，并将此信息作为检索信息以便复查溯源使用。

s2、统计总体数据和待分析机构中该指标的等级和各等级的数量；等级包括肯定性等级、否定性等级和可疑性等级。

假设待分析的等级型指标在a机构中分为：阴性、弱阳性、阳性、强阳性和强强阳性，在b机构中分为：阴性、弱阳性、阳性、强阳性、强强阳性和强强强阳性；其中，阳性、强阳性、强强阳性和强强强阳性均为肯定性等级，阴性为否定性等级，而弱阳性是指在检查中出现的可能性，还无法完全确定，需要再次检查以确定，因此属于可疑性等级。需要说明的是，肯定性等级和否定性等级是相对的，若将阳性、强阳性、强强阳性和强强强阳性分为否定性等级，则阴性为肯定性等级。

此外，等级型指标也可以是其他的等级型分类，例如耳部、眼睛等检查结果包括：不正常、未见明显异常、正常；其中不正常可划分为否定性数据，未见明显异常划分为可疑性等级，正常划分为肯定性等级。

s3、对总体数据和该机构中的该指标的等级，利用以下3种归类方法进行归类：

①去掉可疑性等级，计算肯定性等级、否定性等级的占比；

②将可疑性等级归入肯定性等级，计算归入后肯定性等级、否定性等级的占比；

③将可疑性等级归入否定性等级，计算肯定性等级、归入后否定性等级的占比。

由于弱阳性这一类等级属于可疑性等级，因此在分析的时候，需要将可疑性等级进行归类。如图2所示，以待分析机构的待分析指标等级为阴性(等级1)、弱阳性(等级2)、阳性(等级3)、强阳性(等级4)、强强阳性(等级5)和强强强阳性(等级6)为例，对上述3种归类方法进行说明：

①去掉可疑性等级-弱阳性(等级2)。此时，肯定性等级包括：等级3，4，5，6(阳性、强阳性、强强阳性、强强强阳性)，否定性等级包括：等级1(阴性)。然后统计出肯定性等级(等级3，4，5，6)一共多少个，记为typeia；统计出否定性等级(等级1)有多少个，记为typeiiia，最后算出typeia和typeiiia的占比。

②将可疑性等级-弱阳性(等级2)，归入肯定性等级。此时，肯定性等级包括：等级2，3，4，5，6(弱阳性、阳性、强阳性、强强阳性、强强强阳性)，否定性等级包括：等级1(阴性)。然后统计出归入后肯定性等级(等级2，3，4，5，6)有多少个，记为typeib，统计出否定性等级(等级1)有多少个，记为typeiiib，最后算出typeib和typeiiib的占比。

③将可疑性等级-弱阳性(等级2)，归入否定性等级。此时，肯定性等级包括：等级3，4，5，6(阳性、强阳性、强强阳性、强强强阳性)，否定性等级包括：等级1，2(阴性、弱阳性)。然后统计出肯定性等级(等级3，4，5，6)一共多少个，记为typeic；统计出否定性等级(等级1，2)有多少个，记为typeiiic，最后算出typeic和typeiiic的占比。

需要说明的是，当等级型指标的等级中不含有可疑性等级-弱阳性时，也可以用上述归类方法进行归类，只是由于可疑性等级数量为0，故3种归类方法计算的归类占比相同。

s4、计算这3种归类方法下，该指标在该机构中的归类占比，如上所述；同时，计算出该指标在总体数据中的归类占比：typea，typeb，typec。

s5、在每种归类方法下，利用卡方检验，判断该机构的等级数据与总体数据是否存在显著性差异；每有一种归类方法存在显著性差异，则该机构累加1分。

例如，在第一种归类方法下，利用卡方检验，比较该机构的等级数据与总体数据的typea，typeb，typec是否有显著性差异；每出现一处显著性差异，就记1分。

s6、统计该机构的总分数；总分为0-3分，该机构的分数越高，数据差异的可能性越高，由此根据总分数判断该等级型指标的等级数据是否异常，并对异常数据进行数据矫正。

进一步地，若该指标仅包括肯定性等级和否定性等级，则不再进行归类，直接利用卡方检验，判断该机构的等级数据与总体数据是否存在显著性差异；若是，则该机构的该等级型指标的数据异常的可能性高。

进一步地，计算该指标下各机构的总分数，可以通过比较各机构的总分数来快速查找数据异常的机构。

此外，还利用柱状图或雷达图的方法，将该指标下总体数据中各等级数据和各机构的各等级数据可视化，辅助查找异常数据。如图3所示，柱状图表示每等级的比例，右侧雷达图的type1_rate＝等级1数量占等级1到6总数量的比值。

雷达图可以一目了然不同机构分布的差异。机构43-01的数据分布比例和其他机构存在明显差异。在此情况下，可以结合左图数据量，估计问题原因，溯源原始数据确认。机构43-01数据量小，对全数据分布影响程度有限，因此判断是机构43-01的数据存在问题的可能性较大，有限查看43-01的原始数据。

经过600万真实世界数据，4507项待合并等级型指标测试，本方法的准确度达97.54％。

本发明还提供一种用于实现上述提高医疗等级型数据矫正效率的方法的提高医疗等级型数据矫正效率的系统，如图4所示，包括：

数据提取模块101，用于从多个医疗机构的医疗数据中，提取待分析的等级型指标的等级数据；

等级统计模块102，用于统计总体数据和待分析机构中该指标的等级和各等级的数量；等级包括肯定性等级、否定性等级和可疑性等级；

等级归类模块103，用于对总体数据和该机构中的该指标的等级，利用以下3种归类方法进行归类：

①去掉可疑性等级，计算肯定性等级、否定性等级的占比；

②将可疑性等级归入肯定性等级，计算归入后肯定性等级、否定性等级的占比；

③将可疑性等级归入否定性等级，计算肯定性等级、归入后否定性等级的占比；

归类占比模块104，用于计算这3种归类方法下，该指标在总体数据和该机构中的归类占比；

卡方检验模块105，用于在每种归类方法下，利用卡方检验，判断该机构的等级数据与总体数据是否存在显著性差异；每有一种归类方法存在显著性差异，则该机构累加1分；

记分矫正模块106，用于统计该机构的总分数；根据总分数判断该等级型指标的等级数据是否异常，并对异常数据进行数据矫正。

进一步地，还包括可视化模块107，用于利用柱状图或雷达图的方法，将该指标下总体数据中各等级数据和该机构的各等级数据可视化，辅助查找异常数据。

本发明还提供一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行上述的提高医疗等级型数据矫正效率的方法。

本发明解决了健康医疗数据数据标准统一时的质量控制问题，填补了数据治理领域等级型系统误差检测的空白。本方法可智能侦测等级型数据合并过程中潜在的数据质量问题，并提供可视分析结果，迅速确认问题数据更正方案。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李红良;柳叶茂;黄学伟
技术所有人：武汉大学
我是此专利的发明人

上一篇：一种多次循环的涂料除杂设备的制作方法
上一篇：一种电控分体单体泵的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。