一种计量信息类型的医疗数据的处理方法及装置

文档序号：24974999发布日期：2021-05-07 22:47阅读：101来源：国知局

本发明涉及医疗信息技术领域，尤其涉及一种计量信息类型的医疗数据的处理方法及装置。

背景技术：

随着信息技术的不断发展，医院的信息化程度逐渐提高，医疗数据的范围和规模也越来越大，如何有效地提取、存储、利用这些医疗数据已经成为一个越来越重要的问题。

目前医院中各科室使用的医疗系统是彼此独立运行的，分别管理着各自科室患者的医疗数据，同时，各医疗体系的架构、数据格式、编码标准可能不同，因此无法集成医院各医疗系统的医疗数据，实现医疗数据的结构化，这大大降低了医疗数据的利用率。尽管目前一些临床数据中心有一定的数据治理能力，但是仍然缺乏对医疗数据的专业性加工。所以在这样的大背景下，急需提高对医疗数据进行分类处理、加工的能力，以准确获取有效的医疗数据，提高医疗数据的利用率。

技术实现要素：

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种计量信息类型的医疗数据的处理方法及装置。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种计量信息类型的医疗数据的处理方法，该方法包括以下步骤：

获取医疗数据库中的计量信息，计量信息为医疗数据库中各医学指标下纯数值类型的数据；

对计量信息中的异常数据进行清洗后整合；

根据医疗机构检测仪器所对应的合法计量范围，对计量信息中的医疗指标进行多单位特征处理；

对同一医疗指标下的同一单位特征、同一合法计量范围标记的原始计量信息进行独立提取，形成独立数据集；

对独立数据集的计量信息进行转等级化信息处理；

对计量信息进行合并且对冲突进行校正；

对校正后计量信息进行统计分析，得到治理后计量信息。

进一步地，本发明的该方法中所述的获取医疗数据库中的计量信息，其具体方法为：

对从合作医疗机构中收集得到的计量信息添加特征标记，根据特征标记将计量信息从医疗数据库中提取出来，形成单独的计量信息数据库。

进一步地，本发明的该方法中所述的对计量信息添加特征标记的具体方法为：在列名标准化处理的过程中，为每一列计量信息附加特征标记，用于标记其数据类型。

进一步地，本发明的该方法中所述的异常数据具体为：

异常数据为医疗数据库中非纯数值类型的数据，包括纯文本的文本信息，纯等级的等级信息，无具体意义的不合法信息，以及上述任何一种或者几种类型信息与或不与数值类型信息组合在一起的混杂信息。

进一步地，本发明的该方法中所述的对计量信息中的指标进行多单位特征处理，其具体方法为：

根据同一医疗指标具有不同的合法计量范围，对同一医疗指标进行多合法计量范围的格式标准化；

根据该医疗指标下的计量信息分布在合法计量范围内所代表的不同医学意义对多合法计量范围添加相应的等级化特征；

标记为相同的合法计量范围的计量信息形成同一个单位特征，将单位特征添加至相应的医疗指标，使同一医疗指标具有多个单位特征；其具体算法包括：

1)根据国际性术语集对不同来源体检数据指标名称进行标准化并以此为基础建立自定义标准术语集，将前期清洗好的计量信息数据构建计量信息指标的标准分布数据库；

2)待清洗的数据经过算法的处理得到非纯数值形态的数据列表，通过算法进行正则匹配将非法的数值形态进行校正，得到纯的计量信息数据，同时，再根据自定义标准术语表给定的合法范围进行算法逻辑关系判断，将计量指标中小于参考值下限及大于参考值上限的内容清掉，得到合法范围内的计量资料的数据；

3)待确认的医疗计量数据与医学标准术语分布数据库进行相似性比较，同一家机构的数据的同一指标下的一整列数据根据原始机构给的参考范围数据表中对应的医学参考范围将数据进行提取，进而将这些提取的数据与标准术语库中对应的标准分布数据库的数据进行比较，统计二者的相关参数，令相关系数为r，二者的中位数分别为m1和m2，四分之一位数分别为a1和a2，四分之三位数分别为b1和b2，并通过统计的相关参数来计算权重值；权重值w的计算方法为：w＝r*10-(m1-m2)*3-(a1-a2)/a1*3-(b1-b2)/b1*3；接下来进行数据量总量形态频次统计的柱状图、数据分布的箱线图、数据的密度分布图展示及比较，算法根据权重值推荐最相似的标准术语库内的指标名称；如果待清洗的指标不存在与现有的标准分布数据库中，那么只进行该指标的分布展示，并计算相关参数，生成该指标的箱线图、密度分布图，并形成相关性统计结果及分布图；

4)得到对每一个指标下的同一单位下的指标数值产生的相关性统计结果及分布图后，根据权重值及分布形态推荐最终的计量资料指标名称及其相应的正确的参考范围，通过算法实现该待清洗计量指标的标准化，然后根据其医学参考范围转为颗粒度大的相应的等级形态的数据，根据转换规则，将该指标的数据转换为等级化后的形态：1表示偏低，2表示正常，3表示偏高，用于后续数据清洗；

5)将清洗好的计量信息数据根据相同的术语列进行合并，进行分布展示及系统误差质检。

进一步地，本发明的该方法中所述的对计量信息中的医疗指标进行多单位特征处理，其具体方法还包括生成a类映射表的方法：

根据医疗机构提供的某个医疗指标在不同检测方法和不同检测批次下的产生的该指标所对应的正常值范围，形成每一个计量信息的数值都有所对应的、判断其医学意义的规则表，即a类映射表，以对每一个计量信息的数值背后的医学意义进行标记；根据a类映射表，对该医疗指标下同一正常值范围标记的数值进行独立提取。

进一步地，本发明的该方法中所述的计量信息进行转等级化信息处理，其具体方法为：

根据等级化特征将原始计量信息转化为相应的等级化信息，然后将每一个独立数据集产生的等级化信息进行合并，最后使同一医疗指标下的同一单位特征的计量信息全部转化为等级信息。

进一步地，本发明的该方法中所述的对计量信息进行合并冲突校正，其具体方法为：

将所有同一医疗指标、同一单位特征下的独立数据集中的原始计量信息进行合并，将同一患者对应有两个或两个以上相同医疗指标、相同单位特征的计量信息标记为合并冲突，最后从合并冲突中选择唯一的、正确的计量信息。

进一步地，本发明的该方法中所述的对校正后计量信息进行统计分析，其具体方法为：

将校正后的计量信息与从其他合作医疗机构收集并清洗得来的同一指标、同一单位特征的计量信息一起进行系统误差核对，根据统计学领域的一致性定义，将不合格的计量信息进行标记，标记后的计量信息通过进一步校正，确认合格后得到治理后计量信息。

本发明提供一种计量信息类型的医疗数据的处理方装置，该装置包括以下模块：

读取模块，用于从收集得到的混杂资料类型的医疗数据中读取具有特征标记的计量信息；

异常数据清洗模块，用于从所述具有特征标记的计量信息中提取异常数据并进行清除；

多单位特征处理模块，用于对同一合法计量范围标记下的原始计量信息进行独立提取，使提取后的原始计量信息形成独立数据集；

转化模块，用于对独立数据集中的原始计量信息转化为相应的等级化信息；

合并模块，用于对独立数据集产生的等级化信息进行合并，以及对独立数据集产生的计量信息进行合并标记合并冲突；

统计分析模块，用于对校正后的计量信息系统误差核对，并对不合格的计量信息进行标记。

本发明产生的有益效果是：本发明的计量信息类型的医疗数据的处理方法及装置，能够增强对临床数据的治理能力，能够整合医院各科室患者的医疗数据，实现医疗数据的结构化；本发明能够提高对医疗数据进行分类处理、加工的能力，能准确获取有效的医疗数据，大大提高医疗数据的利用率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的原始医疗数据库中某一医学指标下的数据状态、对应的数据类型和医学意义；

图2是本发明实施例的计量类型信息的清洗示意图；

图3是本发明实施例的计量类型信息的总处理流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1和图2所示，本发明实施例的计量信息类型的医疗数据的处理方法，该方法包括以下步骤：

将原始医疗数据库中各医学指标下纯数值的数据标记为计量信息类型数据，其他类型的数据则根据数据定义规则被划分为其他类型的数据，如纯文本的文本信息，纯等级的等级信息和未检、未做等无意义的不合法信息；

根据上述分类原则将计量信息中混杂的等级信息、文本信息和不合法信息等其他信息类型剔除，同时，使它们进入自身对应的规范化数据处理流程，保留下来的纯计量类型信息则形成第二计量信息数据集，以提高计量信息类型数据的清洗准确度，并增加其他信息类型数据的利用率；

根据合作医疗机构提供的某个医疗指标在不同检测方法和不同检测批次下的产生的该指标所对应的正常值范围，形成每一个数值都有所对应的、判断其医学意义的规则表，即a类映射表，以对每一个数值背后的医学意义进行标记，增强对计量信息的解读的同时，方便后面根据其医学意义进行归一化处理，避免了由于数据本身所在的单位和正常值范围不同而造成的数据孤立，进一步提高计量信息类型数据的利用率。

根据a类映射表，对该医疗指标下同一正常值范围标记的数值进行独立提取，形成第三计量信息数据集；

将第三计量信息数据集中每一个数值根据它们所对应的医学意义，转化为同等医学意义的等级信息，形成第四独立数据集，方便后面对其进行合并处理；如图3所示，其中涉及的具体算法为：

1.参考国际性术语集meddra，通过meddra对各不同来源体检数据指标名称进行标准化并以此为基础建立自定义术语集(该标准术语库主要由标准术语、术语分类、术语的等级化标准、术语的合法值上下线、参考值上下线、术语参考资料；该标准术语库建立50大类、66详细分类，共计2226条计量标准术语)，将前期清洗好的计量资料数据构建计量资料指标的标准分布数据库(标准分布数据库是一个不断增补的过程，随着数据清洗的数据越多，这个库就越大，该标准分布数据库主要包括清洗后的1107个指标的数据，每个指标的数据存储格式如：血红蛋白_计量的标准分布数据库格式包括指标名称、血红蛋白_计量、性别_分类、年龄_计量，这表示的人群的血红蛋白的分布数据情况，用于后续待清洗数据人群对应指标的数据分布比较)；

2.待清洗的医疗指标数据经过算法的处理得到非纯数值形态的数据列表(eg.计量指标“身高_计量”的内容列中包含“165cm”，“180厘米”等非纯数值形态)，需要通过本发明开发的算法进行正则匹配(描述了一种字符串匹配的模式，判断非数值形态的则进行去掉)将非法的数值形态进行校正，得到纯的计量资料数据(eg.计量指标“身高_计量”的内容列中由原始的“165cm”，“180厘米”，校正为“165”，“180”等纯数值形态)，同时，再根据标准术语表给定的合法范围进行算法逻辑关系判断，将计量指标中大于小于参考值下线及大于参考值上线的内容清掉，得到范围合法范围的计量资料的数据；

3.待确认的医疗指标数据与医学标准术语分布数据库进行相似性比较，同一家机构的数据的同一指标下的一整列数据根据原始机构给的参考范围数据表中对应的医学参考范围将数据进行提取，进而将这些提取的数据与标准术语库中对应的标准分布数据库的数据进行比较，统计二者的相关参数，令相关系数为r，二者的中位数分别为m1和m2，四分之一位数分别为a1和a2，四分之三位数分别为b1和b2，并通过统计的相关参数来计算权重值；权重值w的计算方法为：w＝r*10-(m1-m2)*3-(a1-a2)/a1*3-(b1-b2)/b1*3。

接下来进行数据量总量形态频次统计的柱状图、数据分布的箱线图、数据的密度分布图展示及比较，算法根据权重值推荐最相似的标准术语库内的指标名称；如果待清洗的指标不存在与现有的标准分布数据库中，那么只进行该指标的分布展示，并计算相关参数，生成该指标的箱线图，密度分布图等，并形成相关性统计结果及分布图；

4.得到对每一个指标下的同一单位下的指标数值产生的相关性统计结果及分布图后，根据权重值及分布形态推荐最终的计量资料指标名称及其相应的正确的参考范围，通过算法实现该待清洗计量指标的标准化，然后根据其医学参考范围转为颗粒度大的相应的等级形态的数据(如血红蛋白_计量，正确的医学参考范围是120-175，需要转化为血红蛋白_等级，转换的规则是1:[0，120)||||2:[120，175]||||3:(175，+∞)，||||表示或者，根据转换规则，将该指标的数据转换为等级化后的形态：1(表示偏低)或者2(表示正常)或者3(表示偏高)，用于后续数据清洗；

5.将清洗好的计量数据根据相同的术语列进行合并，进行分布展示及系统误差质检，计量资料的系统误差校正主要用于数据清洗后对数值型变量的误差分析，通过比对各机构中各数值数据的基本信息与总体样本数据信息的差异找到异常指标，具体的实现逻辑包括，将每家机构的数据按照指标切割成每份数据，然后算出总样本指标的均值，中位数，标准差，同时也计算出每家机构的指标的均值，中位数，标准差，然后计算出每家机构和总体样本的差异比，通过设置差异比例阈值10％，15％，20％，得到不用的投票结果，进而根据投票结果来找出差异指标。

对众多第四独立数据集中具有同等医学意义的等级信息进行合并，形成第五合并数据集，即该指标下的数值无论其原始的单位和正常值范围如何，统一按照其医学意义重新归类，为后面的医学分析提供了大量同质性数据；

对无法实现合并的冲突数据，即前面清洗过程中出现的错误或者数据本身携带的异常进行检查，校正完成之后，得到最终的计量信息数据库。

在本发明的另一个具体实施例中：

如图1所示，原始医疗数据库中的数据为混杂状态，根据信息分类原则将它们标记为计量、等级和不合法词信息；

如图2所示，通过对计量信息进行进一步识别和处理，最终得到纯计量信息数据库，包括具体步骤：

第1步：将不属于计量信息的等级信息(+，-，阴，阳)和不合法词(未检)剔除，并使它们进入相应的规范化清洗流程，得到第二计量信息数据集；

第2步：根据医院提供的每个数值对应的正常值范围，如0.01，0.02，0.6，0.7这四个数值的正常值范围都是0-0.5，则在医学意义上，≥0.5的数值都应该是阳性，标记为2；＜0.5的为正常，即阴性，标记为1；由此编写a类映射规则。

第3步：根据a类映射规则，将共有同一正常值范围的数值划分在一起，形成第三计量信息数据集；图2中有两个正常值范围(0-0.5，0-1)所以形成了两个第三计量信息数据集；

第4步：在第三计量信息数据集的基础上，所有数值按照对应的正常值范围，转化为具有医学意义的等级型数据，即1，2，形成第四独立数据集；

第5步：将多个正常值范围衍生而来的第四独立数据集中的数据进行合并，得到一个总的、带有医学意义标签的数据库，即第五合并数据集。原则上来说，每个人应该只有一条检验记录，所以他/她只可能有一个数值，对应的也只有一个医学意义的标签，即1或2。但是，假设前面清洗过程中发生了错误或者患者本人就有两次冲突的检验结果(数据本身携带的异常)，就会导致合并冲突；

第6步：对合并冲突进行检验，即返回原始数据集找到该患者的检验数据，确认冲突来源后予以校正。最终得到清洗完毕的纯计量信息数据库。

本发明实施例还提供一种计量信息类型的医疗数据的处理装置，包括：

读取模块，用于从收集得到的混杂资料类型的医疗数据中读取具有特征标记的计量信息；

异常数据清洗模块，用于从所述具有特征标记的计量信息中提取异常数据并进行清除；

多单位特征处理模块，用于对同一合法计量范围标记下的原始计量信息进行独立提取，使提取后的原始计量信息形成独立数据集；

转化模块：用于对独立数据集中的原始计量信息转化为相应的等级化信息；

合并模块，用于对独立数据集产生的等级化信息进行合并，以及对独立数据集产生的计量信息进行合并标记合并冲突；

统计分析模块，用于对校正后的计量信息系统误差核对，并对不合格的计量信息进行标记。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李红良;李浩淼;汪文鑫
技术所有人：武汉大学
我是此专利的发明人

上一篇：一种精制生态盐生产用卤水的装置的制作方法
上一篇：一种自动除尘空气滤清器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。