一种用于对病历进行自动脱敏的系统及应用的制作方法

文档序号:20875647发布日期:2020-05-26 16:28阅读:507来源:国知局
一种用于对病历进行自动脱敏的系统及应用的制作方法

本发明涉及模式识别、机器学习、卷积神经网络等技术领域,特别涉及一种用于对病历进行自动脱敏的系统及应用。



背景技术:

在处理病历及采集信息的过程中,为避免病人的隐私泄露,需要将一些敏感的私人信息模糊处理,如病人姓名,住址,联系方式等,以供其他非医疗人员(比如数据分析人员)学习调用信息。随着如今就医人数的增加及疾病种类的多样化,利用人工进行病历脱敏在效率与可靠性上都表现出了很大的局限性。由于不同医院及科室的病历单一般版面不同,缺乏统一出信息的结构标准。而如果直接利用现有的光标识别技术对病历全部内容进行识别进而进行脱敏处理,在识别相同的信息会被不断重复识别而造成不必要的耗时,且由于识别时比较粗略,识别的准确率有所欠缺。因此,现有技术不能够实现高效准确的对病历进行自动脱敏。

因此,目前亟需一种用于对病历进行自动脱敏的系统,以实现高效准确的对病历进行自动脱敏。



技术实现要素:

有鉴于此,本申请提供一种用于对病历进行自动脱敏的系统,以实现高效准确的对病历进行脱敏。

本申请提供的用于对病历进行自动脱敏的系统,包括:

模板生成模块,用于将不同版面类型样本病历单进行分类,并按类型分别获取对应每一类型的敏感信息区域,以生成对应不同类型样本病历单的不同类型的病历模板;

训练模块,用于将所述每一类病历模板对应的样本病历单输入至卷积神经网络中训练以获取用于对病历单进行分类的神经网络模型。

脱敏模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板,并根据匹配的病历模板对所述待脱敏病历单进行待脱敏区域的标注以及脱敏处理,以获取脱敏处理后的病历。

由上,本申请的自动脱敏系统可以实现高效准确地对不同类型的病历进行自动脱敏,以避免病人的隐私泄露。既克服了现有技术中利用人工进行病历脱敏在效率与可靠性上的局限性的缺陷;又通过本申请的上述各个模块的功能,克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

优选地,所述模板生成模块,具体用于:

采集子模块,用于采集不同医院的不同版面类型的样本病历单;

标注子模块,用于标注出所述样本病历单中的敏感信息区域;

分类子模块,用于根据已标注的样本病历单中的不同版面结构及敏感信息区域所在位置将样本病历单分成不同类型的样本病历单;

记录子模块,用于记录每一类型样本病历单的被标注的敏感信息区域的坐标值;

模板生成子模块,用于对于每一类型样本病历单:根据每一类型样本病历单中的每个样本病历单的被标注的敏感信息区域的坐标值,将所含面积最大的敏感信息区域作为每一类型样本病历单的最终敏感信息区域,并将标注有所述最终敏感信息区域的样本病历单作为该类型样本病历单的病历模板。

由上,有利于生成对应不同类型样本病历单的不同类型的病历模板。其中,模板生成子模块,将所含面积最大的敏感信息区域作为每一类型病历模板的最终的敏感信息区域。有利于保证在对病历进行脱敏处理时,敏感信息能够充分包含在被脱敏的区域中。

优选地,所述模板生成模块,还包括:图像预处理子模块,用于对所述标注子模块标注后的样本病历单进行去噪与二值化处理。

由上,所述去噪处理能够去除与敏感信息无关的噪点,所述二值化处理有利于在对图像做进一步处理时,图像的集合性质只与像素值为0或255的点的位置有关,不再涉及像素的多级值,使处理变得简单,而且数据的处理和压缩量小。

优选地,所述模板生成模块,还包括:

样本扩充子模块,将所述记录子模块记录的每一类型的样本病历单进行仿射变换,以获取指定数量的样本病历单。

由上,有利于扩充用于训练的样本病历单的数量。

优选地,所述训练模块,具体用于:

将所述每一类型样本病历单及其所述类型输入至卷积神经网络的输入层;

所述卷积神经网络的卷积层提取所述样本病历单的特征图;

所述卷积神经网络的池化层对所述特征图进行压缩,以及用于提取主要特征;

所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理,并进行分类处理以获取用于对病历单进行分类的神经网络模型。

由上,有利于生成用于针对不同版面类型病历单分类和初始待脱敏区域标注的神经网络模型。其中,将所含面积最大的敏感信息区域作为每一类型病历模板的最终的敏感信息区域。有利于保证在对病历进行脱敏处理时,敏感信息能够充分包含在被脱敏的区域中。

优选地,所述卷积神经网络的卷积层提取所述病历模板的特征图与所述样本病历单之间的映射关系式为:

xm=f(σxmi*kmij+bmj)

其中,所述xm表示第m层的输出向量;所述xmi表示第m层第i个节点的输入向量;所述kmij表示第m层第i个节点需要训练的滤波器参数;所述bmj表示第m层第i个借口点需要训练的基;所述m表示当前层数;所述i表示当前节点;所述j表示当前层。

由上,有利于更好的提取所述病历模板的特征图。

优选地,所述卷积神经网络的全连接层的用于分类时的平方代价函数为:

en=σnσc(tkn-ykn)2

其中,所述n表示样本病历单的个数,所述en表示输出的第n个样本医嘱单的类型;所述c表示病历模版的类型的数量,所述k表示所述样本病历单的版面类型及所述卷积神经网络的全连接层输出的病历模板类型上的维度,所述t表示第n个样本对应标签的第k维,所述y表示第n个样本对应网络输出的第k维。

由上,有利于获取最优的分类。

优选地,所述脱敏模块,具体包括:

匹配子模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板;

标注子模块,用于根据所述病历模板对所述带脱敏病历进行初始待脱敏区域的标注;

定位子模块,用于利用图像处理技术,对初始待脱敏区域进行精确定位;

脱敏子模块,用于对每个精确定位后的待脱敏区域进行单独的脱敏处理。

由上,本申请通过用于针对不同版面类型病历的特征提取的神经网络模型获取带脱敏的病历的初始待脱敏区域,并进一步精确定位及脱敏。克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

优选地,所述敏感信息至少包括但不限于以下其一:姓名、住址、联系方式。

由上,本申请敏感信息不限于上述信息,还包括其他的涉及个人隐私的信息。

基于上述系统,本申请还提供一种对病历进行自动脱敏的方法,包括:

a、获取待脱敏的原始病历图片;

b、对所述待脱敏的原始病历图片进行图片质量判定,保留分辨率高于指定阈值的原始病历图片;

c、对所述原始病历图片进行去噪与二值化处理,以获取处理后的原始病历图片的二值图像;

d、根据所述原始病历图片的二值图像,通过所述用于对病历单进行分类的神经网络模型对所述原始病历图片进行分类以获取其所属的病历的类型;

e、根据所述病历的类型匹配对应的病历模板,并据此获取所述原始病历的初始待脱敏区域;

f、利用图像处理技术,对所述初始待脱敏区域进行精确定位,获取精确定位后的待脱敏区域;

g、对所述精确定位后的待脱敏区域进行脱敏处。

由上,本申请的上述方法可以实现高效准确地对不同类型的病历进行自动脱敏,以使得其它的非医务工作人员调用学习该病历信息时,避免病人的隐私泄露。既克服了现有技术中利用人工进行病历脱敏在效率与可靠性上的局限性的缺陷;同时,本申请还对原始病历进行分类以及对其进行初始待脱敏区域的定位,进一步的对其进行精确定位及脱敏处理,克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

综上所述,本申请提供的用于对病历进行自动脱敏的系统及应用,可以实现高效准确地对不同类型的病历进行自动脱敏,以使得其它的非医务工作人员调用学习该病历信息时,避免病人的隐私泄露。既克服了现有技术中利用人工进行病历脱敏在效率与可靠性上的局限性的缺陷;又克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

附图说明

图1为本申请提供的一种用于对病历进行自动脱敏的系统的结构示意图;

图2为本申请提供的一种用于对病历进行自动脱敏的系统的模板生成模块和训练模块的原理示意图;

图3为本申请提供的一种对病历进行自动脱敏的方法的流程示意图;

图4为本申请提供的一种对病历进行自动脱敏的方法的流程示意图;

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。应当理解为此处所描述的具体实施例仅用以解释本发明,并不用于限制本发明的保护范围。

实施例一

如图1-2所示,本发明提供一种用于对病历进行自动脱敏的系统,包括:

所述模板生成模块101,用于将不同版面类型样本病历单进行敏感信息区域标注生成对应不同类型样本病历单的不同类型的病历模板。其中所述图2中的a示出了模板生成模块101的原理图,具体地,所述模板生成模块具体用于:

采集子模块,用于采集不同医院的不同版面类型的样本病历单;

标注子模块,用于标注出所述样本病历单中的敏感信息区域;其中,所述敏感信息可以是:姓名、住址、联系方式,或者是其他的涉及个人隐私的信息。

分类子模块,用于根据已标注的样本病历单中的不同版面结构及敏感信息区域所在位置将样本病历单分成不同类型的样本病历单;

记录子模块,用于记录每一类型样本病历单的被标注的敏感信息区域的坐标值;

图像预处理子模块,用于对所述标注子模块标注后的样本病历单进行去噪与二值化处理,以获取处理后的样本病历单的二值图像。

模板生成子模块,用于对于每一类型样本病历单:根据每一类型样本病历单中的每个样本病历单的被标注的敏感信息区域的坐标值,将所含面积最大的敏感信息区域作为每一类型样本病历单的最终敏感信息区域,并将标注有所述最终敏感信息区域的样本病历单作为该类型样本病历单的病历模板。此处,将所含面积最大的敏感信息区域作为每一类型病历模板的最终的敏感信息区域。有利于保证在对病历进行脱敏处理时,敏感信息能够充分包含在被脱敏的区域中。

样本扩充子模块,将所述记录子模块记录的每一类型的样本病历单进行仿射变换,以获取指定数量的样本病历单。

训练模块102,用于将所述模板处理模块处理后的每一类病历模板分别输入至卷积神经网络中训练以获取用于针对不同版面类型病历的敏感信息提取的神经网络模型。其中所述图2中的b示出了模板生成模块102的原理图,具体地,所述模板生成模块,具体用于:

n1、将所述每一类型样本病历单及其所述类型输入至卷积神经网络的输入层;

n2、所述卷积神经网络的卷积层提取所述样本病历单的特征图;其中,所述卷积神经网络的卷积层提取所述病历模板的特征图与所述样本病历单之间的映射关系式为:

xm=f(σxmi*kmij+bmj)

其中,所述xm表示第m层的输出向量;所述xmi表示第m层第i个节点的输入向量;所述kmij表示第m层第i个节点需要训练的滤波器参数;所述bmj表示第m层第i个借口点需要训练的基;所述m表示当前层数;所述i表示当前节点;所述j表示当前层。

n3、所述卷积神经网络的池化层对所述特征图进行压缩,以及用于提取主要特征;

n3、所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理,并进行分类处理以获取用于对病历单进行分类的神经网络模型。

其中,所述卷积神经网络的全连接层的用于分类时的平方代价函数为:en=σnσc(tkn-ykn)2

其中,所述n表示样本病历单的个数,所述en表示输出的第n个样本医嘱单的类型;所述c表示病历模版的类型的数量,所述k表示所述样本病历单的版面类型及所述卷积神经网络的全连接层输出的病历模板类型上的维度,所述t表示第n个样本对应标签的第k维,所述y表示第n个样本对应网络输出的第k维。

本申请的训练模块102采用有监督学习方法,通过反向传播算法对各层的初始参数进行训练,实现训练样本的特征提取。

脱敏模块103,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板,并根据匹配的病历模板对所述待脱敏病历单进行待脱敏区域的标注以及脱敏处理,以获取脱敏处理后的病历。具体包括:

匹配子模块,用于根据所述训练模块获取的神经网络模型获取的待脱敏病历单的类型匹配其对应的病历模板;

标注子模块,用于根据所述病历模板对所述带脱敏病历进行初始待脱敏区域的标注;

定位子模块,用于利用图像处理技术,对初始待脱敏区域进行精确定位;

脱敏子模块,用于对每个精确定位后的待脱敏区域进行单独的脱敏处理。

实施例二

基于实施例一中的用于对病历进行自动脱敏的系统,本申请还提供一种对病历进行自动脱敏的方法,如图3-4所示,包括:

s301,获取待脱敏病历单;

s302,对所述待脱敏病历单进行图片质量判定,保留分辨率高于指定阈值的待脱敏病历单;

s303,对所述待脱敏病历单进行去噪与二值化处理;

s304,通过实施例一中训练模块102获取的用于对病历单进行分类的神经网络模型对s303中处理后的所述待脱敏病历单进行分类以获取其所属的病历单的类型;

s305,根据所述病历单的类型匹配其对应类型的的病历模板,并据此获取所述原始病历的初始待脱敏区域;

s306,利用图像处理技术,对所述初始待脱敏区域进行精确定位,获取精确定位后的待脱敏区域;此处可以利用ocr识别技术进行进一步的精确定位。

s307,对所述精确定位后的待脱敏区域进行脱敏处理。此处可以使用加马赛克覆盖或者其它的方式将待脱敏区域进行隐藏或模糊处理,以实现对敏感隐私信息的脱敏处理,以避免病人的隐私泄露。

由上,本申请的上述方法可以实现高效准确地对不同类型的病历进行自动脱敏,以使得其它的非医务工作人员调用学习该病历信息时,避免病人的隐私泄露。既克服了现有技术中利用人工进行病历脱敏在效率与可靠性上的局限性的缺陷;同时,本申请还对原始病历进行分类以及对其进行初始待脱敏区域的定位,进一步的对其进行精确定位及脱敏处理,克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

综上所述,本申请提供的用于对病历进行自动脱敏的系统及应用,可以实现高效准确地对不同类型的病历进行自动脱敏,以避免病人的隐私泄露。既克服了现有技术中利用人工进行病历脱敏在效率与可靠性上的局限性的缺陷;又克服了现有技术中的利用光标识别技术对进行病历脱敏时,由于需要对病历全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

以上所述仅为本发明以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有1条留言
  • 访客 来自[中国] 2022年06月28日 10:33
    非官方个
    0
1