一种病历数据的质量检测方法和相关装置与流程

文档序号:22317520发布日期:2020-09-23 01:46阅读:103来源:国知局
一种病历数据的质量检测方法和相关装置与流程

本申请涉及计算机技术领域,尤其涉及一种病历数据的质量检测方法和相关装置。



背景技术:

随着信息技术的快速发展,医疗行业也迈入了新的发展阶段。现如今,电子病历系统已经普及到了大多数的医院,在计算机上填写电子病历已经逐步取代手工书写病历。

一般来说,无论是手工书写病历,还是利用电子病历系统实现病历填写,都需要医生对病历数据进行检查,从而实时把控病历数据的质量问题。即,现有技术中,都是通过人工来完成病历数据的质量控制,这种质量检测方式效率低,无法及时地反映病历数据的质量情况。



技术实现要素:

本申请实施例提供了一种病历数据的质量检测方法和相关装置,实施本申请实施例,提高了对病历数据的质量检测效率,能够及时反映病历数据的质量情况。

本申请第一方面提供了一种病历数据的质量检测方法,包括:

获取待质量检测的病历数据;

将所述待质量检测的病历数据进行向量化,得到第一特征向量;

获取锚样本病历数据集一一对应的第一锚样本特征向量集;

将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;

根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;

将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;

将所述第二特征向量输入训练好的判别器中,得到质量检测结果。

本申请第二方面提供了一种病历数据的质量检测装置,包括:

获取模块,用于获取待质量检测的病历数据;

处理模块,用于将所述待质量检测的病历数据进行向量化,得到第一特征向量;

所述获取模块,还用于获取锚样本病历数据集一一对应的第一锚样本特征向量集;

所述处理模块,还用于将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;

所述处理模块,还用于根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;

所述处理模块,还用于将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;

所述处理模块,还用于将所述第二特征向量输入训练好的判别器中,得到质量检测结果。

本申请第三方面提供了一种病历数据的质量检测的电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被生成由所述处理器执行,以执行一种病历数据的质量检测方法任一项方法中的步骤的指令。

本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现一种病历数据的质量检测方法任一项所述的方法。

可以看出,上述技术方案中,获取待质量检测的病历数据;将所述待质量检测的病历数据进行向量化,得到第一特征向量;获取锚样本病历数据集一一对应的第一锚样本特征向量集;将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;将所述第二特征向量输入训练好的判别器中,得到质量检测结果。通过将待质量检测的病历数据对应的第一特征向量与第一锚样本平均特征向量进行向量运算后的第二特征向量输入训练好的判别器,并得到质量检测结果,避免了直接利用训练好的判别器对待质量检测的病历数据对应的第一特征向量进行处理后得到的质量检测结果不准确的问题。同时,通过利用判别器确定待质量检测的病历数据的质量检测结果,提高了对病历数据的质量检测效率,能够及时反映病历数据的质量情况。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

其中:

图1是本申请实施例提供的一种病历数据的质量检测系统的示意图;

图2a为本申请实施例提供的一种病历数据的质量检测方法的流程示意图;

图2b为本申请实施例提供的一种编码器的示意图;

图3为本申请实施例提供的又一种病历数据的质量检测方法的流程示意图;

图4为本申请实施例提供的一种病历数据的质量检测装置的示意图;

图5为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

以下分别进行详细说明。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先,参见图1,图1是本申请实施例提供的一种病历数据的质量检测系统的示意图,该质量检测系统100包括质量检测处理装置110。该质量检测处理装置110用于处理待质量检测的病历数据。该质量检测系统100可以包括集成式单体设备或者多设备,为方便描述,本申请将质量检测系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(userequipment,ue),移动台(mobilestation,ms),终端设备(terminaldevice)等等。

一般来说,无论是手工书写病历,还是利用电子病历系统实现病历填写,都需要医生对病历数据进行检查,从而实时把控病历数据的质量问题。即,现有技术中,都是通过人工来完成病历数据的质量控制,这种质量检测方式效率低,无法及时地反映病历数据的质量情况。

基于此,本申请实施例提出一种病历数据的质量检测方法以解决上述问题,下面对本申请实施例进行详细介绍。

参见图2a,图2a为本申请实施例提供的一种病历数据的质量检测方法的流程示意图。如图2a所示,所述方法包括:

201、获取待质量检测的病历数据;

其中,待质量检测的病历数据可以包括文字、符号、图表、图形、数据、影像等。进一步来说,待质量检测的病历数据包括性别、年龄、出生年月、姓名、药名等。

另外,可以从区块链中获取待质量检测的病历数据。

其中,区块链是一种按照时间顺序将数据区块相连的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本。该区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

进一步的,区块链的特性有开放、共识、去中心、去信任、透明、双方匿名、不可篡改以及可追溯等。其中,开放与透明意为任何人都可以参与到区块链网络,每一台设备都能作为一个节点,每个节点都允许获得一份完整的数据库拷贝。节点基于一套共识机制,通过竞争计算共同维护整个区块链。任一节点失效,其余节点仍能正常工作。其中,去中心化与去信任意为区块链由众多节点共同组成一个端到端的网络,不存在中心化的设备和管理机构。节点之间数据交换通过数字签名技术进行验证,无需互相信任,只要按照系统既定的规则进行,节点之间不能也无法欺骗其他节点。其中,透明与双方匿名意为区块链的运行规则是公开的,所有的数据信息也是公开的,因此每一笔交易都对所有节点可见。由于节点与节点之间是去信任的,因此节点之间无需公开身份,每个参与的节点都是匿名的。其中,不可篡改和可追溯意为每个甚至多个节点对数据库的修改无法影响其他节点的数据库,除非能控制整个网络中超过51%的节点同时修改,这是几乎不可能发生的。区块链中的,每一笔交易都通过密码学方法与相邻两个区块串联,因此可以追溯到任何一笔交易记录。

具体的,区块链可以利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算方式。因此,区块链技术不可篡改的特性从根本上改变了中心化的信用创建方式,有效提高了数据的不可更改性以及安全性。其中,由于智能合约使得所有的条款编写为程序,这些条款可在区块链上自动执行,保证了当存在触发智能合约的条件时,区块链能强制根据智能合约中的内容执行,且不受任何外力阻挡,从而保证了合约的有效性和执行力,不仅能够大大降低成本,也能提高效率。区块链上的各个节点都有相同的账本,能够确保账本记录过程是公开透明的。区块链技术可以实现了一种点对点的、公开透明的直接交互,使得高效率、大规模、无中心化代理的信息交互方式成为了现实。

202、将所述待质量检测的病历数据进行向量化,得到第一特征向量;

需要说明的,待质量检测的病历数据所对应的数据类型包括连续型或类别型,在所述将所述待质量检测的病历数据进行向量化,得到第一特征向量之前,所述方法还包括:对所述待质量检测的病历数据中数据类型为类别型的数据进行编码处理,得到编码后的待质量检测的病历数据。其中,可以采用独热编码对所述待质量检测的病历数据中数据类型为类别型的数据进行编码处理,得到编码后的待质量检测的病历数据。可以理解的,无需对所述待质量检测的病历数据中数据类型为连续型的数据进行编码处理。

举例来说,待质量检测的病历数据中的性别所对应的数据类型为类别型,那么,需要对性别进行编码处理。而待质量检测的病历数据中的年龄所对应的数据类型为连续型,那么,无需对年龄进行编码处理。

进一步的,所述将所述待质量检测的病历数据进行向量化,得到第一特征向量,包括:将编码后的待质量检测的病历数据以及待质量检测的病历数据中数据类型为连续型的数据进行向量化,得到第一特征向量。可以理解的,可以将编码后的待质量检测的病历数据以及待质量检测的病历数据中数据类型为连续型的数据输入编码器中,得到第一特征向量。

其中,参见图2b,图2b为本申请实施例提供的一种编码器的示意图。如图2b所示,可以看出,该编码器包括输入层、至少一个隐藏层和输出层。需要说明的,该输入层为一个n维输入层,该隐藏层为一个m维隐藏层,该输出层为一个n维输出层。其中,n和m均为大于1的整数,m远小于n。进一步的,隐藏层的映射作为编码器,输出层的映射作为解码器,且编码器的网络结构为多层自编码网络结构。

需要说明的,编码后的待质量检测的病历数据以及待质量检测的病历数据中数据类型为连续型的数据是n维度的高维向量。第一特征向量是m维度的低维向量,即第一特征向量是最后一层隐藏层的输出数据。

203、获取锚样本病历数据集一一对应的第一锚样本特征向量集;

可选的,在一种可能的实施方式中,所述获取锚样本病历数据集一一对应的第一锚样本特征向量集,包括:获取待训练样本病历数据集以及所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分;根据所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分,确定出质量评分在第一预设评分区间的待训练样本病历数据,得到锚样本病历数据集;将所述锚样本病历数据集中的每条锚样本病历数据进行向量化,得到所述第一锚样本特征向量集。

其中,还可以根据所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分,确定出质量评分在第二预设评分区间的待训练样本病历数据,得到正样本病历数据集;也可以根据所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分,确定出质量评分在第三预设评分区间的待训练样本病历数据,得到负样本病历数据集。可以理解的,第一预设评分区间高于第二预设评分区间,第二预设评分区间高于第三预设评分区间。即,锚样本病历数据集中的每条锚样本病历数据所对应的质量评分高于正样本病历数据集中的每条正样本病历数据所对应的质量评分,正样本病历数据集中的每条正样本病历数据所对应的质量评分高于负样本病历数据集中的每条负样本病历数据所对应的质量评分。另外,负样本病历数据集中的每条负样本病历数据均存在质量问题。而,正样本病历数据集中的每条正样本病历数据以及锚样本病历数据集中的每条锚样本病历数据均无质量问题。

举例来说,质量评分在第一预设评分区间的待训练样本病历数据,其病历的完成时间、书写格式段落、医学术语、三级查房、知情同意、麻醉访视、诊断治疗、辅助检查、院内感染和/或抗菌药物使用都符合规定;质量评分在第二预设评分区间的待训练样本病历数据,其医学术语、三级查房、知情同意、麻醉访视、诊断治疗、辅助检查、院内感染和/或抗菌药物使用都符合规定;质量评分在第三预设评分区间的待训练样本病历数据,其医学术语、三级查房、麻醉访视、诊断治疗、院内感染和/或抗菌药物使用都符合规定。

需要说明的,待训练样本病历数据集中的每条待训练样本病历数据所对应的数据类型包括连续型或类别型。即,锚样本病历数据集中的每条锚样本病历数据所对应的数据类型包括连续型或类别型,正样本病历数据集中的每条正样本病历数据所对应的数据类型包括连续型或类别型,负样本病历数据集中的每条负样本病历数据所对应的数据类型包括连续型或类别型。进一步的,锚样本病历数据p为所述锚样本病历数据集中的任意一条数据,在将所述锚样本病历数据集中的每条锚样本病历数据进行向量化,得到所述第一锚样本特征向量集之前,所述方法还包括:对所述锚样本病历数据p中数据类型为类别型的数据进行编码处理,得到编码后的锚样本病历数据p。其中,可以采用独热编码对所述锚样本病历数据p中数据类型为类别型的数据进行编码处理,得到编码后的锚样本病历数据p。可以理解的,无需对锚样本病历数据p中数据类型为连续型的数据进行编码处理。

进一步的,将所述锚样本病历数据集中的每条锚样本病历数据进行向量化,得到所述第一锚样本特征向量集,包括:将编码后的锚样本病历数据p以及锚样本病历数据p中数据类型为连续型的数据进行向量化,得到锚样本病历数据p对应的第一锚样本特征向量。可以理解的,可以将编码后的锚样本病历数据p以及锚样本病历数据p中数据类型为连续型的数据输入编码器中,得到锚样本病历数据p对应的第一锚样本特征向量。可以理解的,锚样本病历数据集与第一锚样本特征向量集一一对应。

另外,编码后的锚样本病历数据p以及锚样本病历数据p中数据类型为连续型的数据是n维度的高维向量。锚样本病历数据p对应的第一锚样本特征向量是m维度的低维向量,即锚样本病历数据p对应的第一锚样本特征向量是最后一层隐藏层的输出数据。

可以看出,上述技术方案中,获取待训练样本病历数据集以及所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分;根据所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分,确定出质量评分在第一预设评分区间的待训练样本病历数据,得到锚样本病历数据集;将所述锚样本病历数据集中的每条锚样本病历数据进行向量化,得到所述第一锚样本特征向量集。通过将确定出质量评分在第一预设评分区间的待训练样本病历数据,实现了待训练样本病历数据集的分类,也得到了质量评分在第一预设评分区间的锚样本病历数据集。同时,通过将锚样本病历数据集中的每条锚样本病历数据进行向量化,从而得到锚样本特征向量集,为后续确定锚样本平均特征向量做准备。另外,通过向量化,将高维向量转为低维向量,简化了训练好的生成器学习锚样本病历数据的分布难度,提高了学习效率。

204、将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;

205、根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;

其中,第一锚样本平均特征向量为m维度的低维向量。第一锚样本平均特征向量中第i行第j列的值为多个第二锚样本特征向量中每个第二锚样本特征向量中第i行第j列的值的平均值。其中,i和j为大于0的整数,i和j的取值与第一锚样本平均特征向量有关。

举例来说,所述多个第二锚样本特征向量包括第二锚样本特征向量n1和第二锚样本特征向量n2。其中,第二锚样本特征向量n1为第二锚样本特征向量n2为那么,第一锚样本平均特征向量为

206、将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;

其中,向量运算例如可以为向量加法、向量减法、向量积等,在此不做限制。

207、将所述第二特征向量输入训练好的判别器中,得到质量检测结果。

可以看出,上述技术方案中,获取待质量检测的病历数据;将所述待质量检测的病历数据进行向量化,得到第一特征向量;获取锚样本病历数据集一一对应的第一锚样本特征向量集;将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;将所述第二特征向量输入训练好的判别器中,得到质量检测结果。通过将待质量检测的病历数据对应的第一特征向量与第一锚样本平均特征向量进行向量运算后的第二特征向量输入训练好的判别器,并得到质量检测结果,避免了直接利用训练好的判别器对待质量检测的病历数据对应的第一特征向量进行处理后得到的质量检测结果不准确的问题。同时,通过利用判别器确定待质量检测的病历数据的质量检测结果,提高了对病历数据的质量检测效率,能够及时反映病历数据的质量情况。

其中,在一种可能的实施方式中,所述将所述第二特征向量输入训练好的判别器中,得到质量检测结果,包括:将所述第二特征向量输入训练好的判别器中,得到质量检测数值;在所述质量检测数值高于阈值时,确定所述质量检测结果为所述待质量检测的病历数据无质量问题;在所述质量检测数值低于阈值时,确定所述质量检测结果为所述待质量检测的病历数据存在质量问题。

其中,质量检测数值是预设区间内的浮点数,预设区间为[0,1]。进一步的,在质量检测数值高于阈值时,标签为1,即质量检测结果为待质量检测的病历数据无质量问题;在质量检测数值低于阈值时,标签为0,质量检测结果为待质量检测的病历数据存在质量问题。

其中,还可以显示阈值调整界面,该阈值调整界面包括阈值输入框和确认按钮。用户可以在阈值输入框中输入阈值,并对确认按钮进行操作,从而实现对阈值的动态调整。

可以看出,上述技术方案中,将所述第二特征向量输入训练好的判别器中,得到质量检测数值;在所述质量检测数值高于阈值时,确定所述质量检测结果为所述待质量检测的病历数据无质量问题;在所述质量检测数值低于阈值时,确定所述质量检测结果为所述待质量检测的病历数据存在质量问题,通过利用判别器确定待质量检测的病历数据的质量检测结果,提高了对病历数据的质量检测效率,能够及时反映病历数据的质量情况。同时,结合阈值,实现动态把控病历数据的质量检测结果。

参见图3,图3为本申请实施例提供的又一种病历数据的质量检测方法的流程示意图。其中,如图3所示,所述方法还包括:

301、将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入待训练的生成器中,得到多个第三锚样本特征向量;

其中,待训练的生成器包括一个输入层、多个隐藏层以及一个输出层。需要说明的,该输入层为一个m维输入层,该隐藏层为一个k维隐藏层,该输出层为一个m维输出层。其中,k为大于1且小于m的整数。进一步的,待训练的生成器的网络结构为深度神经网络。

另外,第一锚样本特征向量集中的每个第一锚样本特征向量均为m维的低维向量。多个第三锚样本特征向量中的每个第三锚样本特征向量均为m维的低维向量,即多个第三锚样本特征向量中的每个第三锚样本特征向量均是待训练的生成器的输出层的输出数据。

可以理解的,待训练的生成器和训练好的生成器,在内部参数上有很大的差别。因此,在将第一锚样本特征向量集中的每个第一锚样本特征向量分别输入待训练的生成器和训练好的生成器时,待训练的生成器输出的输出数据与训练好的生成器输出的输出数据有很大的差别。

另外,将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入待训练的生成器,可以完成对生成器的训练,得到训练好的生成器。

302、根据所述多个第三锚样本特征向量,确定第二锚样本平均特征向量;

其中,第二锚样本平均特征向量为m维度的低维向量。第二锚样本平均特征向量中第a行第b列的值为多个第三锚样本特征向量中每个第三锚样本特征向量中第a行第b列的值的平均值。其中,a和b为大于0的整数,a和b的取值与第二锚样本平均特征向量有关。

举例来说,所述多个第三锚样本特征向量包括第三锚样本特征向量m1和第三锚样本特征向量m2。其中,第三锚样本特征向量m1为第三锚样本特征向量m2为那么,第二锚样本平均特征向量为

303、获取正样本病历数据集一一对应的正样本特征向量集和负样本病历数据集一一对应的负样本特征向量集;

可选的,在一种可能的实施方式中,正样本病历数据x为正样本病历数据集中任意一条数据,所述获取正样本病历数据集一一对应的正样本特征向量集,包括:对所述正样本病历数据x中数据类型为类别型的数据进行编码处理,得到编码后的正样本病历数据x;将将编码后的正样本病历数据x以及正样本病历数据x中数据类型为连续型的数据进行向量化,得到正样本病历数据x对应的正样本特征向量。

其中,可以采用独热编码对所述正样本病历数据x中数据类型为类别型的数据进行编码处理,得到编码后的正样本病历数据x。可以理解的,无需对正样本病历数据x中数据类型为连续型的数据进行编码处理。

另外,编码后的正样本病历数据x以及正样本病历数据x中数据类型为连续型的数据是n维度的高维向量。正样本病历数据x对应的正样本特征向量是m维度的低维向量,即正样本病历数据x对应的正样本特征向量是最后一层隐藏层的输出数据。

同理,负样本病历数据y为负样本病历数据集中任意一条数据,所述获取负样本病历数据集一一对应的负样本特征向量集,包括:对所述负样本病历数据y中数据类型为类别型的数据进行编码处理,得到编码后的负样本病历数据y;将将编码后的负样本病历数据y以及负样本病历数据y中数据类型为连续型的数据进行向量化,得到负样本病历数据y对应的负样本特征向量。

其中,可以采用独热编码对所述负样本病历数据y中数据类型为类别型的数据进行编码处理,得到编码后的负样本病历数据y。可以理解的,无需对负样本病历数据y中数据类型为连续型的数据进行编码处理。

另外,编码后的负样本病历数据y以及负样本病历数据y中数据类型为连续型的数据是n维度的高维向量。负样本病历数据y对应的负样本特征向量是m维度的低维向量,即负样本病历数据y对应的负样本特征向量是最后一层隐藏层的输出数据。

304、将所述第二锚样本平均特征向量与所述正样本特征向量集中的每条正样本特征向量进行向量运算,得到第一样本特征向量集;

其中,第一样本特征向量a为所述第一样本特征向量集中的任意一个向量,所述第一样本特征向量a的值用于表示所述第一样本特征向量a所对应的正样本特征向量与所述第二锚样本平均特征向量之间的距离,在所述第一样本特征向量a的值越大时,所述第一样本特征向量a所对应的正样本特征向量越趋近于所述第二锚样本平均特征向量,在所述第一样本特征向量a的值越小时,所述第一样本特征向量a所对应的正样本特征向量越远离于所述第二锚样本平均特征向量。

305、将所述第二锚样本平均特征向量与所述负样本特征向量集中的每条负样本特征向量进行向量运算,得到第二样本特征向量集;

其中,第二样本特征向量b为所述第二样本特征向量集中的任意一个向量,所述第二样本特征向量b的值用于表示所述第二样本特征向量b所对应的负样本特征向量与所述第二锚样本平均特征向量之间的距离,在所述第二样本特征向量b的值越大时,所述第二样本特征向量b所对应的负样本特征向量越趋近于所述第二锚样本平均特征向量,在所述第二样本特征向量b的值越小时,所述第二样本特征向量b所对应的负样本特征向量越远离于所述第二锚样本平均特征向量。

306、将所述第一样本特征向量集和所述第二样本特征向量集分别输入待训练的判别器中,得到所述训练好的判别器。

可以看出,上述技术方案中,将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入待训练的生成器中,得到多个第三锚样本特征向量;根据所述多个第三锚样本特征向量,确定第二锚样本平均特征向量;获取正样本病历数据集一一对应的正样本特征向量集和负样本病历数据集一一对应的负样本特征向量集;将所述第二锚样本平均特征向量与所述正样本特征向量集中的每条正样本特征向量进行向量运算,得到第一样本特征向量集;将所述第二锚样本平均特征向量与所述负样本特征向量集中的每条负样本特征向量进行向量运算,得到第二样本特征向量集;将所述第一样本特征向量集和所述第二样本特征向量集分别输入待训练的判别器中,得到所述训练好的判别器,利用待训练的生成器生成的锚样本特征向量得到锚样本平均特征向量,并采用锚样本平均特征向量分别与正样本特征向量、负样本特征向量进行向量运算后的向量来训练待训练的判别器,从而实现让负样本与锚样本越远离,正样本与锚样本越接近,进而让训练好的判别器可以更好分类出有质量问题的病历数据和无质量问题的病历数据。同时,本方案可应用于智慧医疗领域中,通过让训练好的判别器可以更好分类出有质量问题的病历数据和无质量问题的病历数据,从而更好的推动了智慧城市的建设。

参见图4,图4为本申请实施例提供的一种病历数据的质量检测装置的示意图。其中,如图4所示,本申请实施例提供的一种病历数据的质量检测装置400可以包括:

获取模块401,用于获取待质量检测的病历数据;

处理模块402,用于将所述待质量检测的病历数据进行向量化,得到第一特征向量;

所述获取模块401,还用于获取锚样本病历数据集一一对应的第一锚样本特征向量集;

可选的,在一种可能的实施方式中,在获取锚样本病历数据集一一对应的第一锚样本特征向量集时,所述获取模块401,具体用于获取待训练样本病历数据集以及所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分;所述处理模块402,具体用于根据所述待训练样本病历数据集中每个待训练样本病历数据对应的质量评分,确定出质量评分在第一预设评分区间的待训练样本病历数据,得到锚样本病历数据集;将所述锚样本病历数据集中的每条锚样本病历数据进行向量化,得到所述第一锚样本特征向量集。

所述处理模块402,还用于将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;

所述处理模块402,还用于根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;

所述处理模块402,还用于将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;

所述处理模块402,还用于将所述第二特征向量输入训练好的判别器中,得到质量检测结果。

可选的,在一种可能的实施方式中,所述处理模块402,还用于将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入待训练的生成器中,得到多个第三锚样本特征向量;所述处理模块402,还用于根据所述多个第三锚样本特征向量,确定第二锚样本平均特征向量;所述获取模块401,还用于获取正样本病历数据集一一对应的正样本特征向量集和负样本病历数据集一一对应的负样本特征向量集;所述处理模块402,还用于将所述第二锚样本平均特征向量与所述正样本特征向量集中的每条正样本特征向量进行向量运算,得到第一样本特征向量集;所述处理模块402,还用于将所述第二锚样本平均特征向量与所述负样本特征向量集中的每条负样本特征向量进行向量运算,得到第二样本特征向量集;所述处理模块402,还用于将所述第一样本特征向量集和所述第二样本特征向量集分别输入待训练的判别器中,得到所述训练好的判别器。

其中,第一样本特征向量a为所述第一样本特征向量集中的任意一个向量,所述第一样本特征向量a的值用于表示所述第一样本特征向量a所对应的正样本特征向量与所述第二锚样本平均特征向量之间的距离,在所述第一样本特征向量a的值越大时,所述第一样本特征向量a所对应的正样本特征向量越趋近于所述第二锚样本平均特征向量,在所述第一样本特征向量a的值越小时,所述第一样本特征向量a所对应的正样本特征向量越远离于所述第二锚样本平均特征向量。

其中,第二样本特征向量b为所述第二样本特征向量集中的任意一个向量,所述第二样本特征向量b的值用于表示所述第二样本特征向量b所对应的负样本特征向量与所述第二锚样本平均特征向量之间的距离,在所述第二样本特征向量b的值越大时,所述第二样本特征向量b所对应的负样本特征向量越趋近于所述第二锚样本平均特征向量,在所述第二样本特征向量b的值越小时,所述第二样本特征向量b所对应的负样本特征向量越远离于所述第二锚样本平均特征向量。

可选的,在一种可能的实施方式中,在将所述第二特征向量输入训练好的判别器中,得到质量检测结果时,所述处理模块402,具体用于将所述第二特征向量输入训练好的判别器中,得到质量检测数值;在所述质量检测数值高于阈值时,确定所述质量检测结果为所述待质量检测的病历数据无质量问题;在所述质量检测数值低于阈值时,确定所述质量检测结果为所述待质量检测的病历数据存在质量问题。

参见图5,图5为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。

本申请实施例提供了一种病历数据的质量检测的电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,以执行包括任一项病历数据的质量检测方法中的步骤的指令。其中,如图5所示,本申请的实施例涉及的硬件运行环境的电子设备可以包括:

处理器501,例如cpu。

存储器502,可选的,存储器可以为高速ram存储器,也可以是稳定的存储器,例如磁盘存储器。

通信接口503,用于实现处理器501和存储器502之间的连接通信。

本领域技术人员可以理解,图5中示出的电子设备的结构并不构成对其的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图5所示,存储器502中可以包括操作系统、网络通信模块以及灰度发布的验证的程序。操作系统是管理和控制服务器硬件和软件资源的程序,支持一个或多个程序的运行。网络通信模块用于实现存储器502内部各组件之间的通信,以及与电子设备内部其他硬件和软件之间通信。

在图5所示的电子设备中,处理器501用于执行存储器502中存储的人员管理的程序,实现以下步骤:获取待质量检测的病历数据;将所述待质量检测的病历数据进行向量化,得到第一特征向量;获取锚样本病历数据集一一对应的第一锚样本特征向量集;将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;将所述第二特征向量输入训练好的判别器中,得到质量检测结果。

本申请涉及的电子设备的具体实施可参见上述病历数据的质量检测方法的各实施例,在此不做赘述。

本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现以下步骤:获取待质量检测的病历数据;将所述待质量检测的病历数据进行向量化,得到第一特征向量;获取锚样本病历数据集一一对应的第一锚样本特征向量集;将所述第一锚样本特征向量集中的每个第一锚样本特征向量输入训练好的生成器中,得到多个第二锚样本特征向量;根据所述多个第二锚样本特征向量,确定第一锚样本平均特征向量;将所述第一特征向量与所述第一锚样本平均特征向量进行向量运算,得到第二特征向量;将所述第二特征向量输入训练好的判别器中,得到质量检测结果。

本申请涉及的计算机可读存储介质的具体实施可参见上述病历数据的质量检测方法的各实施例,在此不做赘述。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应所述知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应所述知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1