电子病例检测方法、装置、计算机设备和存储介质与流程

文档序号:21354575发布日期:2020-07-04 04:21阅读:186来源:国知局
电子病例检测方法、装置、计算机设备和存储介质与流程

本申请涉及计算机技术领域,特别是涉及一种电子病例检测方法、装置、计算机设备和存储介质。



背景技术:

随着电子病例技术的发展,寻找相似的电子病例在临床诊断,临床科研等应用领域中具有重大价值,医生可以基于相似病例进行诊断并开具处方,大大节约了临床医生的工作时间。

目前,寻找相似电子病例通常是将电子病例向量化,根据向量化后的电子病例进行相似度计算确定相似的电子病例,然而,只是通过向量化后的电子病例进行相似度计算,存在确定出的相似电子病例准确度低的问题。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高相似电子病例确定准确性的电子病例检测方法、装置、计算机设备和存储介质。

一种电子病例检测方法,所述方法包括:

接收电子病例相似度检测指令,根据电子病例相似度检测指令获取待检测电子病例信息和目标电子病例信息;

将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体;

根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型;

将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度;

获取各个实体类型权重,根据实体类型权重和实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度;

当电子病例相似度超过预设阈值时,确定待检测电子病例信息为目标电子病例信息的相似电子病例。

在其中一个实施例中,将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体,包括:

将待检测电子病例信息输入到已建立的命名实体识别模型中识别,得到第一识别结果,并将待检测电子病例信息输入到已建立的医疗知识图谱中匹配,得到第一匹配结果,根据第一识别结果和第一匹配结果得到各个待检测电子病例实体;

将目标电子病例信息输入到已建立的命名实体识别模型中识别,得到第二识别结果,并将目标电子病例信息输入到已建立的医疗知识图谱中匹配,得到第二匹配结果,根据第二识别结果和第二匹配结果得到各个目标电子病例实体。

在其中一个实施例中,将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度,包括:

将名称实体类型的待检测电子病例实体和目标电子病例实体输入到已建立的医疗名称分类树中,得到待检测电子病例实体对应的待检测实体节点和目标电子病例实体对应的目标实体节点;

计算待检测实体节点和目标实体节点之间的路径长度,根据待检测实体节点和目标实体节点之间的路径长度确定名称实体类型的待检测电子病例实体和目标电子病例实体的名称相似度。

在其中一个实施例中,根据待检测实体节点和目标实体节点之间的路径长度确定名称实体类型的待检测电子病例实体和目标电子病例实体的名称相似度,包括:

获取已建立的医疗名称分类树的根实体节点,并从已建立的医疗名称分类树中获取待检测实体节点和目标实体节点的共同父节点,计算根实体节点和共同父节点之间的第二路径长度;

获取目标路径长度,根据路径长度、第二路径长度和目标路径长度计算名称实体类型的待检测电子病例实体和目标电子病例实体之间的名称相似度。

在其中一个实施例中,将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度,包括:

将年龄实体类型的待检测电子病例实体和目标电子病例实体输入对应的非线性距离计算模块中进行计算,得到年龄实体类型的待检测电子病例实体和目标电子病例实体之间的年龄相似度。

在其中一个实施例中,将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度,包括:

获取文本实体类型的各个待检测电子病例实体和各个目标电子病例实体,将文本实体类型的各个待检测电子病例实体和各个目标电子病例实体向量化,得到各个待检测向量和各个目标向量,计算各个待检测向量和各个目标向量的相似度;

根据各个待检测向量和各个目标向量的相似度确定各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本之间的文本相似度。

在其中一个实施例中,根据各个待检测向量和各个目标向量的相似度确定各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本之间的文本相似度,包括:

获取各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本;

计算待检测文本中的待检测电子病例实体数量和目标文本中的目标电子病例实体数量;

根据各个待检测向量和各个目标向量的相似度确定各个待检测向量对应的各个待检测相似度,根据各个待检测相似度和待检测电子病例实体数量得到待检测综合相似度;

根据各个待检测向量和各个目标向量的相似度确定各个目标向量对应的各个目标相似度,根据各个目标相似和目标电子病例实体数量得到目标综合相似度;

根据待检测综合相似度和目标综合相似度得到待检测文本和目标文本之间的文本相似度。

一种电子病例检测装置,所述装置包括:

信息获取模块,用于接收电子病例相似度检测指令,根据电子病例相似度检测指令获取待检测电子病例信息和目标电子病例信息;

实体得到模块,用于将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体;

模型确定模块,用于根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型;

实体相似度得到模块,用于将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度;

相似度计算模块,用于获取各个实体类型权重,根据实体类型权重和实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度;

病例确定模块,用于当电子病例相似度超过预设阈值时,确定待检测电子病例信息为目标电子病例信息的相似电子病例。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

接收电子病例相似度检测指令,根据电子病例相似度检测指令获取待检测电子病例信息和目标电子病例信息;

将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体;

根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型;

将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度;

获取各个实体类型权重,根据实体类型权重和实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度;

当电子病例相似度超过预设阈值时,确定待检测电子病例信息为目标电子病例信息的相似电子病例。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

接收电子病例相似度检测指令,根据电子病例相似度检测指令获取待检测电子病例信息和目标电子病例信息;

将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体;

根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型;

将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度;

获取各个实体类型权重,根据实体类型权重和实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度;

当电子病例相似度超过预设阈值时,确定待检测电子病例信息为目标电子病例信息的相似电子病例。

上述电子病例检测方法、装置、计算机设备和存储介质,通过识别得到各个待检测电子病例实体和各个目标电子病例实体。根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型。将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度。然后,根据各个实体类型权重和对应的实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度,将电子病例相似度超过预设阈值的待检测电子病例信息作为目标电子病例信息的相似电子病例。即通过不同的实体匹配模型计算出每个实体类型对应实体之间的相似度,进而根据每个实体类型权重和每个实体类型的实体相似度确定电子病例相似度,提高了得到的电子病例相似度的准确性。然后根据电子病例相似度确定相似电子病例,能够提高得到相似电子病例的准确性。

附图说明

图1为一个实施例中电子病例检测方法的应用场景图;

图2为一个实施例中电子病例检测方法的流程示意图;

图3为一个实施例中进行实体识别的流程示意图;

图4为一个实施例中确定名称相似度的流程示意图;

图5为另一个实施例中确定名称相似度的流程示意图;

图6为一个实施例中已建立的医疗名称分类树的示意图;

图7为一个实施例中确定文本相似度的流程示意图;

图8为另一个实施例中确定文本相似度的流程示意图;

图9为一个实施例中电子病例检测装置的结构框图;

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的电子病例检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收终端102发送的电子病例相似度检测指令,根据电子病例相似度检测指令获取待检测电子病例信息和目标电子病例信息;服务器104将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体;服务器104根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型;服务器104将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度;服务器104获取各个实体类型权重,根据实体类型权重和实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度;服务器104当电子病例相似度超过预设阈值时,确定待检测电子病例信息为目标电子病例信息的相似电子病例,并将相似电子病例返回到终端102中进行展示。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种电子病例检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

s202,接收电子病例相似度检测指令,根据电子病例相似度检测指令获取待检测电子病例信息和目标电子病例信息。

其中,待检测电子病例信息是指历史已经经过诊断并开具有处方的电子病例的具体信息,该信息可以包括疾病名称、年龄、性别、主诉文本、现病史文本、个人史文本、鉴别诊断文本和处方信息等。目标电子病例信息是指经过诊断还未开具处方的电子病例的具体信息,该具体信息包括疾病名称、年龄、性别、主诉文本、现病史文本、个人史文本和鉴别诊断文本等等。

具体地,服务器接收医生通过终端发送的电子病例相似度检测指令,服务器根据电子病例相似度检测指令从历史数据库中获取到待检测电子病例信息并获取到医生通过终端上传的目标电子病例信息。该目标电子病例信息也可以是从数据库中获取到的。

s204,将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体。

其中,待检测电子病例实体是指对待检测电子病例信息进行命名实体识别之后得到的实体。该命名实体识别算法可以使用crf(conditionalrandomfield,条件随机场)和bilstm(bi-directionallongshort-termmemory,双向长短期记忆神经网络)目标电子病例实体是指对目标电子病例信息进行命名实体识别之后得到的实体。

具体地,服务器将待检测电子病例信息和目标电子病例信息输入到已建立的命名实体识别模型中进行识别,得到输出的各个待检测电子病例实体和各个目标电子病例实体。该实体可以包括疾病名称、年龄、性别和各个文本中的实体词。该已建立的命名实体识别模型是根据已有的医疗相关数据使用crf和bilstm算法进行训练得到的模型。

s206,根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型。

其中,实体类型是指预先设置好的各个实体的类型。该实体类型包括疾病名称实体类型、年龄实体类型、性别实体类型和文本实体类型等等。该实体类型用于确定对应的实体匹配模型。该实体匹配模型用于将各个待检测电子病例实体和各个目标电子病例实体进行相似度计算。每个实体类型都预先设置好的对应的实体匹配模型。

具体地,服务器根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型。比如,根据年龄实体确定对应的年龄实体类型,根据年龄实体类型获取到对应的年龄相似度计算模型中,该年龄相似度计算模型可以是使用非线性距离算法建立的。

s208,将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度。

其中,实体相似度是指实体类型相同的待检测电子病例实体和目标电子病例实体之间的相似度。

具体地,服务器将每个实体类型对应的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中进行相似度计算,得到每个实体类型对应的实体相似度,比如,将待检测电子病例实体中年龄实体和目标电子病例实体中年龄实体输入到对应的年龄相似度计算模型中进行相似度计算,得到年龄实体类型对应的年龄实体相似度。将待检测电子病例实体中性别实体和目标电子病例实体中性别实体输入到对应的性别相似度计算模型中进行相似度计算,得到性别实体类型对应的性别实体相似度,其中,性别相似度计算模型可以是使用距离相似度算法建立的。

s210,获取各个实体类型权重,根据实体类型权重和实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度。

其中,实体类型权重是预先设置的每个实体类型对应的权重,可以由医生进行配置。电子病例相似度是指待检测电子病例信息和目标电子病例信息之间的相似度。

具体地,服务器获取到各个实体类型权重,根据各个实体类型权重和对应的实体类型的实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度。比如,可以使用公式(1)计算得到电子病例相似度。

其中,s(电子病例)是指电子病例相似度,n是指实体类型总数,w是史泰龙类型权重。s是指实体相似度。w(i)*s(i)是指第i个实体类型权重和对应的第i个实体相似度的乘积。

s212,当电子病例相似度超过预设阈值时,确定待检测电子病例信息为目标电子病例信息的相似电子病例。

其中,预设阈值是指预先设置好的相似度阈值。

具体地,当电子病例相似度超过预设阈值时,将待检测电子病例信息作为目标电子病例信息的相似度电子病例,然后可以将待检测电子病例信息返回终端进行展示,以使医生根据展示待检测电子病例信息对目标电子病例信息进行处理。

在一个实施例中,可以从历史数据库中获取到多个待检测电子病例信息与目标电子病例信息进行相似度检测,直到找到与目标电子病例信息最相似的的待检测电子病例信息,将最相似的的待检测电子病例信息返回到终端进行展示。

在上述电子病例检测方法中,通过不同的实体匹配模型计算出每个实体类型对应实体之间的相似度,进而根据每个实体类型权重和每个实体类型的实体相似度确定电子病例相似度,提高了得到的电子病例相似度的准确性。然后根据电子病例相似度确定相似电子病例,能够提高得到相似电子病例的准确性。

在一个实施例中,如图3所述,步骤s204,即将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体,包括步骤:

s302,将待检测电子病例信息输入到已建立的命名实体识别模型中识别,得到第一识别结果,并将待检测电子病例信息输入到已建立的医疗知识图谱中匹配,得到第一匹配结果,根据第一识别结果和第一匹配结果得到各个待检测电子病例实体。

其中,第一识别结果是指经过已建立的命名实体识别模型识别待检测电子病例信息得到的实体。已建立的医疗知识图谱是预先根据专业医疗数据建立的知识图谱。第一匹配结果是指将待检测电子病例信息在已建立的医疗知识图谱中进行匹配得到的匹配一致的实体。

具体地,将待检测电子病例信息输入到已建立的命名实体识别模型中识别,得到第一识别结果,并将待检测电子病例信息输入到已建立的医疗知识图谱中匹配,得到第一匹配结果。将第一匹配结果与第一识别结果进行对比,查找到在第一匹配结果中且未在第一识别结果中的实体,将查找到的实体和第一识别结果中的实体作为各个待检测电子病例实体。

s304,将目标电子病例信息输入到已建立的命名实体识别模型中识别,得到第二识别结果,并将目标电子病例信息输入到已建立的医疗知识图谱中匹配,得到第二匹配结果,根据第二识别结果和第二匹配结果得到各个目标电子病例实体。

其中,第二识别结果指经过已建立的命名实体识别模型识别目标电子病例信息得到的实体。第二匹配结果是指将目标电子病例信息在已建立的医疗知识图谱中进行匹配得到的匹配一致的实体。

具体地,将目标电子病例信息输入到已建立的命名实体识别模型中识别,得到第二识别结果,并将目标电子病例信息输入到已建立的医疗知识图谱中匹配,得到第二匹配结果,将第二匹配结果与第二识别结果进行对比,查找到在第二匹配结果中且未在第二识别结果中的实体,将查找到的实体和第二识别结果中的实体作为各个目标电子病例实体。

在上述实施例中,通过命名实体识别模型和医疗知识图谱进行实体识别,提高了得到的各个待检测电子病例实体和各个目标电子病例实体的准确性。

在一个实施例中,如图4所示,步骤s208,即将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度,包括步骤:

s402,将名称实体类型的待检测电子病例实体和目标电子病例实体输入到已建立的医疗名称分类树中,得到待检测电子病例实体对应的待检测实体节点和目标电子病例实体对应的目标实体节点。

其中,名称实体类型是指疾病名称实体对应的实体类型,医疗名称分类树是根据已建立的医疗知识图谱构建得到的,用于对医疗数据分类。待检测实体节点是指检测电子病例实体中的疾病名称实体在医疗名称分类树中匹配到的实体。目标实体节点是指目标电子病例实体中的疾病名称实体在医疗名称分类树中匹配到的实体。

具体地,服务器分别将待检测电子病例实体和目标电子病例实体中的疾病名称实体输入到已建立的医疗名称分类树中进行匹配,得到待检测电子病例实体中疾病名称实体对应的待检测实体节点和目标电子病例实体中疾病名称实体对应的目标实体节点。

s404,计算待检测实体节点和目标实体节点之间的路径长度,根据待检测实体节点和目标实体节点之间的路径长度确定名称实体类型的待检测电子病例实体和目标电子病例实体的名称相似度。

其中,路径长度是指在医疗名称分类树中从待检测实体节点到目标实体节点时所经过的边的数量,即每经过的边增加一时,则路径长度就增加一。该路径长度可以是待检测实体节点到目标实体节点时所经过的最少的边数。

具体地,服务器计算待检测实体节点和目标实体节点之间的路径长度,然后根据待检测实体节点和目标实体节点之间的路径长度确定名称实体类型的待检测电子病例实体和目标电子病例实体的名称相似度。

在上述实施例中,通过已建立的医疗名称分类树对疾病名称类型的实体进行相似度计算,提高了相似度计算的准确性。

在一个实施例中,如图5所示,步骤s404,即根据待检测实体节点和目标实体节点之间的路径长度确定名称实体类型的待检测电子病例实体和目标电子病例实体的名称相似度,包括步骤:

s502,获取已建立的医疗名称分类树的根实体节点,并从已建立的医疗名称分类树中获取待检测实体节点和目标实体节点的共同父节点,计算根实体节点和共同父节点之间的第二路径长度。

其中,根实体节点是指该医疗名称分类树中除本身外所有实体节点的祖先,没有父实体节点。共同父节点是指待检测实体节点和目标实体节点最近的共同父实体节点。第二路径长度是指在已建立的医疗名称分类树中从根实体节点到共同父节点所经过的最少的边数。

具体地,服务器在已建立的医疗名称分类树中确定根实体节点和待检测实体节点和目标实体节点的共同父节点,然后计算从根实体节点到共同父节点所经过的边数,即得到了第二路径长度。

s504,获取目标路径长度,根据路径长度、第二路径长度和目标路径长度计算名称实体类型的待检测电子病例实体和目标电子病例实体之间的名称相似度。

其中,目标路径长度是指待检测实体节点和目标实体节点之间的最大路径长度,该最大路径长度为已建立的医疗名称分类树深度的两倍。

具体地,服务器获取到目标路径长度、路径长度和第二路径长度时,使用公式(2)计算得到名称实体类型的待检测电子病例实体和目标电子病例实体之间的名称相似度。公式(2)如下所示:

其中,c1为待检测实体节点,c2为目标实体节点,consim(c1,c2)为待检测电子病例实体和目标电子病例实体之间的名称相似度。dis(c1,c2)表示待检测实体节点和目标实体节点之间的路径长度,lca为待检测实体节点和目标实体节点的共同父节点。root为根实体节点。dis(root,lca)表示第二路径长度。h为已建立的医疗名称分类树的深度。2h为目标路径长度。如图6所示,为已建立的医疗名称分类树的示意图。当h为10,dis(root,lca)=6,dis(c1,c2)=4时,得到的名称相似度为

在上述实施例中,通过路径长度、第二路径长度和目标路径长度计算得到名称实体类型的待检测电子病例实体和目标电子病例实体之间的名称相似度,提高了得到名称相似度的准确性,进而提高了计算得到的待检测病例信息和目标病例信息相似度的准确性,从而使得到的相似电子病例更为准确。

在一个实施例中,步骤s404,将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度,包括步骤:

将年龄实体类型的待检测电子病例实体和目标电子病例实体输入对应的非线性距离计算模块中进行计算,得到年龄实体类型的待检测电子病例实体和目标电子病例实体之间的年龄相似度。

其中,非线性距离计算模块是指使用非线性距离计算算法进行计算的模块。年龄实体类型是指待检测电子病例实体和目标电子病例实体中年龄实体对应的类型。年龄相似度是指待检测电子病例实体和目标电子病例实体中年龄实体之间的相似度。

具体地,服务器将年龄实体类型的待检测电子病例实体和目标电子病例实体输入对应的非线性距离计算模块中进行计算,得到年龄实体类型的待检测电子病例实体和目标电子病例实体之间的年龄相似度。其中,非线性距离计算模块可以使用公式(3)进行计算,公式(3)如下所示:

其中,p1是指各个待检测电子病例实体中的年龄实体,p2是指各个目标电子病例实体中的年龄实体。s(p1,p2)是指年龄相似度。max(p1,p2)是指p1和p2中年龄较大的年龄实体。

举例来说:各个待检测电子病例实体中的年龄实体为25岁。各个目标电子病例实体中的年龄实体为30岁。则计算得到年龄实体为25岁和年龄实体为30岁之间的年龄相似度为

在上述实施例中,通过非线性距离计算模块对年龄实体类型的待检测电子病例实体和目标电子病例实体进行计算,提高了计算得到的年龄相似度的准确度,进而提高了计算得到的待检测病例信息和目标病例信息相似度的准确性,从而使得到的相似电子病例更为准确。

在一个实施例中,如图7所示,步骤s404,将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度,包括步骤:

s702,获取文本实体类型的各个待检测电子病例实体和各个目标电子病例实体,将文本实体类型的各个待检测电子病例实体和各个目标电子病例实体向量化,得到各个待检测向量和各个目标向量,计算各个待检测向量和各个目标向量的相似度。

其中,文本实体类型是指电子病例信息属于文本的实体类型。比如,根据主诉文本、现病史文本、个人史文本和鉴别诊断文本等得到的实体。待检测向量是对文本实体类型的待检测电子病例实体进行向量化后得到,目标向量是对文本实体类型的目标电子病例实体进行向量化后得到。

具体地,服务器获取文本实体类型的各个待检测电子病例实体和各个目标电子病例实体,每个文本都会有对应的多个实体。将文本实体类型的各个待检测电子病例实体和各个目标电子病例实体向量化,得到各个待检测向量和各个目标向量。比如,可以使用已训练的神经网络语言模型(neuralnetworklanguagemodel,nnlm)来对各个待检测电子病例实体和各个目标电子病例实体向量化。也可以使用已训练的skip-gram(continuousskip-grammodel,跳字模型)模型或者/cbow(continuousbag-of-wordsmodel,连续词袋模型)模型将各个待检测电子病例实体和各个目标电子病例实体向量化,得到词嵌入向量。此时,可以使用余弦相似度算法计算各个待检测向量与各个目标向量之间的相似度。

在一个实施例中,在计算各个待检测向量与各个目标向量之间的相似度时,还可以获取到文本反映实体程度词,将文本中反映实体程度词进行编码,得到程度参数。比如,对文本中“红肿”实体,反映实体程度词可以包括有无类型的程度修饰词和严重程度的修饰词,例如:“无”,“未见”,“显著”,“轻微”,“有”等。对该有无类型的程度修饰词进行极性编码,得到极性参数,比如,可以编码无为-1,没有为-1,未见为-1,有为1,可见为1等。对严重程度的修饰词进行线性编码,得到严重程度参数,比如轻微为0.5。有点为0.5。严重为1。显著为1。然后在计算待检测向量与目标向量之间的相似度时,可以使用公式(4)进行计算。该公式(4)如下所示:

s(a1,a2)=sim(a1,a2)*b1*b2公式(4)

其中,a1是待检测向量,a2是目标向量,b1是严重程度参数,b2是极性参数,sim(a1,a2)是指待检测向量和目标向量之间的余弦相似度。通过引入程度参数,提高了得到的待检测向量和目标向量之间相似度的准确性。

s704,根据各个待检测向量和各个目标向量的相似度确定各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本之间的文本相似度。

其中,待检测文本是指各个待检测电子病例实体组成的文本。该文本包括主诉文本、现病史文本、个人史文本和鉴别诊断文本等等。比如,各个待检测电子病例实体包括感冒和处方,组成的待检测文本是主诉文本“感冒处方”。目标文本是指各个目标电子病例实体组成的文本,包括主诉文本、现病史文本、个人史文本和鉴别诊断文本等等。比如,各个目标电子病例实体包括咳嗽、如何和用药,则组成的目标文本是主诉文本“咳嗽如何用药”。

具体地,根据各个待检测向量与各个目标向量之间的相似度,确定待检测向量与目标向量之间的最大相似度,根据最大相似度和实体数量确定待检测文本和目标文本之间的文本相似度。

在上述实施例中,通过将文本实体类型的各个待检测电子病例实体和各个目标电子病例实体向量化,得到各个待检测向量与各个目标向量,根据各个待检测向量与各个目标向量之间的相似度确定待检测文本和目标文本之间的文本相似度,提高了得到文本相似度的准确性。

在一个实施例中,如图8所示,步骤s704,即根据各个待检测向量和各个目标向量的相似度确定各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本之间的文本相似度,包括步骤:

s802,获取各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本。

s804,计算待检测文本中的待检测电子病例实体数量和目标文本中的目标电子病例实体数量。

具体地,服务器获取到各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本,计算出待检测文本中的待检测电子病例实体数量和目标文本中的目标电子病例实体数量。

s806,根据各个待检测向量和各个目标向量的相似度确定各个待检测向量对应的各个待检测相似度,根据各个待检测相似度和待检测电子病例实体数量得到待检测综合相似度。

具体地,服务器使用余弦相似度算法计算待检测向量与每个目标向量的相似度,然后从待检测向量与每个目标向量的相似度中确定最大相似度,得到该待检测向量对应的最大相似度。计算每个待检测向量与每个目标向量的相似度,得到每个待检测向量对应的最大相似度,作为各个待检测相似度,计算各个待检测相似度的和,计算各个待检测相似度的和与待检测电子病例实体数量的比值,得到待检测综合相似度。

s808,根据各个待检测向量和各个目标向量的相似度确定各个目标向量对应的各个目标相似度,根据各个目标相似和目标电子病例实体数量得到目标综合相似度。

具体地,服务器使用余弦相似度算法计算目标向量与每个待检测向量的相似度,然后从目标向量与每个待检测向量的相似度中确定最大相似度,得到该目标向量对应的最大相似度。计算每个目标向量与每个待检测向量的相似度,得到每个目标向量对应的最大相似度,作为各个目标相似度,计算各个目标相似度的和,并计算各个目标相似度的和与目标电子病例实体数量的比值,得到目标综合相似度。

s810,根据待检测综合相似度和目标综合相似度得到待检测文本和目标文本之间的文本相似度。

具体地,服务器根据待检测综合相似度和目标综合相似度计算平均相似度得到待检测文本和目标文本之间的文本相似度。比如,可以使用公式(5)计算文本相似度。公式(5)如下所示:

其中,s1是指待检测文本,s2是指目标文本。sim(s1,s2)表示待检测文本和目标文本之间的文本相似度。nums(s1)表示待检测文本中实体数量,nums(s2)表示目标文本中实体数量。w1i是指待检测文本中待检测电子病例实体对应的待检测向量,w2j是指目标文本中目标电子病例实体对应的目标向量。sim(w1i,w2j)是指待检测向量与各个目标向量之间的相似度,max[sim(w1i,w2j)]是指各个待检测向量对应的最大相似度,即得到各个待检测相似度。sim(w2j,w1i)是指目标向量与各个待检测向量之间的相似度。max[sim(w2j,w1i)]是指各个目标向量对应的最大相似度,即得到各个目标相似度。∑w1imax[sim(w1i,w2j)]是指各个待检测相似度的和,∑w2jmax[sim(w2j,w1i)]各个目标相似度的和。

举例说明:待检测文本为“感冒处方”。目标文本为“咳嗽如何用药”。其中,待检测文本有2个实体,包括“感冒”和“处方”。目标文本中有3个实体,包括“咳嗽”、“如何”和“用药”。其中,与“感冒”最相似的实体为“咳嗽”,相似度为0.9。与“处方”最相似的实体为“用药”,相似度0.7。计算得到的待检测综合相似度为sim1=(0.9+0.7)/2=0.8。反过来,与“咳嗽”最相似的实体为“感冒”,相似度为0.9。与“如何”最相似的实体为“处方”,相似度为0.2。与“用药”最相似的实体为“处方”,相似度为0.7。计算得到目标综合相似度为sim2=(0.9+0.2+0.7)/3=0.6。则待检测文本与目标文本的相似性为:sim=(0.8+0.6)/2=0.7。

应该理解的是,虽然图2-图5,图7-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图5,图7-图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图9所示,提供了一种电子病例检测装置900,包括:信息获取模块902、实体得到模块904、模型确定模块906、实体相似度得到模块908、相似度计算模块910和病例确定模块912,其中:

信息获取模块902,用于接收电子病例相似度检测指令,根据电子病例相似度检测指令获取待检测电子病例信息和目标电子病例信息;

实体得到模块904,用于将待检测电子病例信息和目标电子病例信息进行实体识别,得到各个待检测电子病例实体和各个目标电子病例实体;

模型确定模块906,用于根据各个待检测电子病例实体和各个目标电子病例实体确定对应的各个实体类型,根据各个实体类型确定对应的实体匹配模型;

实体相似度得到模块908,用于将实体类型一致的待检测电子病例实体和目标电子病例实体输入对应的实体匹配模型中匹配,得到各个实体类型对应的实体相似度;

相似度计算模块910,用于获取各个实体类型权重,根据实体类型权重和实体相似度计算得到待检测电子病例信息和目标电子病例信息的电子病例相似度;

病例确定模块912,用于当电子病例相似度超过预设阈值时,确定待检测电子病例信息为目标电子病例信息的相似电子病例。

在一个实施例中,实体得到模块904,包括:

待检测实体得到单元,用于实体将待检测电子病例信息输入到已建立的命名实体识别模型中识别,得到第一识别结果,并将待检测电子病例信息输入到已建立的医疗知识图谱中匹配,得到第一匹配结果,根据第一识别结果和第一匹配结果得到各个待检测电子病例实体;

目标实体得到单元,用于将目标电子病例信息输入到已建立的命名实体识别模型中识别,得到第二识别结果,并将目标电子病例信息输入到已建立的医疗知识图谱中匹配,得到第二匹配结果,根据第二识别结果和第二匹配结果得到各个目标电子病例实体。

在一个实施例中,实体相似度得到模块908,包括:

节点确定单元,用于将名称实体类型的待检测电子病例实体和目标电子病例实体输入到已建立的医疗名称分类树中,得到待检测电子病例实体对应的待检测实体节点和目标电子病例实体对应的目标实体节点;

名称相似度计算单元,用于计算待检测实体节点和目标实体节点之间的路径长度,根据待检测实体节点和目标实体节点之间的路径长度确定名称实体类型的待检测电子病例实体和目标电子病例实体的名称相似度。

在一个实施例中,名称相似度计算单元,还用于获取已建立的医疗名称分类树的根实体节点,并从已建立的医疗名称分类树中获取待检测实体节点和目标实体节的共同父节点,计算根实体节点和共同父节点之间的第二路径长度;获取目标路径长度,根据路径长度、第二路径长度和目标路径长度计算名称实体类型的待检测电子病例实体和目标电子病例实体之间的名称相似度。

在一个实施例中,实体相似度得到模块908,包括:

年龄相似度计算单元,用于将年龄实体类型的待检测电子病例实体和目标电子病例实体输入对应的非线性距离计算模块中进行计算,得到年龄实体类型的待检测电子病例实体和目标电子病例实体之间的年龄相似度。

在一个实施例中,实体相似度得到模块908,包括:

向量相似度计算单元,用于获取文本实体类型的各个待检测电子病例实体和各个目标电子病例实体,将文本实体类型的各个待检测电子病例实体和各个目标电子病例实体向量化,得到各个待检测向量和各个目标向量,计算各个待检测向量和各个目标向量的相似度;

文本相似度确定单元,用于根据各个待检测向量和各个目标向量的相似度确定各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本之间的文本相似度。

在一个实施例中,文本相似度确定单元,还用于获取各个待检测电子病例实体组成的待检测文本和各个目标电子病例实体组成的目标文本;计算待检测文本中的待检测电子病例实体数量和目标文本中的目标电子病例实体数量;根据各个待检测向量和各个目标向量的相似度确定各个待检测向量对应的各个待检测相似度,根据各个待检测相似度和待检测电子病例实体数量得到待检测综合相似度;根据各个待检测向量和各个目标向量的相似度确定各个目标向量对应的各个目标相似度,根据各个目标相似和目标电子病例实体数量得到目标综合相似度;根据待检测综合相似度和目标综合相似度得到待检测文本和目标文本之间的文本相似度。

关于电子病例检测装置的具体限定可以参见上文中对于电子病例检测方法的限定,在此不再赘述。上述电子病例检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电子病例数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电子病例检测方法。

本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述任意实施例中电子病例检测方法所述的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例中电子病例检测所述的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1