用于从医疗文档中提取诊断对象的方法和装置与流程

文档序号：11216816阅读：454来源：国知局

本发明涉及文本信息提取领域，更具体而言，涉及用于从医疗文档中提取诊断对象的方法和装置。

背景技术：

用于从医疗文档中提取诊断对象(即一组实体(entity))的技术是已知的。这里的诊断对象指的是在做出具体的诊断时所涉及的一个或多个实体。换言之，诊断对象指的是一起被考虑以做出具体的诊断的一个或多个实体。这里的实体指的是医疗文档中的表示具体医疗概念(比如身体部位)的字词。根据现有技术中的技术，根据实体的概念来提取诊断对象(即一组实体)。在一组身体部位实体被作为诊断对象提取的情况下，如果相同的身体部位实体被包括在医疗文档中，则将提取出相同的诊断对象。然而，事实是，对于不同的医疗文档，即使相同的身体部位实体被包括在其中，其中所做出的诊断也可能不同。因此，在现有技术中，独立于医疗文档中所做出的诊断，从医疗文档中提取出诊断对象。

具体而言，将讨论表1中示出的如下两份医疗文档—报告1和报告2。如从表1中可见，两份报告涉及相同的身体部位实体，即，右肺s5、右肺门、纵膈、左中叶和左上叶。但是不同的诊断被做出。根据现有技术提取出的诊断对象在表1的第3行中被示出。“{}”内的身体部位实体属于一个诊断对象。因为在现有技术中，身体部位实体是根据身体部位的概念或医疗概念而分组的，而不考虑所做出的诊断，因此对于报告1和报告2提取出了相同的诊断对象。

美国专利第us8,312,018b2号公开了用于基于实体的标准形态来对实体进行分组的方法。根据在此us专利申请公开中公开的方法，

将取得如在表1的第3行示出的相同的分组结果。

表1

技术实现要素：

本发明的发明人已经发现，可以用若干某种类型的实体的特征序列(或路径)来表达一个医疗现象，并且，可以通过检测上述特征序列是否存在来判断一个医疗现象是否被完整地描述。

本发明的发明人还已经发现，针对同一组身体部位可能做出不同的诊断并且因此出现不同的诊断对象。因此，存在这样的需求：根据医疗文档中做出的诊断来对医疗文档中的实体进行分组。换言之，存在这样的需求：提供能够将医疗文档中的实体划分到诊断相关的(diagnosis-dependent)组中的方法和装置。

根据本发明的一方面，提供了用于从医疗文档中提取诊断对象的方法，包括以下步骤：从输入医疗文档中提取身体部位实体和至少一种类型的非身体部位实体以及身体部位实体与非身体部位实体之间的关系，其中对不少于两个的非身体部位实体进行提取；对于所提取出的非身体部位实体的所有对中的每一对，取得一对中的两个非身体部位实体之间的相关性评分，其中，该相关性评分基于历史医疗文档中的所述一对中的两个非身体部位实体与一个或多个身体部位实体之间的关系；基于所有对的相关性评分将输入医疗文档中的非身体部位实体聚类为一个或多个群集；及输出与被聚类在每个群集中的一个或多个非身体部位实体相关的一个或多个身体部位实体作为一个诊断对象。

从参考附图的以下描述中，本发明的更多典型特征和优点将是清楚的。

附图说明

结合在说明书中并构成说明书一部分的附图图示出本发明的实施例，并且与描述一起用于说明本发明的原理。

图1是示出根据本发明第一实施例的用于从医疗文档中提取诊断对象的方法的流程图。

图2示出医疗文档的例子。

图3示出从如图2所示的放射学报告(radiologyreport)(或放射学诊断报告)中提取出的身体部位实体和非身体部位实体以及它们之间的关系的例子。

图4是示出根据本发明第一实施例的用于对于非身体部位实体的所有对中的每一对、计算一对中的两个非身体部位实体之间的相关性评分的方法的流程图。

图5示出基于同一患者的多份历史医疗文档中的数据、通过在一个非身体部位实体和另一个非身体部位实体二者与同一身体部位实体相关的情况下连接这两个非身体部位实体而构建的图的例子。

图6示出根据本发明第一实施例的针对非身体部位实体的所有对中的每一对计算相关性评分并且基于所有对的相关性评分来聚类非身体部位实体的三个例子。

图7示出根据本发明第一实施例的利用一个或多个诊断对象来对与输入放射学报告相关的图像加标签的处理的例子。

图8是示出根据本发明第一实施例的用于从输入医疗文档提取诊断对象的装置的方块图。

图9示出根据本发明的示例性实施例的其中可应用本发明第一到第三实施例中的至少一个的一般硬件环境。

具体实施方式

以下将参考附图详细描述本发明的实施例。

应注意，类似的附图标记和字母指代附图中类似的项目，因此，一旦在一个附图中定义了一个项目，那么不需要对在后的附图讨论该项目。

在本发明中，术语“第一”、“第二”等仅用于在元件或步骤间进行区分，而不意在指示时间顺序、偏好或重要性。

在本发明中，术语“实体”指的是表示医疗文档中的具体医疗概念的字词。更具体而言，术语“实体”指的是在医疗文档的文本中出现的身体部位要素或非身体部位要素，其可以是字、词或者相关字/词的组，非身体部位要素例如是异常、疾病、信号、请求、检查、治疗、药物等。

医疗文档可以是包括观测结果(或所见)部分和印象(或诊断)部分的任何诊断相关文档。医疗文档可以包括放射学报告，比如计算机断层扫描(ct)诊断报告、核磁共振(nmr)诊断报告等，以及其他类型的报告，比如临床报告、术前报告和术后报告、入院记录、出院小结等。

异常指的是身体部位的异常表现。疾病指的是身体部位的病或病变。信号指的是在医疗文档中出现的某种信号，例如，t1w1低信号、t2w2高信号等。请求指的是所请求的要进行的检查或检查项目，比如ct检查、nmr检查等。检查指的是已经进行了的检查或检查项目，比如ct检查、nmr检查等。治疗指的是在医疗文档中给出的治疗方法，比如手术、多身体锻炼等。药物指的是医生开出的处方药。

身体部位实体和非实体部位实体之间的关系可以是一对一的关系、一对多的关系或者多对一的关系。如果身体部位实体和非身体部位实体之间的关系被提取，则意味着身体部位实体与非身体部位实体相关。换言之，身体部位实体和非身体部位实体之间的关系意味着它们之间的关联关系。

(第一实施例)

首先，将参考图1-图8描述本发明的第一实施例。

图1是示出根据本发明的本实施例的用于从医疗文档中提取诊断对象的方法100的流程图。以下给出的方法100的步骤意欲是说明性的。在一些实施例中，方法可以通过未描述的一个或多个附加步骤实现，和/或在没有所讨论的步骤中的一个或多个步骤的情况下实现。此外，在图1中示出的并且如以下所描述的方法的步骤的顺序不是限制性的。在一些实施例中，方法可以在一个或多个处理设备(例如，数字处理器、模拟处理器、被设计为处理信息的数字电路、被设计为处理信息的模拟电路、状态机和/或用于电处理信息的其他机制)中实现。一个或多个处理设备可以包括响应于电存储在电存储介质上的指令来执行方法的一些或全部步骤的一个或多个模块。一个或多个处理模块可以包括通过硬件、固件和/或软件配置为专门设计用于执行方法的一个或多个步骤的一个或多个设备。

如图1所示，在步骤s110中，接收输入医疗文档。在图2中示出输入医疗文档的例子。在图2中，放射学报告被示出。

在步骤s120中，从输入医疗文档中提取身体部位实体和至少一种类型的非身体部位实体以及身体部位实体和非身体部位实体之间的关系。在该提取步骤中，提取两个或更多个非身体部位实体。可以使用命名实体识别算法来提取身体部位实体和非身体部位实体。可以使用关系提取算法来提取身体部位实体和非身体部位实体之间的关系。可替代地，如果一身体部位实体和一非身体部位实体在上下文中共现(co-occur)(例如在一个或若干个句子中共现)，则提取该身体部位实体和该非身体部位实体之间的关系。

命名实体识别算法和关系提取算法是本领域技术人员已知的算法。更具体地，命名实体识别算法可以是基于规则的算法、基于机器学习的算法、基于模板的算法等。类似地，关系提取算法可以是基于规则的算法、基于机器学习的算法、基于模板的算法等。

如果一非身体部位实体与任何身体部位实体都没有明确的关系，那么可以使用知识库或零指代消解(zeroanaphoraresolution)算法将默认的相关身体部位实体分配给它。例如，知识库可以是已知的医疗知识数据库。如果一非身体部位实体必然与一身体部位实体相关，那么将该身体部位实体分配给该非身体部位实体。这种情形的一个例子例如是“十二指肠溃疡”。这里，如果进行了腹部检查，那么疾病“溃疡”将必然与实体“十二指肠”相关，因此，身体部位实体“十二指肠”将默认地被分配给非身体部位实体“溃疡”。下面将描述零指代消解算法的使用的例子。以下两个句子(i)(ii)相继出现在放射学报告中。前一句明确地涉及身体部位实体“右肺s4”，而后一句隐含地涉及“右肺s4”。因此，身体部位实体“右肺s4”将作为默认的相关身体部位被分配给第二句中的非身体部位实体。

(i)看到右肺s4的末梢中直径2.5cm的结节。

(ii)结节不规则，其内部被相对强的造影。

当提取身体部位实体和非身体部位实体之间的关系时，可以考虑非身体部位实体的极性(polarity)。即，可以考虑非身体部位实体的极性是阳性还是阴性。极性表示包括非身体部位实体的表述是肯定表述还是否定表述。例如，关于如在图2中的放射学报告的观测结果部分中示出的第一句“看到右肺s5中约3cm大的结节”，非身体部位实体(即结节(一种异常))的极性是阳性。相反，如果该句子是“未看到右肺s5中的结节”，那么异常“结节”的极性将被视为是阴性。如果极性是阴性，那么可以不提取“结节”和“右肺s5”之间关系。

当提取身体部位实体和非身体部位实体之间的关系时，可以识别实体的上位词并且可以进一步使用该上位词。例如，如果右肺s5下舌段作为身体部位实体出现在输入文档中，那么右肺s5将被识别为其上位词，并且将被用在后续的处理中。

图3示出从如图2所示的放射学报告中提取出的身体部位实体和非身体部位实体以及它们之间的关系的例子。在图3中，节点表示身体部位实体和非身体部位实体，连接节点的边表示身体部位实体和非身体部位实体之间的关系。

如从图3的下半部分可以看出的，从放射学报告中提取出了以下身体部位实体：右肺s5、右肺门、纵膈、左中叶和左上叶。并且，如从图3的上半部分可以看出的，从放射学报告中提取出了以下非身体部位实体：结节、淋巴结肿大、弥漫性的空洞和气肿性变化。

应注意，在图3的例子中，仅一种类型的非身体部位实体(即异常)被提取。能够理解，本发明不限于此。不止一种类型的非身体部位实体可以被提取。例如，如果可用的话，异常、疾病、信号、请求、检查、治疗及药物中的至少一种可以被提取。

并且，如从图3中可以看出的，因为“右肺s5”和“结节”在放射学报告中的同一句(即，“看到右肺s5中约3cm大的结节”)中共现，所以“右肺s5”和“结节”之间的关系被提取。身体部位实体和非身体部位实体之间的其他关系被类似地提取。

在步骤s130中，对于非身体部位实体的所有对中的每一对，取得一对中的两个非身体部位实体之间的相关性评分。具体而言，该相关性评分基于历史医疗文档中的一对中的两个非身体部位实体与一个或多个身体部位实体之间的关系。

将参考图4-图5详细描述步骤s130的操作。图4示出步骤s130中的子步骤。也就是，图4是示出根据本发明的本实施例的用于对于非身体部位实体的所有对中的每一对、计算一对中的两个非身体部位实体之间的相关性评分的方法400的流程图。应注意，图4的步骤可以在线地执行并且相关性评分可以实时地被计算。可替代地，方法400的步骤可以预先离线地执行并且算出的相关性评分可以被预先存储，并且预先存储的相关性评分可以在必要时被取回。图5示出基于同一患者的多份历史医疗文档中的数据、通过在一个非身体部位实体和另一个非身体部位实体二者与同一身体部位实体相关的情况下连接这两个非身体部位实体而构建的图的例子。

现参考图4，在步骤s401中，从多份历史放射学报告中提取身体部位实体和非身体部位实体以及它们之间的关系，并且通过使用所提取的实体以及所提取的关系来构建图(或路径图)。具体地，通过将身体部位实体用作非身体部位实体的连接点来构建图。并且，假设每个非身体部位实体都与身体部位实体相关。更具体而言，首先，如果一个非身体部位实体和另一个非身体部位实体与同一身体部位实体相关，那么这两个非身体部位实体将经由这一身体部位实体相连接。其次，跨多份历史医疗文档重复地进行这种连接直到没有更多非身体部位实体需要被连接为止。可以理解，在构建图的同时，连接两个不同非身体部位实体的路径被相应地构建。

所构建的图的例子在图5中示出。在图5中，节点表示身体部位实体和非身体部位实体，连接节点的边表示身体部位实体和非身体部位实体之间的关系。在图5中，身体部位实体被用作“枢纽”(或核心节点)。

如从图5中可见，连接不同的非身体部位实体的路径已经被构建。例如，在图5中，示出了两个身体部位实体。对于左侧的身体部位实体，其附近的两种不同的异常因为都与该左侧的身体部位实体相关而相互连接。换言之，经由一个身体部位实体连接两种不同异常的路径可以被构建。此外，类似地，在右侧的身体部位实体的左右两侧的两种不同的异常同样因为都与该右侧的身体部位实体相关而相互连接。基于此，左侧身体部位实体上方的异常和右侧身体部位实体右侧的异常因为经由两个身体部位实体而与同一异常(左侧身体部位实体的下方的异常)相关，所以它们也被连接。换言之，经由两个身体部位实体连接这两种不同异常的路径可以被构建。可替代地，左侧身体部位实体上方的异常和右侧身体部位实体右侧的异常也可以经由疾病实体连接，该疾病实体连接左侧和右侧身体部位实体。如图5所示构建的图，更具体地，在图5中构建的图可以用于计算两个非身体部位实体之间的相关性评分，这将在随后详细描述。

应注意，在图5的图中，根据同一患者(即患者x)的历史放射学报告来构建实体间的路径。然而本发明不限于此。路径可以根据不同患者的历史放射学报告而在实体间被构建。

应注意，例如，用于构建图或者路径的多份历史放射学报告的数目可以是大于或等于100。优选地，用于构建图或者路径的多份历史放射学报告的数目可以是大于或等于100并且小于或等于一百万。能够理解，所使用的历史报告的数目越大，那么所计算出的相关性评分的精度将会越高。

在步骤s402，基于在步骤s401中构建的图(或路径图)，连接历史放射学报告中的一对内的两个非身体部位实体的路径的数目被计数。具体而言，在图5中，示出利用患者x的多份历史放射学报告构建的图。类似的，可以针对另一患者构建这样的图。如果考虑大量的以这种方式构建的图，比如成百上千个图，那么连接一对中的两个非身体部位实体的路径的数目可以被计数并且进一步地可被用于计算相关性评分。如前所述，通过如下基本原理来构建连接一对中的两个非身体部位实体的路径：如果一个非身体部位实体和另一个非身体部位实体二者与同一身体部位实体相关，那么将这一个非身体部位实体连接到这另一个非身体部位实体。

可选的，步骤s402还可以包括使用非身体部位实体的属性作为约束来对路径进行过滤，其中非身体部位实体的属性包括极性、患者标识、患者年龄、患者性别、检查间的时间跨度及身体部位本体(ontology)中的至少一个。例如，对于经由一个身体部位实体连接两个异常的路径，如果异常中的一个或二者的极性为阴性，则这样的路径将是无效的并且将被滤除并丢弃。又例如，假设在一份报告中在声带膜处看见结节，而在另一份报告中在声带膜处看见淋巴结肿大，如果两份报告来自不同的患者(或者来自两个患者标识)，那么路径“结节-声带膜-淋巴结肿大”将是无效的并且将被滤除并丢弃。可替代地，同样在此假设下，如果两份报告间的时间跨度例如比2年更大，那么路径“结节-声带膜-淋巴结肿大”将是无效的并且将被滤除并丢弃。关于患者年龄或患者性别的约束可以被类似地应用。身体部位本体是已知的医疗知识库，其中记录了身体部位实体的上位和/或下位概念。再例如，对于经由一个身体部位实体连接两个异常的路径，如果肺是感兴趣的身体部位，那么包括例如右肺s5、右肺门、肺左中叶、肺左上叶等的路径将被过滤出来供进一步使用。

在步骤s403，利用计数来计算一对中的两个非身体部位实体之间的相关性评分。各种计算方法可以用来计算相关性评分。在本发明的一个实施例中，一对中的两个非身体部位实体在其两端处共现的路径的数目的计数(被表示为c1)和一对中的两个非身体部位实体中的仅一个在其两端中的任一端处出现的路径的数目的计数(被表示为c2)被用来根据下式计算相关性评分：

其中s表示一对中的两个非身体部位实体之间的相关性评分，c1表示一对中的两个非身体部位实体在其两端处共现的路径的数目的计数，c2表示一对中的两个非身体部位实体中的仅一个在其两端中的任一端处出现的路径的数目的计数。相关性评分s可以取大于等于0的且小于等于1的值。计数c1和c2可以取大于等于0的正整数值。

可见，一对中的两个非身体部位实体共现的路径的数目的计数越大，则一对中的两个非身体部位实体不共现的路径的数目的计数越小，并且相应地相关性评分越高。应注意，由上述式(1)表示的计算方法仅仅是示例性的例子，也可以使用其他的计算方法。例如，比如随机游走或成对随机游走之类的算法也可用于计算相关性评分。

应注意，在基于来自多份历史放射学报告的数据构建出图或路径之后，将针对输入放射学报告中的非身体部位实体的所有对中的每一对重复地执行步骤s402和s403。

现返回到图1的步骤s140，在步骤s140中，执行对输入放射学报告中的非身体部位实体(例如，图2中示出的四种异常)的聚类，该聚类基于所有对的相关性评分。包括k-均值(k-means)、近邻传播(affinitypropagation)和谱聚类(spectrumclustering)中的至少一个的聚类算法可以用来基于所有对的相关性评分来将输入放射学报告中的非身体部位实体聚类到k个群集中。在这种情况下，所计算出的所有对的相关性评分可以用作k-means算法中的“相似性”参数，并且变量k可以由在输入放射学报告的印象部分中出现的疾病的数目来确定。具体而言，在图2中，在印象部分中示出了3种疾病，即原发性肺癌、蜂窝肺和肺气肿。因此，变量k可以是3。也就是，从图2的报告中提取出的四种异常可被聚类到3个群集中。

在步骤s150，与被聚类在每个群集中的一个或多个非身体部位实体相关的一个或多个身体部位实体被作为一个诊断对象输出。例如，在结节和淋巴结肿大被聚类到一个群集中的情况下，与它们相关的身体部位实体(即，如从图3可以看出的，右肺s5、右肺门和纵膈)可以作为一个诊断对象被输出。

可选地，基于已知的医疗知识或者利用已知的医疗知识数据库，可以将一个诊断对象(即，一组身体部位实体)进一步与一种疾病相关。例如，一个诊断对象，即所聚类的身体部位实体—右肺s5、右肺门和纵膈—可以基于已知的医疗知识与疾病“原发性肺癌”相关。换言之，这些身体部位被一起考虑来做出关于“原发性肺癌”的诊断。

在步骤s160，可选地，可以利用一个或多个输出的诊断对象来对与输入放射学报告相关的图像加标签。将在随后参考图7来详细描述此步骤。

接下来，将参考图6描述第一实施例的三个例子。图6示出了根据本发明的本实施例的、针对非身体部位实体的所有对中的每一对计算相关性评分并且基于所有对的相关性评分来聚类非身体部位实体的三个例子。

第一个例子(使用路径a-(b)-a)

在此第一个例子中，将考虑经由一个身体部位实体连接一对中的两个非身体部位实体的路径。将使用a-(b)-a表示这种路径，其中a表示异常实体，b表示身体部位实体，并且“()”表示“枢纽”。

在图2和图3中示出的例子中，在步骤s120中提取出四种不同的异常，即，(i)结节、(ii)淋巴结肿大、(iii)空洞和(iv)气肿性变化。因此，在步骤s130中，针对这四种不同的异常的所有对中的每一对计算相关性评分。这四种不同的异常的所有对中的每一对包括以下的对：(i)和(i)、(i)和(ii)、(i)和(iii)、(i)和(iv)、(ii)和(ii)、(ii)和(iii)、(ii)和(iv)、(iii)和(iii)、(iii)和(iv)、及(iv)和(iv)。在图6的中部的表格中，示出了计算出的相关性评分。能够理解，鉴于包括两个相同的异常的对的相关性评分会是1，因此这种对在一些情况下可以不被考虑。

以下，将详细描述(i)结节和(ii)淋巴结肿大的对的相关性评分的计算。能够理解，其他对的相关性评分可以以类似方式计算。

首先，基于患者x的多份历史放射学报告构建诸如如图5所示的图之类的图。并且，可以针对各个患者类似地构建大量的图。例如，由医院的放射学科室在过去一个月、过去六个月或过去一年期间做出的不同患者的历史放射学报告可以用来构建大量的图。

其次，基于所构建的图，历史放射学报告中的连接(i)结节和(ii)淋巴结肿大的路径的数目可以被计数。具体而言，a-(b)-a形式的路径的数目将被计数。例如，如图6的上部表格所示，如果在患者x的一份报告中在声带膜处发现结节，而在患者x的另一份报告中还在声带膜处发现淋巴结肿大，则可以构建路径“结节-声带膜-淋巴结肿大”。可替代地，所考虑的报告可以来自不同的患者。类似地，还可以构建路径“结节-甲状腺-淋巴结肿大”、“结节-窦房结-淋巴结肿大”、“结节-肺尖-淋巴结肿大”及“结节-腹腔-淋巴结肿大”。对不同路径的计数被表示在图6中的上部表格的最右侧一列中。这些计数或计数值的和可以表示这两种异常(i)结节和(ii)淋巴结肿大共现的路径的数目，并且进一步可以用于计算这两种异常(i)结节和(ii)淋巴结肿大之间的相关性评分。

第三，使用计数来计算这两种异常(i)结节和(ii)淋巴结肿大之间的相关性评分。可以使用上述式(1)来计算相关性评分。在这个例子中，计数c1是25+64+37+74+28＝228，计数c2(未示出)是25，因此相关性评分是约0.9，该相关性评分在图6中部的表格中被记录。类似地，其他对中的每一对中的两种异常之间的相关性评分被计算并被记录在图6中部的表格中。所有对的相关性评分然后可以用于对从输入放射学报告中提取出的四种异常进行聚类。

在这个例子中，鉴于在印象部分中出现了三种疾病，所以四种异常可以被聚类到三个群集中。如之前提到的，k-means算法可以用于进行聚类。可替代地，在这个例子中，因为四种异常要被聚类到三个群集中，所以如图6所示，最高相关性评分0.9、最低相关性评分0.1和次最低相关性评分0.2被用于将四种异常分组到三个组中。

然后，与被聚类在每个群集中的一个或多个非身体部位实体相关的一个或多个身体部位实体被作为一个诊断对象输出。即，右肺s5、右肺门和纵膈可以作为第一诊断对象输出；左中叶可以作为第二诊断对象输出；并且左上叶可以作为第三诊断对象输出。换言之，将输出以下诊断对象，其中{}内的实体被视为一个诊断对象：

{右肺s5，右肺门，纵膈}；

{左中叶}；

{左上叶}。

另外，可选地，基于已知的医疗知识，这些诊断对象可以进一步与出现在报告的印象部分中的疾病相关。例如，可以输出以下信息：

{右肺s5，右肺门，纵膈}/原发性肺癌；

{左中叶}/蜂窝肺；

{左上叶}/肺气肿。

这样，诊断相关的诊断对象可以被提取并输出。上述输出表明，右肺s5、右肺门和纵膈被一起考虑来做出关于“原发性肺癌”的诊断。类似地，左中叶被考虑来做出关于“蜂窝肺”的诊断，并且左上叶被考虑来做出关于“肺气肿”的诊断。

另外，关于在背景技术中给出的报告2，通过利用在此第一例子中描述的方法取得的输出将是：

{右肺s5}/肺癌；

{右肺门，纵膈，左中叶}/间质性肺炎；

{左上叶}/盘状肺膨胀不全。

上述输出表明，右肺s5被考虑来做出关于“肺癌”的诊断。右肺门、纵膈、左中叶被一起考虑来做出关于“间质性肺炎”的诊断，并且左上叶被考虑来做出关于“盘状肺膨胀不全”的诊断。

可见，根据本发明的方法，医疗文档中的实体可以被划分到诊断相关的组中。换言之，医疗文档中的实体可以根据医疗文档中做出的诊断而分组。

通过使用这种诊断相关的组，可以容易地使诊断与图像中的对象区域关联，并且可以容易地分析和比较放射学报告。并且，这对于辅助放射科医师的工作而言会是有利的，例如，这可用于避免漏掉对于做出诊断而言必要的任何身体部位的检查。

应注意，要聚类的群集的数目不限于在放射学报告中出现的疾病的数目。要聚类的群集的数目可以视情况被确定为其他值。

第二个例子(使用路径a-(b)-a-(b)-a)

接下来，将参考图6来描述第二个例子。除了考虑连接一对中的两个非身体部位实体的不同形式的路径外，第二个例子与第一个例子相同。具体而言，考虑经由两个身体部位实体将一对中的两个非身体部位实体连接到第三非身体部位实体的路径。更具体地，考虑经由两个身体部位实体将两种异常连接到第三种异常的路径。使用a-(b)-a-(b)-a来表示这种路径，其中a表示异常实体，b表示身体部位实体，并且“()”表示“枢纽”。此路径意味着两种异常与同一种异常共现。

如从图6可见，路径“结节-窦房结-肥厚-左心房-淋巴结肿大”被构建。此路径意味着异常“结节”和“淋巴结肿大”与第三种异常“肥厚”共现。这种路径的计数或计数值是5。此计数可单独用于计算异常(i)结节和(ii)淋巴结肿大之间的相关性评分。具体而言，此计数和a-(b)-a-(b)-a形式的、异常结节和淋巴结肿大中的仅一个在其两端中的任一端处出现的路径的计数二者可被用于执行计算。可替代地，此计数可以与针对路径a-(b)-a的计数结合使用来计算相关性评分。也就是，此计数将被进一步加至针对第一个例子中的路径a-(b)-a的计数以取得连接异常(i)结节和(ii)淋巴结肿大的路径的数目的计数。

随后的相关性评分计算处理、聚类处理及输出处理与第一个例子中的那些类似。

在第二个例子中，可以取得与第一个例子中的那些优点相同的优点。此外，通过使用a-(b)-a-(b)-a形式的路径，可以观察到疾病的扩散。此外，可以将这种疾病的扩散提示给放射科医师。

第三个例子(使用路径a-(b)-d-(b)-a)

接下来，将参考图6来描述第三个例子。除了考虑连接一对中的两个非身体部位实体的不同形式的路径外，第三个例子与第一个例子相同。具体而言，同样考虑经由两个身体部位实体将一对中的两个非身体部位实体连接到第三非身体部位实体的路径，然而考虑经由两个身体部位实体将两种异常连接到疾病的路径。使用a-(b)-d-(b)-a来表示这种路径，其中a表示异常实体，b表示身体部位实体，d表示疾病，并且“()”表示“枢纽”。此路径意味着两种异常与同一种疾病共现。

如从图6可见，路径“结节-肺尖-肺癌-胸膜-淋巴结肿大”和“结节-甲状腺-甲状腺肿-甲状腺-淋巴结肿大”被构建。前一路径意味着异常“结节”和“淋巴结肿大”是同一种疾病“肺癌”的异常。类似地，后一路径意味着异常“结节”和“淋巴结肿大”是同一种疾病“甲状腺肿”的异常。应注意，在后一路径中，用作连接点的两个身体部位是相同的身体部位“甲状腺”。也就是说，用作连接点的两个身体部位可以是相同的或不同的。虽然在第二个例子中未例示出，但是这一点对于a-(b)-a-(b)-a形式的路径而言也是成立的。这种路径的计数或计数值是56+12＝68。类似地，此计数可单独用于计算异常(i)结节和(ii)淋巴结肿大之间的相关性评分。具体而言，此计数和a-(b)-d-(b)-a形式的、异常结节和淋巴结肿大中的仅一个在其两端中的任一端处出现的路径的计数二者可被用于执行计算。可替代地，此计数可以与针对路径a-(b)-a的计数和针对路径a-(b)-a-(b)-a的计数中的至少一个结合使用来计算相关性评分。也就是，此计数将被进一步加至针对路径a-(b)-a的计数和针对路径a-(b)-a-(b)-a的计数中的至少一个以取得连接异常(i)结节和(ii)淋巴结肿大的路径的数目的计数。

随后的相关性评分计算处理、聚类处理及输出处理与第一个例子中的那些类似。

在第三个例子中，可以取得与第一个例子中的那些优点相同的优点。此外，通过使用a-(b)-d-(b)-a形式的路径，可以观察到疾病的扩散。此外，可以将这种疾病的扩散提示给放射科医师。

应注意，尽管在上述三个例子中，两个异常被用作一对中的两个非身体部位实体，但是能够理解，其他类型的非身体部位实体可以用来替换异常实体中的一个或二者。例如，可以考虑a-(b)-s、s-(b)-s、a-(b)-r、e-(b)-r、a-(b)-s-(b)-a、a-(b)-d-(b)-s等形式的路径，其中s表示信号、r表示请求并且e表示检查。

应注意，尽管在上述三个例子中，路径的长度有限，但是能够理解，也可以考虑诸如a-(b)-a-(b)-a-(b)-a或a-(b)-d-(b)-a-(b)-d-(b)-a之类的更长的路径。然而应注意，随着路径的长度的增大，所计算出的相关性评分的可靠性可能降低。

应注意，现参考图3，如果异常“空洞”还与身体部位“右肺s5”相关，那么与“右肺s5”相关的此异常“空洞”将被视为不同于与“左中叶”相关的异常“空洞”。并且，将通过将它们视为两种不同的异常来计算它们二者之间的相关性评分。

可选地，步骤s130还可以包括利用预先定义的规则来向每一个路径分配权重，并且使用每一个路径的计数和权重来计算相关性评分。具体而言，在本发明的一个实施例中，在计算相关性评分的步骤s403之前，可以存在利用预先定义的规则来将权重分配给每一个路径的可选步骤。

例如，如果当考虑路径的数目时考虑所有的路径a-(b)-a、a-(b)-a-(b)-a和a-(b)-d-(b)-a，那么这三种路径可以被分配不同的权重。例如，如果认为疾病的扩散更重要(对应于预先定义的规则)，那么分配给后两种路径的权重可以高于分配给第一种路径的权重。假设权重w2被给予路径a-(b)-a-(b)-a和a-(b)-d-(b)-a中的每个，而权重w1被给予路径a-(b)-a，其中w2>w1，那么例如一对中的两个异常之间的相关性评分可以根据下式(2)来计算：

其中s表示一对中的两个异常之间的相关性评分，c11表示一对中的两个异常共现的a-(b)-a形式的路径的数目的计数，c21表示一对中的两个异常不共现的a-(b)-a形式的路径的数目的计数，c12表示一对中的两个异常共现的a-(b)-a-(b)-a和a-(b)-d-(b)-a形式的路径的数目的计数，c22表示一对中的两个异常不共现的a-(b)-a-(b)-a和a-(b)-d-(b)-a形式的路径的数目的计数。相关性评分s可以取大于等于0且小于等于1的值。计数c11、c12、c21或c22可以取大于等于0的正整数值。权重w1或w2可以取大于等于0且小于等于1的值。

应注意，上述预先定义的规则仅仅是说明性的，并且其他预定义的规则可以视情况被采用。此外，等式(2)也仅仅是说明性的，并且本发明不限于此。

接下来，将参考图7详细描述利用一个或多个诊断对象来对与输入放射学报告相关的图像加标签的处理。在图7的左侧，示出作为与图2的报告相同的报告的输入放射学报告及其相关的放射学图像。在根据如上所述的本发明的方法处理之后，输出可以是在图7的右侧示出的表格。

如图7的右下角中所示出的，根据三个诊断对象对相关的放射学图像加了标签。也就是，用数字“1”对第一诊断对象中的身体部位加了标签，用数字“2”对第二诊断对象中的身体部位加了标签，并用数字“3”对第三诊断对象中的身体部位加了标签。这种加标签可以辅助放射科医师的工作。例如，这种加标签对于避免漏掉对做出诊断所必需的任何身体部位的检查而言会是有利的。

接下来，图8是示出根据本发明的本实施例的用于从输入医疗文档提取诊断对象的装置800的方块图。装置800的方块可以通过硬件、软件、固件或其任意组合来实现从而实现本发明的原理。本领域技术人员能够理解，在图8中绘制的方块可以组合或分成子块来实现如上所述的本发明的原理。因此，这里的描述可以支持这里描述的方块的任意可能的组合或者分离或者进一步限定。

如图8所示，装置800包括：实体和关系提取部810、相关性评分取得部820、聚类部830和诊断对象输出部840。可选地，装置800还包括图像加标签部850。实体和关系提取部810可以被配置成从输入医疗文档中提取身体部位实体和至少一种类型的非身体部位实体以及身体部位实体与非身体部位实体之间的关系，其中对不少于两个的非身体部位实体进行提取。相关性评分取得部820可以被配置成对于非身体部位实体的所有对中的每一对，取得一对中的两个非身体部位实体之间的相关性评分，其中，该相关性评分基于历史医疗文档中的所述一对中的两个非身体部位实体与一个或多个身体部位实体的关系。聚类部830可以被配置成基于所有对的相关性评分将输入医疗文档中的非身体部位实体聚类为一个或多个群集。诊断对象输出部840可以被配置成输出与被聚类在每个群集中的一个或多个非身体部位实体相关的一个或多个身体部位实体作为一个诊断对象。图像加标签部850可以被配置成通过使用一个或多个诊断对象来对与输入医疗文档有关的图像加标签。

尽管在图8中未示出，但是图8还可以包括接收部，其被配置成接收输入医疗文档。

相关性评分取得部820可以进一步包括：图构建部(或路径图构建部)821、路径数目计数部822和相关性评分计算部823。相关性评分取得部820可以可选地进一步包括：权重分配部824。图构建部821可以被配置成通过基于来自多份历史医疗文档的数据，在一个非身体部位实体和另一个非身体部位实体二者与同一身体部位实体相关的情况下将这一个非身体部位实体连接到这另一个非身体部位实体，并且跨多份历史医疗文档重复地进行这种连接，来构建图。路径数目计数部822可以被配置成基于所构建的图(或路径图)，针对非身体部位实体的所有对中的每一对，对历史医疗文档中的连接一对中的两个非身体部位实体的路径的数目进行计数。并且，相关性评分计算部823可以被配置成针对非身体部位实体的所有对中的每一对，利用计数来计算一对中的两个非身体部位实体之间的相关性评分。例如，对于非身体部位实体的所有对中的每一对，可以根据上述式(1)来计算相关性评分。权重分配部824可以被配置成利用预先定义的规则来将权重分配给每条路径。如果权重分配部824存在，那么相关性评分计算部823可以利用计数和每条路径的权重来计算相关性评分，例如根据上述式(2)来计算相关性评分。

可替代地，如果两个非身体部位实体的各个对的相关性评分被预先计算并且被预先存储，那么相关性评分取得部820可以被配置成按需取回预先存储的相关性评分。

(第二实施例)

接下来，将描述本发明的第二实施例。除了将在一个群集中聚类的一个或多个非身体部位实体(而不是与之相关的一个或多个身体部位实体)作为一个诊断对象输出外，第二实施例与第一实施例相同。

仍将图2的输入放射学报告作为例子，在第一实施例中，右肺s5、右肺门和纵膈可以作为第一诊断对象输出；左中叶可以作为第二诊断对象输出；并且，左上叶可以作为第三诊断对象输出。在此第二实施例中，替代输出身体部位实体的三个群集，可以分别输出非身体部位实体的三个群集作为三个诊断对象。具体而言，可以输出如下的诊断对象：

{结节，淋巴结肿大}；

{空洞}；

{气肿性变化}。

可以理解，第二实施例可以与第一实施例组合。例如，一个群集内的一个或多个非身体部位实体可以作为一个诊断对象独立地输出，或者可以与一个或多个相关的身体部位实体一起作为一个诊断对象输出。又例如，这些非身体部位实体可以进一步与在输入放射学报告的印象部分中出现的疾病相关。除非明确陈述组合不被允许或者组合不合乎逻辑，否则第一实施例的各个方面均可以与第二实施例组合。

用于实现第二实施例的装置800’可以包括：如图8所示的实体和关系提取部810、相关性评分取得部820和聚类部830，以及诊断对象输出部840’。诊断对象输出部840’可以被配置成，作为一个诊断对象，输出被聚类在每个群集中的一个或多个非身体部位实体和/或与被聚类在每个群集中的一个或多个非身体部位实体相关的一个或多个身体部位实体。装置800’可以可选地包括如图8所示的图像加标签部850。

(第三实施例)

接下来，将描述本发明的第三实施例。第三实施例可应用于对输入医疗文档中的文本进行分段。在此第三实施例中，基于在上述第一或第二实施例中确定出的诊断对象，输入医疗文档中的文本被分段以使得在每个群集中的聚类的一个或多个非身体部位实体及与这一个或多个非身体部位实体相关的一个或多个身体部位实体存在于一个片段中。

仍将图2的输入放射学报告作为例子，在根据第三实施例的文本分段处理之后，如下的分段后的文本可被输出，其中“{……}”表示不同的片段：

<图像观测结果>

{看到右肺s5中约3cm大的结节。

看到右肺门和纵膈淋巴结肿大。}

{看到左中叶中形成弥漫性的空洞。}

{看到左上叶中的气肿性变化。看见外径7cm的大疱。}

虽然在此例子中，输入医疗文档中的文本被顺序地分段，但是能够理解，文本是根据所提取的诊断对象来分段的。也就是，与一个诊断对象相关的文本将被分段到一个片段中。因此，如果假设右肺s5和左中叶被分组到一个群集中，那么与左中叶相关的第三句的次序将被调整到第一句之后，从而使得与右肺s5相关的第一句和与左中叶相关的第三句可被分段到一个片段中。

用于实现第三实施例的装置800”可以包括：如图8所示的实体和关系提取部810、相关性评分取得部820和聚类部830，以及文本分段部860，该文本分段部860被配置成对输入医疗文档中的文本进行分段以使得在每个群集中聚类的一个或多个非身体部位实体和与这一个或多个非身体部位实体相关的一个或多个身体部位实体存在于一个片段中。

可以理解，第三实施例可以与第一实施例和/或第二实施例组合。除非明确陈述组合不被允许或者组合不合乎逻辑，否则第一和第二实施例的各个方面均可以与第三实施例组合。

(硬件实现方式)

图9图示出根据本发明的示例性实施例的其中可应用上述第一到第三实施例中的至少一个的一般硬件环境900。

参考图9，现将描述作为本发明的各方面可应用到其的硬件设备的例子的计算设备900。计算设备900可以是被配置成执行处理和/或计算的任何机器，其可以是但不限于是工作站、服务器、桌上型计算机、膝上型计算机、平板计算机、个人数字助理、智能手机、车载计算机或者其任意组合。前述装置800、800’或800”可以整体地或至少部分地由计算设备900或类似设备或系统来实现。

计算设备900可以包括与总线902连接的或者与之通信的元件，该连接或者通信可能是经由一个或多个接口实现。例如，计算设备900可以包括总线902、一个或多个处理器904、一个或多个输入设备906及一个或多个输出设备908。一个或多个处理器904可以是任何种类的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(比如专用处理芯片)。输入设备906可以是能够将信息输入到计算设备的任何种类的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备908可以是能够呈现信息的任何种类的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备900还可以包括非瞬态存储设备910或者与非瞬态存储设备910连接，该非瞬态存储设备910可以是非瞬态的且能实现数据存储的任何存储设备，并且可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或者任何其他磁介质、光盘或者任何其他光学介质、rom(只读存储器)、ram(随机存取存储器)、高速缓存存储器和/或任何其他存储器芯片或盒和/或计算机可以从其读取数据、指令和/或代码的任何其他介质。非瞬态存储设备910可以具有用于实现上述的方法和步骤的数据/指令/代码。计算设备还可以包括通信设备912。通信设备912可以是能实现与外部装置和/或与网络的通信的任何种类的设备，并且可以包括但不限于调制解调器、网络卡、红外通信设备、无线通信设备和/或芯片集，比如蓝牙^tm设备、1302.11设备、wifi设备、wimax设备、蜂窝通信设施等。

总线902可以包括但不限于工业标准架构(isa)总线、微通道架构(mca)总线、增强isa(eisa)总线、视频电子标准协会(vesa)局部总线及外围设备互连(pci)总线。

计算设备900还可以包括工作存储器914，其可以是可存储对于处理器904的工作有用的指令和/或数据的任何种类的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素可以位于工作存储器914中，其包括但不限于操作系统916、一个或多个应用程序918、驱动器和/或其他数据和代码。用于执行上述方法和步骤的指令可以包括在一个或多个应用程序918中，并且前述装置800、800’或800”的部件可以通过处理器904读取并执行一个或多个应用程序918的指令来实现。更具体而言，前述装置800、800’或800”的实体和关系提取部810例如可以在执行具有执行步骤s120的指令的应用918时由处理器904实现。此外，前述装置800、800’或800”的相关性评分取得部820例如可以在执行具有执行步骤s130或步骤s401-403的指令的应用918时由处理器904实现。前述装置800、800’或800”的其他部件例如可以在执行具有执行一个或多个前述相应步骤的指令的应用918时由处理器904实现。软件要素的指令的可执行代码或源代码可以存储在非瞬态计算机可读存储介质中，比如上述的(一个或多个)存储设备910，并且可以被读取到工作存储器914中并可能被编译和/或安装。软件要素的指令的可执行代码或源代码也可以从远程位置下载。

应注意，本发明还提供了使指令存储于其上的非瞬态计算机可读介质，所述指令在被处理器执行时使得处理器执行第一到第三实施例的上述方法中的每一种方法的步骤。

能够以许多种方式来实现本发明的方法和装置。例如，可以通过软件、硬件、固件或其任意组合来实现本发明的方法和装置。方法步骤的如上所述的次序仅仅意欲是说明性的，并且除非另有特别说明，否则本发明的方法的步骤不限于以上具体描述的次序。此外，在一些实施例中，本发明也可以实现为记录在记录介质中的程序，该程序包括用于实现根据本发明的方法的机器可读指令。因此，本发明还覆盖存储有用于实现根据本发明的方法的程序的记录介质。

虽然已经用例子详细描述了本发明的一些具体实施例，但是本领域的技术人员应理解，上述例子仅意欲是说明性的而不限制本发明的范围。本领域的技术人员应理解，可以在不背离本发明的精神和范围的情况下修改上述实施例。本发明的范围由随附的权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡钦谙;黄耀海;郭瑞山
技术所有人：佳能株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。