医疗命名实体识别系统生成方法及装置与流程

文档序号：11133913阅读：298来源：国知局

本公开涉及医疗大数据技术领域，尤其涉及一种医疗命名实体识别系统生成方法及医疗命名实体识别系统生成装置。

背景技术：

医疗过程中，会产生大量的医疗数据，主要包含患者的病历、医嘱、护理文书、检查所见和检查结论等，这些数据反映了患者的基本信息、临床诊断、治疗过程和结果。随着医疗系统信息化的建立和完善，越来越多的医疗数据由人工记录的方式转为电子化录入。目前，对于病历、医嘱、护理文书和检查报告等临床信息主要由医疗人员通过自然语言的方式书写而成，信息结构较为复杂。因而如何对大量这些非结构化数据进行处理、分析和挖掘是医疗信息化建设的重要问题。其中，进行医疗命名实体识别是必不可少的。

现有技术中，对命名实体的识别方法一般包括三种:基于词典的方法、基于启发式规则的方法和基于机器学习的方法。前两种方法对词典或规则有很强的依赖性，且在中文方面，可供使用的资源相对匮乏。此外，对于海量医疗自然语言文本而言，由于不同医疗人员的写法不一，使得同一个医疗命名实体通常具有很多种写法。而基于机器学习的方法通常都是采用有监督的方法，需要大量人工标注才能达到一定效果。因此，如何在大量自然语言文本中快速挖掘输出有意义的医疗命名实体是亟待解决的技术问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

本公开的目的在于提供一种医疗命名实体识别系统生成方法及医疗命名实体识别系统生成装置，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面，提供一种医疗命名实体识别系统生成方法，包括：

通过一医疗命名实体识别系统接收多个医疗文本样本，并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体；

对所述多个候选医疗命名实体进行标注，得到多个推荐医疗命名实体；

计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比，并判断所述数量之比是否小于第一预设值；

在判断所述数量之比小于所述第一预设值时，将所述推荐医疗命名实体输入至所述医疗命名实体识别系统，并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并转至对所述多个候选医疗命名实体进行标注的步骤；

在判断所述数量之比不小于所述第一预设值时，以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。

在本公开的一种示例性实施例中，所述利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体包括：

计算所述多个医疗文本样本中各个命名实体的权重值；

选取权重值最高的多个命名实体作为所述候选医疗命名实体。

在本公开的一种示例性实施例中，计算所述多个医疗文本样本中各个命名实体的权重值包括：

在spark环境下，通过N-Gram算法和tf-idf算法计算所述多个医疗文本样本中各个命名实体的权重值。

在本公开的一种示例性实施例中，所述将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统，并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体包括：

从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体；

增加所述补充医疗命名实体在所述多个医疗文本样本中的权重值；

选取权重值最高的多个命名实体作为所述候选医疗命名实体。

在本公开的一种示例性实施例中，所述从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体包括：

根据预设模型对所述多个医疗样本文本进行分词，得到多个切分单元；

获取所述多个推荐医疗命名实体的上下文特征，并分别将各所述推荐医疗命名实体的上下文特征表示为第一向量；

获取所述多个切分单元的上下文特征，并分别将各所述切分单元的上下文特征表示为第二向量；

计算所述第一向量与所述第二向量的相似度，并判断所述相似度是否小于第二预设值；

选取与所述第一向量的相似度不小于所述第二预设值的第二向量，并将与所述第二向量表示的上下文特征对应切分单元作为所述候选医疗命名实体。

在本公开的一种示例性实施例中，所述预设模型为隐马尔科夫模型。

在本公开的一种示例性实施例中，其中，通过word2vec将各所述推荐医疗命名实体的上下文特征表示为第一向量以及将各所述切分单元的上下文特征表示为第二向量。

在本公开的一种示例性实施例中，所述第一预设值为85％-90％。

在本公开的一种示例性实施例中，其中，在对所述多个候选医疗命名实体进行标注的同时，对被标注的所述推荐医疗命名实体进行分类；

在从所述多个医疗文本样本中获取所述候选医疗命名实体的同时，根据与该所述候选医疗命名实体相似的所述推荐医疗命名实体的分类对该所述候选医疗命名实体推荐分类。

根据本公开的一个方面，提供一种医疗命名实体识别系统生成装置，包括：

冷启动单元，用于通过一医疗命名实体识别系统接收多个医疗文本样本，并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体；

标注单元，用于对所述多个候选医疗命名实体进行标注，得到多个推荐医疗命名实体；

评估单元，用于计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比，并判断所述数量之比是否小于第一预设值；

反馈单元，用于在判断所述数量之比小于所述第一预设值时，将所述推荐医疗命名实体输入至所述医疗命名实体识别系统，并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并反馈至所述标注单元；

输出单元，用于在判断所述数量之比不小于所述第一预设值时，以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。

本公开的医疗命名实体识别系统生成方法及装置，通过向医疗命名实体识别系统输入大量基于自然语言的医疗文本样本，利用机器学习获取多个候选医疗命名实体；然后对多个候选医疗命名实体进行标注，得到多个推荐医疗命名实体；随后，可计算推荐医疗命名实体和候选医疗命名实体的数量之比并将其与第一预设值进行比较，当数量之比不小于第一预设值时，说明医疗命名实体识别系统的性能已经满足需要，此时，可直接将医疗命名实体识别系统作为目标医疗命名实体识别系统进行输出；当数量之比小于第一预设值时，则说明医疗命名实体识别系统的性能尚未满足需要，可将多个推荐医疗命名实体输入至医疗命名实体识别系统并根据多个推荐医疗命名实体从多个医疗文本样本中获取多个候选医疗命名实体并再次进行标注，得到更多个推荐医疗命名实体，依此类推迭代，直至数量之比不小于第一预设值时，即医疗命名实体识别系统的性能已经满足需要时，可将医疗命名实体识别系统作为目标医疗命名实体识别系统进行输出。

在上述过程中，结合机器学习和人工标注，也即结合非监督和有监督算法，快速生成性能满足需要的医疗命名实体识别系统，进而可以在最小人工标注代价下快速产出的医疗命名实体，同时可以保证在海量数据集中可以达到良好的识别率。

附图说明

通过参照附图详细描述其示例实施方式，本公开的上述和其它特征及优点将变得更加明显。

图1是本公开实施例医疗命名实体识别系统生成方法的流程图；

图2是本公开实施例医疗命名实体识别系统生成方法中利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体的流程图；

图3是本公开实施例医疗命名实体识别系统生成方法中将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统，并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体的流程图；

图4是是本公开实施例医疗命名实体识别系统生成装置的原理框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种医疗命名实体识别系统生成方法，参照图1中所示，所述医疗命名实体识别系统生成方法可以包括以下步骤：

步骤S11，通过一医疗命名实体识别系统接收多个医疗文本样本，并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体。举例而言，可向所述医疗命名实体识别系统输入大量的医疗文本样本，所述医疗文本样本中包括大量医疗命名实体和非医疗命名实体，通过机器学习的方式从所述医疗文本样本中筛选出多个医疗命名实体作为候选医疗命名实体。

步骤S12，对所述多个候选医疗命名实体进行标注，得到多个推荐医疗命名实体；本示例实施方式中，对候选医疗命名实体进行标注即标注出候选医疗命名实体是否为真正的医疗命名实体，在候选医疗命名实体是真正的医疗命名实体时，则可以将该候选医疗命名实体作为推荐医疗命名实体。

步骤S13，计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比，并判断所述数量之比是否小于第一预设值；其中，所述数量之比即所述推荐医疗命名实体在所述候选医疗命名实体中所占比例，所述第一预设值可视为所述数量之比的阈值，所述第一预设值越高，所述推荐医疗命名实体在所述候选医疗命名实体中所占的比例越大，则相应的最终得到的医疗命名实体识别系统的医疗命名实体识别率越高。举例而言，本示例实施方式中，所述第一预设值为85％-90％，具体如86％、88％等，但不以此为限，所述第一预设值也可为低于85％的数值或高于90％的数值。

步骤S14，在判断所述数量之比小于所述第一预设值时，则说明所述推荐医疗命名实体在所述候选医疗命名实体中所占的比例没有达到预定水平，即所述医疗命名实体识别系统的医疗命名实体识别率过低，此时可将所述推荐医疗命名实体输入至所述医疗命名实体识别系统，并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并转至对所述多个候选医疗命名实体进行标注的步骤；从而不断循环迭代，使医疗命名实体识别系统的医疗命名实体识别率不断提升，直至所述数量之比不小于所述第一预设值，即后续步骤S15。

步骤S15.在判断所述数量之比不小于所述第一预设值时，则说明医疗命名实体识别系统的医疗命名实体识别率满足需求，此时，可以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。

进一步的，参照图2，本示例实施方式中，步骤S11中的所述利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体可包括：

步骤S111，计算所述多个医疗文本样本中各个命名实体的权重值，所述权重值具体可为各个所述命名实体的词频；以及

步骤S112，选取多个命名实体作为所述候选医疗命名实体，所选命名实体的权重值高于未被选的命名实体的权重值。从而选出多个权重值较高的命名实体，权重值较高的命名实体则有更高的可能为医疗命名实体。举例而言，本示例实施方式中，可通过以下方式多个医疗命名实体作为所述候选医疗命名实体：

例如，可以按照权重值的大小对各个所述命名实体进行排序，再选取权重值较大的多个所述命名实体作为所述候选医疗命名实体。再例如，也可以预先设定预定权重值，将各个所述命名实体的权重值与所述预定权重值进行比较，再选取权重值不小于所述预定权重值的命名实体作为所述候选医疗命名实体。

此外，本示例实施方式中，上述计算所述多个医疗文本样本中各个命名实体的权重值可以包括：

在spark环境下，通过N-Gram模型和tf-idf算法计算所述多个医疗文本样本中各个命名实体的权重值。在此过程中，窗口值可取小于6的值，即命名实体词的长度为5字之内。但本领域技术人员容易理解的是，在本公开的其他示例性实施例中，根据计算环境的不同以及需求的不同等，也可以通过其他方式计算上述权重值或者通过其他机器学习方式获取上述多个候选医疗命名实体，这些均同样属于本公开的保护范围。

进一步的，参照图3，本示例实施方式中，步骤S14中的所述将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统，并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体可包括以下步骤：

步骤S141，从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体。举例而言，对于所述多个医疗样本文本中所述推荐医疗命名实体以外的命名实体，可以将其上下文特征与所述推荐医疗命名实体的上下文特征进行比较，获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体。由于所述补充医疗命名实体的上下文特征与所述推荐医疗命名实体相似，因此，可以推断所述补充医疗命名实体与所述推荐医疗命名实体相似，进而可以认为补充医疗命名实体可能为真正的医疗命名实体。

步骤S142，增加所述补充医疗命名实体在所述多个医疗文本样本中的权重值，随后可重新获取所述候选医疗命名实体，由于增加了所述补充医疗命名实体的权重值，使得所述补充医疗命名实体被选为所述候选医疗命名实体的概率增大。

步骤S143，选取权重值高于其它命名实体的多个命名实体作为所述候选医疗命名实体。此时的所述候选医疗命名实体包括了所述补充医疗命名实体，因此使得下次标注结果中，可能由补充医疗命名实体产生更多的推荐医疗命名实体。

更进一步的，本示例实施方式中，所述从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的医疗命名实体作为补充医疗命名实体可以包括以下步骤：

根据预设模型对所述多个医疗样本文本进行分词，得到多个切分单元，所述切分单元可为分词后得到的实体词；本示例实施方式中，所述预设模型可采用隐马尔科夫模型、最大熵模型或者条件随机场模型等，本示例性实施例中对此不做特殊限定。

获取所述多个推荐医疗命名实体的上下文特征，并分别将各所述推荐医疗命名实体的上下文特征表示为第一向量，将所述推荐医疗命名实体的上下文特征向量化，从而便于量化比较。举例而言，本示例实施方式中可使用word2vec工具实现该过程，但并不以此为限。

获取所述多个切分单元的上下文特征，并分别将各所述切分单元的上下文特征表示为第二向量，将各个所述切分单元向量化，从而便于量化比较。举例而言，本示例实施方式中可使用word2vec工具实现该过程，但并不以此为限。

计算所述第一向量与所述第二向量的相似度，并判断所述相似度是否小于第二预设值；所述第二预设值可有用户自行设定，所述第二设定值越大，则第一向量和所述第二向量的相似度越高，反之，相似度越低。

选取与所述第一向量的相似度不小于所述第二预设值的第二向量，并将与所述第二向量表示的上下文特征对应切分单元作为所述候选医疗命名实体。从而通过比较向量的相似度得出所述切分单元和所述推荐医疗命名实体的相似度。

进一步的，在所述医疗命名实体识别系统生成方法中，在对所述多个候选医疗命名实体进行标注的同时，还可以对所述多个候选医疗命名实体进行分类；例如：白血病对应的分类为病症，发热对应的分类为症状，若所述候选医疗命名实体为无意义词，其分类可为无意义类等等。

在从所述多个医疗文本样本中获取多个所述候选医疗命名实体的同时，可以根据与该候选医疗命名实体相似的推荐医疗命名实体，即已经被标注的医疗命名实体的分类，对多个所述候选医疗命名实体推荐分类，从而将所述多个候选医疗命名实体与不同的分类对应，使得在生成所述医疗命名实体识别系统的同时，还可便于对所述医疗命名实体的分类。例如，

综上所述，本公开实施例的医疗命名实体识别系统生成方法，可向所述医疗命名实体识别系统输入大量基于自然语言的医疗文本样本，通过机器学习获取多个候选医疗命名实体；然后对所述多个候选医疗命名实体进行标注，得到所述多个推荐医疗命名实体；随后，可计算所述数量之比将其与所述第一预设值进行比较，当所述数量之比不小于所述第一预设值时，说明所述推荐医疗命名实体的数量达到要求，此时，可直接将所述医疗命名实体识别系统作为目标医疗命名实体识别系统进行输出；当所述数量之比小于所述第一预设值时，则说明所述推荐医疗命名实体的数量未达到要求，可将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统并根据所述多个推荐医疗命名实体从所述多个医疗文本样本中获取多个所述候选医疗命名实体并再次进行标注，得到更多个所述推荐医疗命名实体，依此类推迭代，直至所述数量之比不小于所述第一预设值时，即所述推荐医疗命名实体的数量未达到要求时，可将所述医疗命名实体识别系统作为目标医疗命名实体识别系统进行输出。

在上述过程中，可根据医疗样本文本中自动挖掘数量达到要求的医疗命名实体，即有意义的医疗命名实体，减少了人工标注，降低了人力成本，并且可不断迭代，减少人工操作。由此，可从大量自然语言文本中快速挖掘输出有意义的医疗命名实体。

根据本公开实施方式的另一方面，提供一种医疗命名实体识别系统生成装置，参照图4中所示，所述医疗命名实体识别系统生成装置包括冷启动单元10、标注单元20、评估单元30、反馈单元40以及输出单元50。其中：

冷启动单元10可以用于通过一医疗命名实体识别系统接收多个医疗文本样本，并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体。

标注单元20可以用于对所述多个候选医疗命名实体进行标注，得到多个推荐医疗命名实体。

评估单元30可以用于计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比，并判断所述数量之比是否小于第一预设值。

反馈单元40可以用于在判断所述数量之比小于所述第一预设值时，将所述推荐医疗命名实体输入至所述医疗命名实体识别系统，并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并反馈至所述标注单元。

输出单元50可以用于在判断所述数量之比不小于所述第一预设值时，以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。

需要说明的是，上述所述医疗命名实体识别系统生成装置具体实现细节以及有益效果已经在对应的所述医疗命名实体识别系统生成方法中进行了详细想描述，因而不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈成;康波;稽可睿;
技术所有人：医渡云（北京）技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。