基于医生协助的医疗领域知识图谱构建方法与流程

文档序号：20277242发布日期：2020-04-07 14:39阅读：190来源：国知局

本发明属于医疗知识图谱技术领域，尤其涉及一种基于医生协助的医疗领域知识图谱构建方法。

背景技术：

随着科学技术的发展，计算机在各个领域上的应用越发广泛。例如很多有用的知识图谱已经被构建出来，并成为了相关领域的宝贵资源。知识图谱对于医学领域是一个非常有用的工具，它可以支持疾病预测、药物推荐等服务。

然而，知识图谱可以提供的服务质量很大程度上取决于概念和实例等实体和关系的质量。目前很多知识图谱的构建采用了全自动化的方法，即构建过程中没有任何人的参与。当使用全自动方法构建特定医疗领域的知识图谱时，由于医学概念、关系、事件模糊而复杂，医学领域的数据源质量差、标准不一致，以及医学领域数据来源不同，这三个主要原因导致自动构建的知识图谱难以直接应用于医疗领域。另一方面，通过人工构建医学知识图谱的方法需要大量专家工作，所以不具备可实施性和可操作性。

综上所述，人工构建医学知识图谱的方法费时费力，全自动构建医学知识图谱的方法构建的知识图谱不能直接应用于医疗领域。

技术实现要素：

为克服上述现有的医疗领域知识图谱构建方法费时费力，不能直接应用于医疗领域的问题或者至少部分地解决上述问题，本发明实施例提供一种基于医生协助的医疗领域知识图谱构建方法。

根据本发明实施例的第一方面，提供一种基于医生协助的医疗领域知识图谱构建方法，包括：

获取医生输入的文本，并从预先构建的医学词库和概念知识图谱中分别查找与所述文本相似的多个概念；

获取所述医生根据所述医学词库和所述概念知识图谱的查找结果从所述医学词库的查找结果中选择的概念，将所述医生选择的概念添加到所述概念知识图谱中；

将预先获取的电子病历中的结构数据进行模型转换，并从所述电子病历的非结构数据中提取实体和关系，根据模型转换后的结构数据、所述实体和关系构建实例知识图谱；

将所述概念知识图谱和所述实例知识图谱结合为事实知识图谱。

优选地，从预先构建的医学词库和概念知识图谱中分别查找与所述文本相似的多个概念的步骤包括：

将所述文本传入所述医学词库上的搜索引擎，以使所述医学词库上的搜索引擎返回所述文本对应的概念列表；

将所述文本传入所述概念知识图谱上的搜索引擎，以使所述概念知识图谱上的搜索引擎返回所述文本对应的概念列表；

其中，所述概念列表中包括与所述文本的概念相似的多个概念。

优选地，获取所述医生根据所述医学词库和所述概念知识图谱的查找结果从所述医学词库的查找结果中选择的概念的步骤包括：

获取医生从所述医学词库上的搜索引擎返回的概念列表中选择的概念；其中，所述医生选择的概念在所述概念知识图谱上的搜索引擎返回概念列表中不存在。

优选地，将所述医生选择的概念添加到所述概念知识图谱中的步骤还包括：

从所述电子病历中提取出现频率高于预设阈值的特征，若提取的所述特征在所述概念知识图谱中不存在，则将提取的所述特征添加到所述概念知识图谱中；和/或，

获取医生定义的概念和关系，将所述医生定义的概念和关系添加到所述概念知识图谱中。

优选地，获取医生输入的文本，并从预先构建的医学词库和概念知识图谱中分别查找与所述文本相似的多个概念步骤之前还包括：

获取医生输入的新单词或短语，从预先获取的医学分类词典中匹配出所述新单词或短语的同义词候选列表；

获取医生从所述同义词候选列表中选择出的条目，并将所述新单词或短语与所述医生选择出的条目进行对齐；

若医生从所述同义词候选列表中选择出的条目为空，则根据所述新单词或短语生成新条目，并将所述新条目集成到所述医学分类词典中，以根据集成后的所述医学分类词典从所述电子病历中提取实体，将提取的实体添加到所述实例知识图谱中；

将所述医学分类词典作为所述医学词库。

优选地，还包括：

对于所述医学分类词典中的每个概念，为该概念分配一个唯一身份标识；

获取与该概念含义相同的多种表达形式，为每种所述表达形式分配一个唯一的身份标识；

其中，将每种所述表达形式的身份标识作为该概念的表达形式的子节点。

优选地，将预先获取的电子病历中的结构数据进行模型转换的步骤包括：

将所述电子病历中的结构数据从实体关系数据模型映射为资源描述框架模型；

其中，将所述结构数据中所属的属性相同的实体作为所述属性的值，将与所属属性相同的实体相关联的实体映射到所述属性。

优选地，从所述电子病历中的非结构数据中提取出实体和关系的步骤具体包括：

为所述电子病历中的实体分配实体标签；

为所述电子病历中的实体对分配关系标签；

根据所述实体标签和所述关系标签，基于深度学习方法从所述电子病历中提取实体和关系。

优选地，从所述电子病历中的非结构数据中提取出实体的步骤具体包括：

获取所述医生输入的正则表达式；

根据所述正则表达式，基于nlp工具从所述电子病历中提取出实体。

根据本发明实施例的第二个方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于医生协助的医疗领域知识图谱构建方法。

本发明实施例提供一种基于医生协助的医疗领域知识图谱构建方法，该方法通过根据医生的需求和掌握的知识来审查医学词库中的概念，并决定将哪些概念放入最终的概念知识图谱中，并基于电子病历构建实例知识图谱，将概念知识图谱和实例知识图谱融合为事实知识图谱，从而将医生的先验知识和自动构建知识图谱方法结合起来，使用自动方法帮助医生节省时间和精力，使用来自医生的先验知识弥补自动图谱构建方法的不足，使得构建的知识图谱更加符合实际的应用需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于医生协助的医疗领域知识图谱构建方法整体流程示意图；

图2为本发明实施例提供的基于医生协助的医疗领域知识图谱构建方法中概念知识图谱构建流程示意图；

图3为本发明实施例提供的基于医生协助的医疗领域知识图谱构建方法中由医生定义的高层概念知识图谱结构示意图；

图4为本发明实施例提供的基于医生协助的医疗领域知识图谱构建方法中同义词匹配流程示意图；

图5为本发明实施例提供的基于医生协助的医疗领域知识图谱构建方法中概念层级结构的示意图；

图6为本发明实施例提供的基于医生协助的医疗领域知识图谱构建方法中从er数学模型映射到rdf模型的映射过程示意图；

图7为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

在本发明的一个实施例中提供一种基于医生协助的医疗领域知识图谱构建方法，图1为本发明实施例提供的基于医生协助的医疗领域知识图谱构建方法整体流程示意图，该方法包括：s101，获取医生输入的文本，并从预先构建的医学词库和概念知识图谱中分别查找与所述文本相似的多个概念；

具体地，本实施例对概念知识图谱中的概念进行编辑，在概念级别上处理，并向医生提供在概念知识图谱上操作的接口，包括概念的选择和添加，以及新单词或短语发现。

知识图谱构建的质量在很大程度上取决于图谱包含的概念。然而，由于医学术语的模糊性和专业性，医学词库中的概念需要由医生仔细检查。医生根据他们自己的需求和掌握的知识来审查概念并决定将哪些概念放入最终的概念知识图谱中。如果医生想要将医学词库中的新概念添加到概念知识图谱中，医生可以输入文本，然后从医学词库和概念知识图谱中分别查找与输入的文本相似的多个概念。所述医学词库可以为医学分类词典。

s102，获取所述医生根据所述医学词库和所述概念知识图谱的查找结果从所述医学词库的查找结果中选择的概念，将所述医生选择的概念添加到所述概念知识图谱中；

将从医学词库中查找出的多个概念以概念列表显示，将从概念知识图谱中查找出的多个概念以另外一个概念列表显示。医生根据这两个概念列表决定医学词库对应的概念列表中与输入的字符串相对应的概念是否是新概念。如果是，医生可以从医学词库对应的概念列表中选择与输入字符串对应的概念添加到概念知识图谱中。概念知识图谱中包括概念和概念之间的关系。如果医学词库对应的概念列表中不存在与输入字符串对应的概念，则可以从电子病历获取新概念，也可以由医生自定义新概念。

s103，将预先获取的电子病历中的结构数据进行模型转换，并从所述电子病历的非结构数据中提取实体和关系，根据模型转换后的结构数据、所述实体和关系构建实例知识图谱；

其中，在进行模型转换时将电子病历中的结构数据从er(entityrelationship，实体关系)数据模型转换为rdf数据模型(resourcedescriptionframework，资源描述框架)。模型转换方法可以为医生选择的映射方法，如d2r、r2rml、virtuoso等，本实施例不对其进行限制。使用提取方法从电子病历的非结构数据中提取实体和关系。结合电子病历中结构数据的rdf模型，以及从非结构数据中提取实体和关系，构建实例知识图谱。

s104，将所述概念知识图谱和所述实例知识图谱结合为事实知识图谱。

将概念知识图谱中的概念节点和实例知识图谱中的实例节点进行融合，生成事实知识图谱，事实知识图谱中包括概念、实体、事件和关系。

本实施例通过根据医生的需求和掌握的知识来审查医学词库中的概念，并决定将哪些概念放入最终的概念知识图谱中，并基于电子病历构建实例知识图谱，将概念知识图谱和实例知识图谱融合为事实知识图谱，从而将医生的先验知识和自动构建知识图谱方法结合起来，使用自动方法帮助医生节省时间和精力，使用来自医生的先验知识弥补自动图谱构建方法的不足，使得构建的知识图谱更加符合实际的应用需求。

在上述实施例的基础上，本实施例中从预先构建的医学词库和概念知识图谱中分别查找与所述文本相似的多个概念的步骤包括：将所述文本传入所述医学词库上的搜索引擎，以使所述医学词库上的搜索引擎返回所述文本对应的概念列表；将所述文本传入所述概念知识图谱上的搜索引擎，以使所述概念知识图谱上的搜索引擎返回所述文本对应的概念列表；其中，所述概念列表中包括与所述文本的概念相似的多个概念。

具体地，如图2所示，如果医生想要将医学词库中的新概念添加到概念知识图谱中，医生可以输入文本，然后将输入的文本的字符串传入到医学词库和概念知识图谱上的搜索引擎上。医学词库上的搜索引擎将返回从医学词库中与医生输入字符串对应的概念相似的概念列表。概念知识图谱上的搜索引擎将从返回概念知识图谱中与输入字符串对应的概念相似的概念列表。

医生只需要快速扫描两个搜索引擎提供的概念列表，而不必手动搜索整个词库和概念知识图谱中的大量概念。医生可以自己决定医学词库对应的概念列表中与输入字符串相对应的概念，以及确定的与输入字符串相对应的概念是否为新概念。如果是，将医生通过选择确定的新概念添加到概念知识图谱中。优选地，获取医生从医学词库上的搜索引擎返回的概念列表中选择的概念，将医生选择的概念作为新概念添加到概念知识图谱中；其中，医生选择的概念在概念知识图谱上的搜索引擎返回概念列表中不存在。

在上述实施例的基础上，本实施例中将所述医生选择的概念添加到所述概念知识图谱中的步骤还包括：从所述电子病历中提取出现频率高于预设阈值的特征，若提取的所述特征在所述概念知识图谱中不存在，则将提取的所述特征添加到所述概念知识图谱中；和/或，获取医生定义的概念和关系，将所述医生定义的概念和关系添加到所述概念知识图谱中。

具体地，虽然医学词库中存储的信息十分丰富，但是临床实践中仍有医学术语尚未纳入医学词库。这些医学术语可能来自患者的电子病历，或仅仅来自医生的先验知识。新单词或短语发现功能为医生提供了一组接口，医生可以通过这些接口以定制添加不在医学词库中的术语和概念。可以通过以下两种方法添加新术语：

(1)数据驱动方法

该方法可以从患者的电子病历中获取信息。患者的电子病历记录了患者的实际情况，可以作为高质量领域特定医学知识图谱的良好数据来源。但是，电子病历的某些特征未存储在概念知识图谱中。在这种情况下，医生可以使用该功能提供的接口将这些新概念添加到概念知识图谱中。如将电子病历中出现频率较高且未存储在概念知识图谱中的特征添加到概念知识图谱中。

(2)需求驱动方法

除了根据患者的电子病历中的特征定义概念之外，医生可以根据自己的经验定义一些概念和关系。有时，电子病历中的信息过于复杂，并且涉及很多方面。有些特征过于分散，而医生只想专注于特定的几个特征。在这种需求驱动的方法中，医生可以先抛开电子病历，并在更高层次上定义概念和关系。图3示出了由医生定义的概念知识图谱的示例，该概念知识图谱注重心肌梗塞的相关信息。

在上述实施例的基础上，本实施例中获取医生输入的文本，并从预先构建的医学词库和概念知识图谱中分别查找与所述文本相似的多个概念的步骤之前还包括：获取医生输入的新单词或短语，从预先获取的医学分类词典中匹配出所述新单词或短语的同义词候选列表；获取医生从所述同义词候选列表中选择出的条目，并将所述新单词或短语与所述医生选择出的条目进行对齐；若医生从所述同义词候选列表中选择出的条目为空，则根据所述新单词或短语生成新条目，并将所述新条目集成到所述医学分类词典中，以根据集成后的所述医学分类词典从所述电子病历中提取实体，将提取的实体添加到所述实例知识图谱中；将所述医学分类词典作为所述医学词库。

具体地，在构建知识图谱的过程中，现有的医学知识库是知识图谱的重要来源。为了充分利用信息，具有相同含义的不同概念和关系必须适当地对齐并融合在一起。为了提高自动匹配方法的准确性和手动对齐方法的效率，本实施例提供一个同义词模块，这个模块可以整合医生和自动匹配器的结果。如图4所示，这个模块中有两个阶段，即匹配阶段和聚合阶段。

该模块在语料库级别上工作，并且能够跨不同的数据源操作。医生可以在模块中输入新单词或短语，然后将输入文本传递到匹配器库，即一组不同的匹配器上进行处理。匹配库将输入文本的可能同义词的候选列表返回给医生。如候选列表中包含10个条目，从而大大缩小医生的搜索范围。在这之后，医生可以自己决定列表中的条目是否是输入文本的同义词。如果列表中有医生认为与输入文本同义的条目，则医生可以将输入文本与他们认为最匹配的现有条目之一对齐。如果没有，医生可以创建新节点并且把新输入的文本集成到医学分类词典中。存储在医学分类词典中的单词可以用来支持实体提取。

在上述实施例的基础上，本实施例中还包括：对于所述医学分类词典中的每个概念，为该概念分配一个唯一身份标识；获取与该概念含义相同的多种表达形式，为每种所述表达形式分配一个唯一的身份标识；其中，将每种所述表达形式的身份标识作为该概念的表达形式的子节点。

具体地，本实施例的关键部分是如何组织具有不同拼写、来自不同数据源但含义相同的单词和短语。为了解决这个问题，引入了层次结构表达方式。给每个不同的概念，即具有独特含义的词或短语分配一个唯一的概念身份cid。概念可能有许多表达形式，但只有一个表达形式是首选，此首选表达式是该概念的默认表示形式。对于具有相同含义但拼写不同或数据源不同的表达形式，为每个表达形式分配唯一的原子标识aid。aid是相应cid的子节点。如图5所示，其中amaurosisfugax为概念身份，其下均为这个概念身份的原子标识，也就是含义相同但拼写不同的表达形式。

在上述实施例的基础上，本实施例中将预先获取的电子病历中的结构数据进行模型转换的步骤包括：将所述电子病历中的结构数据从实体关系数据模型映射为资源描述框架模型；其中，将所述结构数据中所属的属性相同的实体作为所述属性的值，将与所属属性相同的实体相关联的实体映射到所述属性。

具体地，实例知识图谱是以rdf形式表述的，这可以更好地以图形的形式呈现信息。但是，目前电子病历无论是来自公共数据集还是私有数据集都以关系型数据模型存储在关系数据库中。关系型数据模型不适合图表示，需要转换为rdf模型。

如图6所示，以一名患者的电子病历的检查表中六种类型的心音为例，医生在患者有的症状后面做标记。右上为从er模型到rdf模型直接映射的结果，右下为映射结果。直接将此关系型数据模型映射到rdf模型可能会导致rdf模型极其复杂。因此，采用本实施例的映射方法使得映射结果可以变得更加简单和更有意义。所有六种类型的心音被分配给一个称为“心音类型”的属性，这样一来，六种类型的心音成为了这一属性的值。表1显示了映射方法的示例。映射方法可以支持实例知识图谱的构造。

表1映射方法示例

在上述实施例的基础上，本实施例中从所述电子病历中的非结构数据中提取出实体和关系的步骤具体包括：为所述电子病历中的实体分配实体标签；为所述电子病历中的实体对分配的关系标签；根据所述实体标签和所述关系标签，基于深度学习方法从所述电子病历中提取实体和关系。

具体地，为了从患者的电子病历中获取信息，本实施例需要提取实体和关系。提取的质量在很大程度上取决于标注。然而，在医学领域，有许多实体类不符合传统定义的四类范式。例如，在临床说明中，有疾病和症状、临床发现、测试结果等类型的实体。如果忽略这些特定领域的标签，那么基于深度学习的提取质量将下降。因此，标注模块为医生提供了标注患者的电子病历的界面。

该界面能够加载患者电子病历并向医生呈现这些临床记录。在界面的左侧列出了一些预定义的实体和关系标签。实体标签包括疾病诱因、患病期、疾病名称、胸痛部位、伴随症状、放射部位和药物名称等。除了这些预定义的实体标签，医生还可以根据自己的需要定制实体标签。通过预先准备好的这些实体标签，医生可以在文本中选择单词或短语，并根据医生的选择为其分配适当的实体标签。医生还可以从电子病历中选择实体对，并根据医生的选择为该实体对分配关系标签，然后可以将实体标签和关系标注的结果分别添加到实体库和关系库中以支持实体和关系的提取。

为了节省医生的时间和精力，标注模块与实体提取和关系提取模块配合，使用机器学习模型从临床记录中自动提取信息，而医生可以专注于模型的结果，并为机器学习模型生成训练材料。这样可以提高准确性和效率。可以理解的是，对于实体提取和关系提取模块所用的机器学习模型，可以使用crf(conditionalrandomfield，条件随机场)或cnn-lstm(卷积神经网络和长短时记忆神经网络的联合模型)等，本发明实施例对此不做限制。

在上述实施例的基础上，本实施例中从所述电子病历中的非结构数据中提取出实体的步骤具体包括：获取所述医生输入的正则表达式；根据所述正则表达式，基于nlp工具从所述电子病历中提取出实体。

具体地，实体提取有两种方法，一种是基于序列注释方法，另一种是基于模式的方法。

序列注释的方法需要使用标注模块及其提供的标注功能。首先，由医生从电子病历中选择实体对，使用标注模块为该实体对分配关系标签，为该实体对中的每个实体分配实体标签。之后，将该实体和关系标注的结果分别添加到实体和关系库中以进行实体和关系的提取。

基于模式的方法中，首先医生可以自定义正则表达式。如果医生想要更多地关注患者的症状，他们可以定制一些表达式，如“表现出*的症状”。*用作通配符以匹配表示症状的单词或短语。然后，应用具有匹配和提取功能的nlp工具对临床记录进行提取。对于进行提取时所应用的nlp工具可以为spacy和jieba等，本发明实施例对此不做限制。

提取方法和提取结果的示例如表2所示。医生首先定义模式，确定提取的位置和内容，然后使用分隔符来匹配患者临床记录中的概念。通过整合nlp工具，可以省去医生手工标记实体的工作，并可以更专注于文本提供的信息。

表2提取方法示例

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)701、通信接口(communicationsinterface)702、存储器(memory)703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令，以执行如下方法：获取医生输入的文本，并从预先构建的医学词库和概念知识图谱中分别查找与所述文本相似的多个概念；获取医生根据所述医学词库和所述概念知识图谱的查找结果从所述医学词库的查找结果中选择的概念，将所述医生选择的概念添加到所述概念知识图谱中；将预先获取的电子病历中的结构数据进行模型转换，并从所述电子病历的非结构数据中提取实体和关系，根据模型转换后的结构数据、所述实体和关系构建实例知识图谱；将所述概念知识图谱和所述实例知识图谱结合为事实知识图谱。

此外，上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张勇;邢春晓;盛明;李超;李欣
技术所有人：清华大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。