以患者为中心的临床知识发现系统的制作方法

文档序号：17745710发布日期：2019-05-24 20:37阅读：169来源：国知局

本发明涉及促进对患者病历中包含的信息的有效且高效检索和合并的计算机增强领域，并且具体地涉及使用深度学习、自然语言处理和语音服务的组合来处理用户关于患者病历中包含的信息的查询的基于知识的发现系统。

背景技术：

计算机系统上可用的常规处理不太适合对非临床专家关于针对临床专家设计和实施的记录中包含的信息的查询(例如，来自患者的关于患者病历中包含的信息的“含义”或“影响”的查询)做出响应。

通常，患者可以拜访执业医生以接收给定的测试或一系列测试的结果。该测试结果可能具有高度技术性，并且执业医生将该技术数据(血红蛋白计数、脂质计数、收缩压等)“翻译”为患者可能理解的术语。在拜访执业医生时，患者可以问问题并且可以在至少基本了解他/她的病情的情况下离开。

然而，在许多情况下，患者可能随后会意识到他/她并没有完全了解他/她的病情并且想到他/她应该向执业医生问的问题或者想到要向另一专业人员问的可能有助于验证或否定执业医生的诊断的问题。

通过使用常规的计算机搜索技术，患者可以使用搜索引擎来搜索执业医生使用的特定术语或者前往参考站点(例如，维基百科)以接收对特定术语或病情的解释。然而，这样的搜索或参考的结果通常将是“参差不齐的”并且提供不太令人满意的解释，因为这些结果将基于患者对要搜索的特定术语的描述并且这些结果可能是患者并不能真正理解的语言(医学专业术语)。

实质上，由于患者对医学专业中使用的高度技术性术语和短语的非专业理解，因此患者通常受限于他/她明确地表达反映患者的关注同时充分实施对该领域的专业人员公布的材料的有效且高效的搜索的查询的能力。类似地，即使患者的查询充分定位该领域中适用的参考文献，但是对所定位的参考材料的仅有呈现可能对患者而言实际上难以理解，或者，所定位的参考材料的量对于患者来说可能过多以至于无法在任何合理的时间量内消化吸收。

鉴于让患者和消费者获取足够的证据和相关信息以促进明智的健康相关的决策制定的当前驱动力，需要增强现有的计算机搜索和报告工具来处理大量计算机可获得的健康信息并将其传递给常常寻求对他/她的医学困惑的答案的“好奇和/或焦虑的”患者。

除了通过聚集和总结现有的大量生物医学文献中的大量事实和发现来向非临床专家提供有意义的信息之外，还需要解决患者和消费者在定制他们的搜索中通过使用适当的技术语言来提供对通常记录在文献中的证据的有效检索而遇到的困难的事实。增强计算机联网系统的能力以向患者和消费者提供支持从而实现对有效且高效的查询的构建并提供适当的答案能够朝向对预防性和治疗性介入的遵从性、健康意识和素养、生活方式改变以及健康生活显著改善患者参与。

技术实现要素：

提供显著改进计算机系统在医学信息检索和报告领域的能力的系统和方法将是有利的。在该框架内，通过促进基于用户的非专业查询的有效且高效的搜索来显著改善系统能力将是有利的。同样在该框架内，通过促进针对非专业用户对检索到的信息的有效且高效的聚集和总结来显著改善系统的能力将是有利的。

为了更好地解决这些关注中的一个或多个，在本发明的一个实施例中，提供了一种临床知识发现系统，其结合了自然语言处理(nlp)与深度学习算法，以检索并总结来自生物医学出版物的发现，作为对来自患者和其他非专业用户的查询的答案。可以提供音频输入和输出以及文本输入和输出。

在示例性实施例中，所述医学信息检索系统包括接收用户查询的输入设备以及处理所述用户查询以识别关键词和短语的自然语言处理系统。然而，与常规的搜索技术相比，并不是将这些关键词和短语直接提交给信息检索(搜索)引擎。相反，将这些关键词和短语提供给推理引擎，所述推理引擎基于这些关键词和短语来提供来自医学知识源的基于知识的推论的集合。

其后，将这些基于知识的推论提供给信息检索引擎，所述信息检索引擎基于这些基于知识的推论来检索对应的多个搜索结果，并且关于所述基于知识的推论对每个搜索结果进行排名。总结引擎接收多个经排名的搜索结果，基于所述多个搜索结果来识别主题关键词和候选句子，基于所述主题关键词和所述候选句子来创建模型，并且基于所述模型来提供总结报告。输出设备将所述总结报告呈现为对所述用户的原始查询的响应。

附图说明

参考附图，通过举例的方式进一步详细解释了本发明，其中：

图1图示了包括自然语言处理器、推理引擎、搜索引擎以及总结引擎的医学信息检索系统的示例性框图。

图2图示了用于基于知识源来创建推理引擎的示例性框图。

图3图示了由医学信息检索系统提供的示例性用户查询和响应。

图4图示了总结引擎的示例性框图。

图5图示了释义引擎的示例性框图。

在整个附图中，相同的附图标记指示相似或对应的特征或功能。附图出于说明性目的而被包括，并且不旨在限制本发明的范围。

具体实施方式

在以下描述中，出于解释而非限制的目的，阐述了诸如特定架构、接口、技术等具体细节，以便提供对本发明的构思的透彻理解。然而，对于本领域技术人员而言将明显的是，本发明可以在脱离这些具体细节的其他实施例中进行实践。以类似的方式，本说明书的文本涉及如附图中所示的示例性实施例，并且不旨在将要求保护的本发明限制在权利要求中明确包括的限制之外。出于简单和清楚的目的，省略了对公知的设备、电路和方法的详细描述，以免不必要的细节模糊本发明的描述。

图1图示了根据本发明的原理的医学信息检索系统的实施例的示例性框图。在该示例性实施例中，该系统接收以口头陈述和/或问题的形式的查询。语音到文本转换器110使用例如常规的语音识别系统将说出的词语和短语转换成文本。

自然语言处理(nlp)引擎120分析来自语音识别系统的文本以识别关键词或短语125。nlp引擎120可以是语音识别系统的部件，并且可以被专门设计用于将要使用它的特定背景(例如，医学背景)以识别在该背景内具有特定含义的术语。

在示例性实施例中，nlp引擎120可以包括用于句子边界检测的通用的基于规则的算法；用于词性标注的语言模型；以及在特定语言语料库上训练的机器学习分类器，以识别名词性短语、形容词性短语、动词性短语等。可以使用字典驱动或本体驱动的处理将短语映射到识别的关键词，并且使用文档和/或应用的背景元素来消除提取的词语的意义的歧义。

发明人已经认识到，基于从用户的查询中提取的关键词进行搜索的缺陷在于，搜索术语实质上受用户的词汇的限制。针对该缺陷的常规解决方案包括例如基于本体的处理，其找到与用户提供的术语同义的备选术语。然而，如果用户未使用与特定术语同义的术语，则该术语将不会被包括在搜索查询中。

在图1的示例性实施例中，检索系统内的推理引擎130用于基于由nlp引擎120导出的关键词和短语125来生成“推论”135。可以使用无监督的机器学习处理来创建推理引擎130，无监督的机器学习处理使用如图2所示的一个或多个域特异性知识源140来训练。

在图2中，知识源140(例如，医学文本的集合)由提取器210解析。提取器210被配置为提取词语级、短语级和文档级术语，这些术语都被提供给耦合到推理引擎130的训练器220。推理引擎130可以例如是神经网络模型。使用常规的无监督的学习技术，可以训练推理引擎130以识别包含在知识源140中的医学术语和短语之间的关系。例如，使用来自知识源140的大量句子的词语级、短语级和文档级向量表示，可以根据这些向量表示的聚集贡献(“神经嵌入物”)来生成分布式聚类。

在训练之后，当随后向推理引擎130提供词语或短语时，推理引擎130将提供与该词语或短语最密切相关的医学术语或短语。在示例性实施例中，可以基于语义相关性对分布式聚类进行排名。可以进一步解析排名高的聚类以检索基于知识的推论；也就是说，推论与来自知识源的最多关键词被表示于其中的文档的主题是同义的。

图3提供了用户的查询的示例性处理。在310处，用户提供关于最近的眼睛问题是否与用户的系统性红斑狼疮相关的口述问题。在语音到文本转换和自然语言处理之后，识别出关键词320的集合。在该示例中，自然语言处理引擎包括医学术语(例如，“系统性红斑狼疮”)的识别。特别值得注意的是，识别出的关键词320中的每个是包含在用户的口述查询310中的术语。如上所述，关键词提取处理可以被配置为识别可以被认为比用户的查询中的特定术语涵盖面更广或更精确的同义词。然而，关键词中是否存在这样的同义词仍然取决于用户的查询中是否存在该特定术语。

在本公开的医学信息检索系统中，通过对用户的查询的预搜索增强以生成与“专业”医学词汇更一致的搜索术语来显著增强计算机系统找到与用户的查询相关的相关信息的能力。也就是说，例如，如果医学学生有关于眼睛问题与系统性红斑狼疮之间的潜在关系的类似问题，则增强的搜索术语可以类似于医学学生(或诊断医生)可能提交给搜索引擎的术语。

在图3的示例中，根据用户的查询310提取的关键词320被提供给上述基于医学知识的推理引擎(图1和图2中的130)。推理引擎处理用户的关键词以产生“基于知识的推论”330的集合。在该实施例中，所提供的推论是“巩膜炎”、“巩膜外层炎”和“狼疮视网膜病变”。特别值得注意的是，除了“狼疮”这个词之外，这些推论并没有出现在用户的查询中。推理引擎接收到与眼睛问题相关的关键词并产生了对应的医学术语“巩膜炎”和“巩膜外层炎”(巩膜和巩膜外层的炎症，对应于双眼内的疼痛和发红)以及“狼疮视网膜病变”(狼疮相关的视力问题，对应于视力有点受影响)。如上所述，在研究眼睛症状时，医学学生可能会自动使用术语巩膜炎和巩膜外层炎而不是“眼睛的疼痛和发红”，并且可能知道与狼疮相关的视网膜病变。

关于图2，推理引擎130接收与眼睛的疼痛和发红相关的关键词，并且基于其从医学知识源140的学习来确定与术语巩膜炎和巩膜外层炎的对应关系。也就是说，知识源关于巩膜炎和巩膜外层炎的条目很可能包含诸如眼睛疼痛或发红的短语，并且推理引擎130在眼疼和红肿与巩膜炎和巩膜外层炎之间建立强烈的神经联系，使得当“双眼内发红”和“双眼内疼痛”被提供给推理引擎时，推理引擎的“推论”是“巩膜炎”和“巩膜外层炎”。基于与狼疮视网膜病变相关的知识源140的内容，也可能在“系统性红斑狼疮”、“视力受影响”和“狼疮视网膜病变”之间建立推理引擎130中的类似的强烈的神经联系。

通过将用户提供的关键词“系统性红斑狼疮”、“类固醇”、“不可控制的免疫活动”、“双眼内疼痛”、“双眼内发红”、“视力有点受影响”320转换成更专业的术语“巩膜炎”、“巩膜外层炎”和“狼疮视网膜病变”330，可以预期信息检索系统找到解决用户的查询的参考材料的能力会得到显著改善，因为搜索的参考材料(已经发表的医学文章等)更可能包含术语“巩膜炎”和“巩膜外层炎”，而不是包含“双眼内发红”或“双眼内疼痛”。

本领域技术人员将认识到，用户提供的关键词也可以被包括在基于知识的推论中，从而还可能搜索为非专业人员撰写的文章，例如，由支持组织为患有特定疾病的患者准备的文章。

回到图1，基于知识的推论135被提供给信息检索(ir)引擎150，该引擎在生物医学参考源160中搜索相关文章155。在一个实施例中，ir引擎150可以被专门配置为在医学参考源160中搜索医学术语，但是本领域技术人员将认识到，在一些实施例中，ir引擎150也可以是常用的搜索引擎，例如，“谷歌”、“必应”、“雅虎”等。

虽然参考源160可以包括用作知识源140的参考，但是预期参考源160将比知识源140广泛得多。也就是说，知识源140通常是一个或多个医学文本，根据这一个或多个医学文本来创建推理引擎130是可行的，然而尝试经由互联网访问和分析“云”165中的在世界范围内可获得的所有医学参考源160是不切实际/不可行的。相反，为了提供可能与用户的查询最相关的信息，知识源140不太可能会包括所需的信息的深度，并且搜索所有可获得的医学参考源160的实质上更大的集合可能会更高效。

ir引擎150优选根据基于知识的推论与以下内容中的术语之间的对应关系对参考源160的搜索结果进行排名和过滤：文章的标题和摘要；在文章中反映出的物种和特定人口统计数据；与文章相关联的元数据；等等。ir引擎150还可以分析发布日期以确保提供给用户的信息是最新的并且/或者给予最近的出版物比旧的出版物更大的权重。

如上所述，由于基于知识的推论135通常将提供医学领域中的专业人员常用的术语，因此在无数生物医学参考源160内识别出适当相关文章的可能性得到显著提高。

在图3的示例中，ir引擎识别出关于“系统性红斑狼疮的眼部表现”的文章340，作为解决用户查询的高度相关的文章。在文章340内，内容345包括基于知识的推论330中的每个、每个的解释以及它们与系统性红斑狼疮的关系(推论在图3中以粗体示出以便于理解；它们在文章340中并不以粗体示出)。

如内容345中的省略号(…)所指示的，相关文章340包括比所示出的信息多得多的信息，并且可能包括比用户想要的多得多的信息和更详细的信息作为对用户的查询310的答案。如图1所示，总结引擎170和释义引擎180用于压缩和重构可获得的信息345以提供适合于用户的响应185。

回到图1，来自信息检索引擎150的相关文章155由总结引擎170处理。

图4图示了总结引擎170的实施例的示例性框图。在该示例性实施例中，根据基于受限玻尔兹曼机(rbm)的框架来实施用于文档总结的无监督深度学习架构。图4的示例性rbm包括主题提取模型410，该主题提取模型包括使用输入(来自推理引擎130的结果135，以及由ir引擎150基于表示结果135的关键词和短语而检索到的文档/生物医学文章155)与输出(检索到的文章155中包含的相关句子)之间的对称加权连接的神经网络架构。

使用自上而下和自下而上的优化技术(也被称为前向和后向传播技术)来优化420该模型。自上而下的连接用于从表示句子中的词语/术语的属性的低级特征向量来学习抽象特征表示，例如，文章155中的句子的语义属性。例如，术语频率-逆文本频率(tf-idf)可以用于评估术语在句子中相比于术语在文章中的总体存在的显著性。

利用自下而上的连接来验证学习的表示的有效性。具体地，使用多个隐藏层按顺序从检索到的文章中学习重要的主题关键词和重要的候选句子，从而构建经由反向传播算法通过以自下而上的方式调谐模型参数而全局优化的模型。

在图3的示例中，如果推理引擎给出“巩膜炎、巩膜外层炎和狼疮视网膜病变”作为结果330(图1和图4中的135)并且ir引擎继而给出文章“sle的眼部表现：文献综述”作为相关文章340(图1和图4中的155)(因为它在文章的摘要和/或正文中包含上述推论330)，那么总结引擎170然后将处理作为输入的文章340中提到基于知识的推论330的所有句子，并且如果若干句子共享相同的含义且能够被组合成单个句子，则学习这些句子的语义属性足以使模型410得到解释。

重要句子选择模块430从模型410中选择被认为关于基于知识的推论135最为重要的句子。这些句子被提供给总结生成器440以提供总结的句子175的集合。总结生成器440可以被配置为限制总结的句子175中的词语的数量，以提供针对原始叙述/问题的简洁答案。

通过使用释义引擎180向原始查询提供更为用户友好的响应185，进一步简化来自相关文章的总结的句子175。

图5图示了释义引擎的示例性框图。在该实施例中，从开源生物医学本体510(例如，医学主题标题(mesh))以及经编校的通用英语词汇520的集合中提取大量平行临床领域数据，以构建用于释义引擎的训练器530的训练数据。训练器530使用训练数据510、520来学习预训练的词语/短语嵌入物540(其使用可获得的临床知识源140来进一步细化)以创建更新的嵌入物550。

基于递归神经网络(rnn)的编码器解码器框架560可以用于根据这些更新的嵌入物550来构建模型570。利用得到的模型570根据来自总结引擎170的总结的句子175来生成优化的释义575(图1的185)以便简化响应，并且显现为对自然语言处理器120所提供的原始查询的“自然”响应，如图3的示例性响应350所示。

回到图1，文本到语音转换器190将包括经总结和释义的句子的响应185转换为音频输出，以提供对初始语音用户查询的可听的且易于理解的响应。患者/消费者说出问题(叙述)。总的来说，本公开支持从生物医学文献中发现相关临床证据(如果不使用本公开中的技术，不具有临床知识的患者/消费者可能难以理解这些证据)，从而在个体搜索时促进得到最佳用户体验并在需要时找到对医学困惑的准确答案。

尽管已经在附图和前面的描述中详细说明和描述了本发明，但是这样的说明和描述应当被认为是说明性或示例性的而非限制性的；本发明不限于所公开的实施例。

例如，备选实施例能够用于定制针对特定类别的用户的响应。例如，总结引擎170和释义引擎180可以被配置为使得在释义的响应185中的“不常见的”医学术语(例如，可能由推理引擎130提供的基于知识的推论135)的存在减少或最小化，从而实现针对更“随意”的询问者的更容易的可读性。以类似的方式，总结引擎170和释义引擎180可以被配置为还接受用户在原始查询中提供的关键词125作为用于优化这些引擎内的模型410、570的额外输入。类似地，信息检索引擎150可以被配置为在搜索生物医学参考源160时使用基于知识的推论135和用户的关键词125两者。

本公开的元件可以由一个或多个经配置的处理器来适当地实现，所述一个或多个经配置的处理器例如为计算设备(例如，lenovothinkcenter、dellinspiron、hpenvy等)的一个或多个core^tm或pentium^tm处理器。(一个或多个)经配置的处理器运行存储在前述计算设备的计算机可读存储介质(例如，ssd600p)中的计算机可读指令。计算设备还包括网络适配器(例如，以太网连接和对应的软件)，其使得设备能够经由局域网或广域网(诸如互联网)与其他信息源通信。计算设备还包括外围设备，其包括用于接收来自用户的输入的输入设备(例如，键盘、鼠标、触摸板、麦克风、相机等)以及用于向用户提供输出的输出设备(例如，显示屏、扬声器、打印机等)。计算设备能够包括工作站、膝上型电脑、平板电脑、智能电话、服务器等。附图中表示的部件之间的线表示通信路径，其能够是有线的或无线的。

在一个实施例中，经配置的计算机设备与用户交互以使用自然语言处理来处理用户查询以识别关键词和短语。计算机可读指令使得处理器能够被配置为推理引擎，该推理引擎处理关键词和短语并提供来自一个或多个本地或远程医学知识源的多个基于知识的推论，并且将多个基于知识的推论提供给信息检索引擎(例如，微软的explorer网络浏览器)，该信息检索引擎搜索一个或多个生物医学参考源以基于多个基于知识的推论来识别多篇计算机可读的医学文章。经配置的处理器关于基于知识的推论对每篇文章进行排名以识别一篇或多篇目标文章，然后通过识别目标文章中的主题关键词和候选句子来总结一篇或多篇目标文章。通过使用主题关键词和候选句子，经配置的处理器创建总结报告，并且将总结报告提供给输出设备，该输出设备响应于用户查询而呈现该总结报告。

本领域技术人员通过研究附图、说明书以及权利要求书，在实践请求保护的发明时能够理解并实现所公开的实施例的其他变型。在权利要求中，“包括”一词不排除其他元件或步骤，并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。虽然某些措施被记载在互不相同的从属权利要求中，但是这并不指示不能有利地使用这些措施的组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：O·F·法里;S·S·阿尔哈桑;柳俊毅;K·M·Y·李;V·V·达特拉
技术所有人：皇家飞利浦有限公司
我是此专利的发明人

上一篇：一种高塔复合肥乳化物料的装置的制作方法
上一篇：沙漠地区用防沙固沙植生墙的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。