生成医疗记录问题列表的制作方法

文档序号：19608622发布日期：2020-01-03 13:50阅读：292来源：国知局

背景技术：

本发明一般涉及医疗记录，并且更具体地涉及根据电子医疗记录自动生成医疗记录问题列表。

当前技术已经极大地扩展了可以结合医疗收集的患者信息的类型和数量。存储在电子健康记录(ehr)系统中的电子医疗记录(emr)包括来自多个源的、用于各种目的、并且具有各种格式的患者数据。除了结构化数据条目之外，存储在ehr系统中的纵向患者记录或emr可以包括数百个临床笔记和数千个半结构化数据条目。这样的临床记录不仅可以包括打算用于病人护理的信息，而且可以包括为了其它目的诸如记帐或法律目的而输入的信息。因此，尽管收集更多的患者信息对于患者护理是有益的，但是所收集的数据量可能使得患者护理提供者难以及时理解和定位期望的或必要的信息。

随着患者数据量的增加，患者的医疗问题列表在患者治疗和护理中变得越来越重要。问题列表已经存在了几十年，并且可以为患者护理的医生提供快速接入点，可以鼓励医生整体地考虑他们的患者，并且可以降低忽视医疗问题的风险。然而，尽管围绕问题列表组织患者记录已经成为普遍接受的实践，但是创建和维护准确且最新的问题列表存在许多挑战。例如，问题列表不是由每个医生使用，并且可以被更新或不被更新。此外，问题列表中提供的细节水平不是统一的，并且很大程度上取决于医师的偏好。

近年来已经看到了针对患者记录的自动概括的研究，以减少临床医生的认知负担。例如，自然语言和机器学习技术已经被用于尝试从电子健康记录中概括、提取和合成数据。这些方法在自动生成问题列表方面已经取得了各种成功。然而，这样的方法可能遭受不准确的测量和/或有限的临床有用性。仍然需要从ehr自动生成具有改进的准确性的问题列表。

技术实现要素：

根据本发明的一个或多个实施例，提供了一种用于生成医疗问题列表的计算机实现的方法。该方法的非限制性示例包括由处理器接收多个疾病类别。该方法还包括由处理器定义包括多个顶级疾病类别的疾病类别集合，其中疾病类别集合至少部分地基于多个疾病类别。该方法还包括由处理器从电子患者记录训练集中提取多个候选训练问题。该方法还包括由处理器将候选训练问题中的每一个分配给多个顶级疾病类别。该方法还包括由处理器通过机器学习技术从电子患者记录训练集生成针对每个顶级疾病类别的疾病类别模型。本发明的该实施例可以提供具有提高的准确性和较小程度的遗漏问题或不反映患者的医疗问题的候选问题的问题列表。

根据本发明的一个或多个实施例，提供了一种用于生成医疗问题列表的计算机程序产品。该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储由处理电路执行以执行方法的程序指令。该方法的非限制性示例包括接收多个疾病类别。该方法还包括定义包括多个顶级疾病类别的疾病类别集合，其中该疾病类别集合至少部分地基于多个疾病类别。该方法还包括从电子患者记录训练集中提取多个候选训练问题。该方法还包括将每个候选训练问题分配给多个顶级疾病类别。该方法还包括通过机器学习技术从电子患者记录训练集生成针对每个顶级疾病类别的疾病类别模型。本发明的这个实施例可以提供具有提高的准确性和较小程度的遗漏问题或不反映患者的医疗问题的问题列表。

根据本发明的一个或多个实施例，一种用于生成医疗问题列表的处理系统包括与一种或多种类型的存储器通信的处理器。在非限制性示例中，处理器被配置为接收多个疾病类别。该处理器还被配置为定义包括多个顶级疾病类别的疾病类别集合，其中该疾病类别集合至少部分地基于多个疾病类别。处理器还被配置成从电子患者记录训练集中提取多个候选训练问题。处理器还被配置为将每个候选训练问题分配给多个顶级疾病类别。处理器还被配置为通过机器学习技术从电子患者记录训练集中生成针对每个顶级疾病类别的疾病类别模型。本发明的这个实施例可以提供具有改进的准确性和较小程度的遗漏问题或不反映患者的医疗问题的问题列表。

根据本发明的一个或多个实施例，提供了一种用于生成疾病类别模型的计算机实现的方法。该方法的非限制性示例包括由处理器接收顶级疾病类别。该方法还包括由处理器从电子病例训练集中提取多个候选训练问题。该方法还包括由处理器将每个候选训练问题分配给顶级疾病类别。该方法还包括由处理器通过机器学习技术基于所分配的候选训练问题生成针对顶级疾病类别的疾病类别模型。本发明的这个实施例可以提供一种系统，用于生成具有提高的准确性和较小程度的遗漏问题或不反映患者的医疗问题的候选问题的问题列表。

根据本发明的一个或多个实施例，一种用于生成疾病类别模型的处理系统包括与一种或多种类型的存储器通信的处理器。在非限制性示例中，处理器被配置为接收顶级疾病类别。处理器还被配置成从电子患者记录训练集中提取多个候选训练问题。处理器还被配置为将每个候选训练问题分配给顶级疾病类别。该处理器还被配置为通过机器学习技术基于所分配的候选训练问题来生成针对顶级疾病类别的疾病类别模型。本发明的这个实施例可以提供一种系统，用于创建具有提高的准确性和较小程度的遗漏问题或不反映患者的医疗问题的候选问题的问题列表。

附图说明

在说明书的结尾处的权利要求中特别指出并清楚地要求了本文所述的专有权的细节。从下面结合附图的详细描述中，本发明的实施例的前述和其它特征和优点将变得显而易见，其中：

图1示出了根据本发明实施例的云计算环境。

图2示出了根据本发明实施例的抽象模型层。

图3示出了根据本发明的一个或多个实施例的计算机系统。

图4示出了根据本发明的一个或多个实施例的示例性系统的示意图。

图5示出根据本发明的一个或多个实施例的从具有多个可能类别的类别属性生成的示例性树。

图6示出根据本发明的一个或多个实施例的从具有多个可能类别的类别属性生成的另一示例性树。

图7示出根据本发明的一个或多个实施例的示例性方法的流程图。

图8示出根据本发明的一个或多个实施例的另一示例性方法的流程图。

图9示出根据本发明的一个或多个实施例的又一示例性方法的流程图。

这里描述的附图是说明性的。在不脱离本发明的精神的情况下，可以对其中描述的附图或操作进行许多变化。例如，可以以不同的顺序执行动作，或者可以添加、删除或修改动作。此外，术语“耦合”及其变型描述了在两个元件之间具有通信路径，并且不暗示元件之间的直接连接，而在它们之间没有中间元件/连接。所有这些变化都被认为是说明书的一部分。

在附图和以下对所公开的实施例的详细描述中，附图中所示的各种元件具有两个或三个数字附图标记。除了少数例外，每个附图标记的最左边的数字对应于其中首先示出其元件的图。

具体实施方式

在此参考相关附图描述本发明的各种实施例。在不脱离本发明的范围的情况下，可以设计本发明的替换实施例。在以下描述和附图中的元件之间阐述了各种连接和位置关系(例如，上方、下方、相邻等)。除非另外指明，这些连接和/或位置关系可以是直接的或间接的，并且本发明不旨在在这方面进行限制。因此，实体的耦接可以指直接或间接耦接，并且实体之间的位置关系可以是直接或间接的位置关系。此外，本文所述的各种任务和过程步骤可并入具有本文未详细描述的额外步骤或功能性的更综合程序或过程中。

以下定义和缩写用于解释权利要求和说明书。如本文所用，术语“包含”(comprises)、“包括”(comprising)、“具有”(includes)、“including”(含有)或其任何其它变型旨在涵盖非排他性的包括。例如，包括一系列要素的组合物、混合物、工艺、方法、制品或装置不一定仅限于那些要素，而是可包括未明确列出的或此类组合物、混合物、工艺、方法、制品或装置所固有的其它要素。

另外，术语“示例性”在本文中用于表示“用作示例、实例或说明”。本文描述为“示例性”的任何实施例或设计不一定被解释为比其它实施例或设计优选或有利。术语“至少一个”和“一个或多个”可以理解为包括大于或等于一的任何整数，即，一、二、三、四等。术语“多个”可以理解为包括大于或等于二的任何整数，即二、三、四、五等。术语“连接”可包括间接“连接”和直接“连接”两者。

术语“约”、“基本上”、“大约”及其变体旨在包括与基于提交本申请时可用的设备的特定量的测量相关联的误差度。例如，“约”可以包括给定值的±8％或5％或2％的范围。

为了简洁起见，在此可能详细描述或可能不详细描述与制造和使用本发明的方面相关的常规技术。特别地，用于实现本文描述的各种技术特征的计算系统和特定计算机程序的各个方面是公知的。因此，为了简洁，许多常规实现细节在此仅简要提及或完全省略，而不提供公知的系统和/或过程细节。

首先应当理解，尽管本说明包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理pda)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(saas)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(paas)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(iaas)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构由该组织或第三方管理并且存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，描述了根据本发明的一个或多个实施例的说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图1中所示的计算设备54a-n的类型仅旨在说明，并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图2，示出了根据本发明的一个或多个实施例的由云计算环境50(图1)提供的一组功能抽象层。应当预先理解，图2中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描述的，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于risc(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储装置65；以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户机75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境中利用资源时的成本跟踪，以及用于消耗这些资源的开账单或开发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(sla)规划和履行85提供对云计算资源的预安排和采购，其中根据sla预期未来需求。

工作负载层90提供了云计算环境可以被利用的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航91；软件开发和生命周期管理92；虚拟教室教育传送93；数据分析处理94；交易处理95；以及医疗问题列表生成96。

现在参考图3，根据本发明的一个或多个实施例示出包括在分布式云环境或云服务网络。云计算节点100仅仅是适合的云计算节点的一个示例，不应对本发明实施例的功能和使用范围带来任何限制。总之，云计算节点100能够被用来实现和/或执行以上所述的任何功能。

云计算节点100具有计算机系统/服务器12，其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知，适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境，等等。

计算机系统/服务器12在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块位于包括存储设备的本地或远程计算系统存储介质上。

如图3所示，云计算节点100中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质是能够被计算机系统/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图未显示，通常称为“硬盘驱动器”)。尽管图中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。根据本发明的一些实施例程序模块42通常执行一个或多个功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，其它硬件和/或软件模块可以与计算机系统/服务器12一起操作，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

现在转到本发明的方面的概述，本发明的实施例提供了从电子医疗记录生成的改进的问题列表。

医疗保健中长期存在的需求是与患者护理相关的临床关注的准确列表。目前，问题列表经常由诊所或医院的管理或护理人员生成。这样的列表可以用作患者健康记录的临床总结的一部分。随着与医疗患者相关联的数据量通过数字医疗数据获取和存储而增加，医疗专业人员越来越依赖电子问题列表来概述患者问题。然而，以这种方式生成的问题列表通常旨在用于计费目的，并且因此可能是高度不可靠和不完整的。

通过分析问题特定属性以及问题不可知属性，并在多个疾病特定学习模型中处理这些属性以及所提取的候选问题列表，可以生成具有改进的准确性的问题列表。在本发明的一些实施例中，可以利用修改的交替决策树算法自动生成疾病特异性学习模型。通过使用问题特定属性和疾病特定模型的应用，可以生成具有更高准确性的所识别的医疗问题的问题列表。在本发明的一些实施例中，为疾病类别的定义集合中的每个建立个体模型不仅可以针对该疾病类别实现更高的准确度，而且可以针对患者关于整个患者记录实现更高的准确度。如这里所使用的，“医疗问题”被理解为表示与患者的生活质量相关的医疗确定和/或由医疗专业人员可以有益于患者的健康对其进行的监视和管理。示例性的医疗问题包括影响患者生活质量的慢性疾病、尚未排除的鉴别诊断、家族史中识别的风险因素、未解决的医学诊断、积极的医学诊断等。本发明的实施例包括利用来自医学专家的信息训练的系统，该信息包括真实的例子，包括为给定患者指定哪些医疗问题和诊断将被认为是医疗问题以及哪些医疗问题和诊断将被认为是非问题的例子。

现在转到更详细的描述，图4示出了根据本发明的一个或多个实施例的用于医疗记录问题列表生成的示例性系统200。示例性系统200包括emr数据库202。emr数据库202可以包括电子医疗记录，其包括结构化数据214和非结构化和/或半结构化数据212。emr数据库202可以与候选生成模块204通信。

在本发明的一些实施例中，候选问题生成模块204生成候选医疗问题。候选医疗问题可以包括医疗问题、已解决的医疗问题或确定以及未解决的医疗问题或确定，医疗专业人员在向患者提供医疗护理的过程中不会主动管理或监视这些问题或确定。候选问题生成模块204可以包括临床因素提取引擎216，其从emr数据库202提取医学概念，包括从结构化数据214和非结构化和/或半结构化数据212提取医学概念。临床因素提取引擎216可以通过已知技术，诸如使用自然语言处理(nlp)从emr数据库提取医学概念。在本发明的一些实施例中，医学概念提取之后可以是基于规则的或基于学习的模型，以将所提取的概念分类或映射到医学本体218中的候选医疗问题。在本发明的一些实施例中，医学本体218可以被包括在候选问题生成模块204中。在本发明的一些未示出的实施例中，医学本体218在候选生成模块204的外部。

医学本体是已知的，并且可以由一个或多个医学标准组织建立、定义、分类或维护，并且候选问题生成模块可以包括任何医学本体或标准化医学概念的字典，无论是当前已知的还是将来开发的、本地存储的、还是经由外部系统中的无线或有线连接访问的。在本发明的一些实施例中，医学本体218包括多个概念唯一标识符(cui)218。如这里所使用的，“cui”包括标准化术语，其提供商定或接受的语义术语以识别医学相关问题，例如医疗问题、医学病症、药物治疗、实验室结果等。例如，umls包括超过20,000个cui。可以在本发明的实施例中使用的另一个示例性的cui源包括但不限于医疗代码的系统化命名法(snomed代码)，其可以通过国家医学库的统一医疗语言系统umls元语法获得。在本发明的一些实施例中，在整个处理过程中根据已知cui对候选医疗问题进行分类。示例性候选医疗问题可以包括独特病症、药物、实验室结果等的cui。

例如，在一些实施例中，诸如umls的医学本体应用于电子医疗记录中的结构化和非结构化数据，以识别医学术语并利用适当的cui对候选医学术语进行分类。候选医疗问题可以包括例如独特病症、药物或实验室结果的cui。

用于医疗记录问题列表生成的示例性系统200还可以包括属性生成模块206。属性生成模块242可以与候选生成模块204通信，并且可以接收从emr数据库中导出的多个候选医疗问题。对于每个候选医疗问题，属性生成模块242可以生成一个或多个属性和对应的属性分数。在本发明的一些实施例中，在属性生成模块206中生成的属性包括问题不可知属性242和问题特定属性242。这样的属性和属性分数可以通过应用许多已知技术来生成，诸如信息提取、文本分段和关系识别。信息提取例如可以包括cui识别置信度和术语频率。例如，文本分段可以涉及临床笔记内的部分的识别以及候选医疗问题在那些部分中出现的位置。文本分段方法可以例如标识非数字属性，诸如章节的名称。关系识别技术可以执行潜在语义分析以识别候选医疗问题与药物、实验室测试结果等之间的关系。问题不可知属性220和问题特定属性222可以包括例如：词汇属性，结合标准信息检索方法，例如术语频率和反向文档频率；医学属性，描述候选医疗问题与药物、程序和实验室测试结果之间的关系；频率属性，捕获医疗问题的先验概率，例如结合snomed核心中的使用字段；结构属性，包括例如提到候选问题的注释类型和章节类型；以及时间属性，描述在患者电子医疗记录中提及的不同候选问题的分布；以及上述属性的高阶组合。除了上述属性的高阶组合之外，上述属性中的大多数包括问题不可知属性220。

问题特定属性222可以包括可以通过组合一个或多个属性而生成的更高阶属性。例如，术语频率属性可以与断言类型、注释部分类型和时间维度中的移动窗口相关，以生成多个高阶属性。示例性的生成更高阶属性可以包括“在最近三个月的进展记录中，在评估和计划部分中，高血压被提及为阳性的次数”。这种问题特定属性222可以更好地捕获数据生成过程的复杂度。

在本发明的一些实施例中，属性生成模块206减少所生成的属性的维度。例如，生成更高阶属性可以显著地增加属性的数量，例如从234到数百万个属性。因此，在一些情况下，使用大量这种组合属性可能使数据集过拟合。在本发明的一些实施例中，维度缩减有益于减轻与数据集的过拟合有关的问题。属性的维度可以通过已知技术来减少。例如，自动编码器可以用于减少维度并学习捕获起始属性的层次依赖性的医疗问题的一般表示。自动编码器是一种无监督的属性构造技术，其可以使用神经网络结构来再现其自身的输入作为输出，以学习起始属性的分布式表示。在本发明的一些实施例中，去噪自动编码器被用于减少属性的维度。例如，去噪自动编码器可以从有噪声的输入中学习属性的鲁棒表示。在本发明的一些实施例中，使用构建到深度自动编码器中的多个堆叠自动编码器来减少属性的维度。

在一些实施例中，系统200包括疾病类别评分模块208。疾病类别评分模块208可以包括一组疾病类别模板250a、250b、250c、…250、250n。在本发明的一些实施例中，该集合中的疾病类别模板每个表示来自疾病类别分类列表的顶级类别。在一些实施例中，疾病类别分类列表包括单个树层级，诸如来自疾病和相关健康问题的国际统计分类的分类列表，包括例如疾病修订版9(icd-9)或icd-10的国际分类，疾病类别分类列表的全部或部分可以在疾病类别模板的集合中使用。例如，在使用来自icd-9的顶级类别的实施例中，可以使用以下疾病类别模型集合：1.症状、体征和不明确的病症；2.皮肤和皮下组织的疾病；3.泌尿生殖系统疾病；4.传染病和寄生虫病；5.呼吸系统疾病；6.肿瘤；7.肌肉骨骼系统和结缔组织的疾病；8.内分泌、营养和代谢疾病；9.循环系统疾病；10.先天性异常；11.神经系统疾病；12.感觉器官疾病；13.消化系统疾病，14.损伤和中毒；15.血液和血液形成器官的疾病；16.精神障碍；17.其它。在该实施例中，类别“其它”包括icd-9代码不能容易地或自动地被分配给icd-9代码的问题以及包含无关紧要的数量的样品或低于指定阈值的数量的样品的顶层icd-9类别，在该示例中，其包括“外部损伤和补充分类”、“产前期产生的某些状况”以及“妊娠并发症、分娩和产褥期”。

在本发明的一些实施例中，疾病类别评分模块208通过采用训练阶段来创建一组疾病类别模型250a…250n，在该训练阶段中，从电子患者记录训练集中提取多个候选问题，并将其分配给来自疾病类别集的顶级疾病类别，例如从icd-9代码导出的集。机器学习可以用于生成疾病类别模块。在一些实施例中，单独的机器学习模型被用于疾病类别中的每一个。在一些实施例中，疾病类别评分模块208从大的属性集合中自动识别每个疾病类别模型的有用属性。如这里所使用的，“有用属性”包括一组属性，其表示统计上确定为对于在作为医疗问题的候选问题和不是医疗问题的候选问题之间进行区分最有用的属性。

在本发明的一些实施例中，疾病类别评分模块206为每个属性生成属性得分。属性分数可以使用多个评分过程来生成，对多个评分过程的选择可以取决于属性的性质。属性分数可以表示数字或非数字属性，例如属性的频率、属性的重要性、相对于可接受标准的百分比、药物的量、药物强度、药物的使用寿命。在一些实施例中，在应用评分处理之前对属性进行分类，并且应用于每个属性的类型评分处理可以基于属性类别而变化。在一些实施例中，属性评分过程的选择至少部分地取决于疾病类别模型。例如，每个疾病类别模型可以具有相关联的属性评分过程集合，其可以与集合中的其他疾病类别模型相同或不同。

在本发明的一些实施例中，疾病类别评分模块208的每个疾病类别模型250a…250n可以使用其相关联的属性得分对每个属性进行归一化、过滤和加权，以提供每个候选医疗问题的最终组合属性得分。每个属性的加权可以使用机器学习技术来确定。

使用机器学习技术的上述技术、过程和系统组件中的每一个都可以随着时间动态地改变。例如，但不是限制性的，属性的加权可以随着时间动态地改变，因为机器学习过程改进最佳加权参数以反映通过标准化医学概念分类的候选医疗问题是与电子医疗记录相关联的患者的医疗问题的可能性。例如，机器学习过程可以基于候选医疗问题属性在医疗记录结构内的位置来动态地增加属性分数的权重。作为另一个例子，机器学习过程可以响应于反馈并使用经验文本和建模，基于候选医疗问题属性多久出现在电子医疗记录内，动态地增加或减少属性分数的权重。因此，在本发明的一些实施例中，过程和模型可以动态地演进以更准确地将由cui分类的候选医疗问题与患者的医疗问题进行匹配。

用于医疗记录问题列表生成的系统200还可以包括分组模块260。在本发明的一些实施例中，分组模块260从每个疾病类别模型接收评分的医疗问题。在本发明的一些实施例中，分组模块260可以基于已知的医疗问题分类层级来合并和聚类密切相关的问题。例如，可以基于问题的临床相似性在分组模块206中对从在每个疾病特定模型中生成的问题的组合列表得到的问题列表进行分组。例如，糖尿病和ii型糖尿病可以被分组为单个问题，以便形成简明的医疗问题列表，因为一个是另一个的特定形式。在一些实施例中，例如但不限于，分组模块260基于诸如受影响的身体部位、治疗中使用的药物等问题的特征使用提供了“isa”关系的umls和来自已知技术的聚类技术。许多其它umls关系可用于对密切相关的医学概念进行聚类，并且将容易被本领域普通技术人员所知和/或识别。

分组模块260可以对评分的医疗问题应用过滤器，使得具有低于某个阈值的标准的候选医疗问题不被包括在最终医疗问题列表中。例如，如果对应于候选医疗问题的最终组合属性分数低于阈值，则可以过滤掉该候选医疗问题。过滤阈值可以手动设置或自动调整，例如以增加或减少包括在医疗问题列表中的医疗问题的总数，以改变输出结果的量，或实现用户期望的其他目的。在本发明的一些实施例中，在分组和过滤之后，分组模块生成医疗问题列表。在本发明的一些实施例中，分组模块在每次迭代中仅使用由前一次迭代产生的最高评分或加权的医疗问题来执行多次迭代。

在一些实施例中，疾病类别模型250a…250n可通过修改的交替决策树(adt)算法生成。在一些实施例中，使用无监督属性选择在每个疾病类别内选择问题特定属性222。例如，可以通过将多个训练属性分层为类别，然后通过修改的adt算法在每个类别内执行嵌入的、监督的属性选择，来选择问题特定属性222。adt在两个节点，预测节点和分离器节点之间交替。与决策树中不同，在adt中，实例可以行进通过多个路径，并且通过沿着路径的所有预测节点值的和的符号来进行预测。adt中的每个判决节点是二进制分类器。为了自动生成疾病类别特定模型，多类拆分器(multi-classsplitter)节点可以被包括在adt中以生成修改的adt。多类拆分器节点可以将每个实例分类到可能的类别之一中。例如，拆分器节点可以具有以下形式的规则：

其中ci是可能的疾病类别之一，ai是预测节点中的预测值，使用

其中w+(.)和w-(.)分别是满足前提条件和条件的每个正训练示例和负训练示例的权重的总和。对于每个迭代步骤t，类别拆分器(categoricalsplitter)节点具有训练误差zt，

其中p是步骤t的前提条件，c是分类条件，ci是c中的有效类别。图5描述了使用常规adt从具有多个可能类别的类别属性生成的示例性树。图6描述了根据来自修改的adt的相同分类属性生成的示例性树。如图5和6所示，使用传统的adt，相同的属性可以被选择不止一次，并且在每次选择它时执行二进制拆分，而使用修改的adt，分类属性执行多类拆分，其为每个类别生成一个预测节点。在一些实施例中，当计算训练误差时，可以将先前权重分配给分类属性，以指导模型在学习过程早期将数据分层。

图7描述了一个流程图，其说明了根据本发明的一个或多个实施例的用于生成医疗问题列表的示例性方法300。方法300包括从电子医疗记录中提取医学概念，如框302所示。方法300还包括基于本体从医学概念生成候选医疗问题，如框304中所示。方法300还包括，对于每个候选医疗问题，生成一个或多个属性，如框306所示。方法300还包括生成属性分数或提取每个属性的属性值，如框308所示。方法300还包括将多个候选问题、属性和属性分数应用于多个疾病类别模型，如框310所示。方法300还包括基于疾病类别模型确定是接受还是拒绝每个候选医疗问题，如框312所示。方法300还包括将所接受的问题分组，如框314中所示。方法300还包括生成包括所接受的问题的医疗问题列表，如框316所示。

图8示出了根据本发明的一个或多个实施例的用于生成疾病类别模型集合的示例性方法400的流程图。方法400包括定义包括多个顶级疾病类别的疾病类别集合，如框402所示。方法400还包括从电子患者训练集中提取多个候选训练问题，如框404所示。方法400还包括将每个候选训练问题分配给来自疾病类别集合的顶级疾病类别，如框406所示。方法400还包括使用机器学习从电子患者记录训练集中生成每个顶级疾病类别的疾病类别模型，如框408所示。

图9示出了根据本发明的一个或多个实施例的用于识别每个疾病类别模型的有用属性的示例性方法500的流程图。示例性方法500包括使用anova对多个属性和对从电子医疗记录导出的一组训练数据运行单变量属性选择(unvariateattributeselection)，如块502所示。如块506所示，方法500还包括选择阈值以上的已排序属性。如框508所示，方法500还包括使用皮尔逊相关去除冗余属性，如框510所示。方法500还包括通过使用药物类别到问题类别关联来添加药物特定属性。方法500还包括使用问题类别将患者属性添加到问题类别同现得分(problemcategorycooccurrencescores)，如框512所示。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等，以及过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文所用的术语仅是为了描述特定实施例的目的，而不是要限制本发明。如本文所用，单数形式“一个”(a)、“一个”(an)和“该”(the)旨在也包括复数形式，除非上下文另有明确指示。还将理解，术语“包括”(comprises)和/或“包含”(comprising)在本说明书中使用时，指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元件组件和/或其组件的存在或添加。

以下权利要求中的所有装置或步骤加功能元件的对应结构、材料、动作和等同物旨在包括用于与如具体要求保护的其它要求保护的元件组合地执行功能的任何结构、材料或动作。已经出于说明和描述的目的给出了本发明的描述，但是该描述不是穷举的或者将本发明限制为所描述的形式。在不背离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施例是为了最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有各种修改的各种实施例，这些修改适合于所考虑的特定用途。

这里描述的流程图仅仅是一个例子。在不脱离本发明的实施例的精神的情况下，可以对这里描述的该图或步骤(或操作)进行许多变化。例如，可以以不同的顺序执行这些步骤，或者可以添加、删除或修改步骤。所有这些变化都被认为是所要求保护的发明的一部分。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所描述的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文描述的各实施例。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.德瓦拉科恩达;S.梅萨乌德;邹庆晖
技术所有人：国际商业机器公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。