利用临床文档的端点的对临床文档的总结的制作方法

文档序号：19429794发布日期：2019-12-17 16:19阅读：165来源：国知局

下文总体上涉及医学信息学，并且更具体地涉及对临床报告的总结。

背景技术：

每次对患者进行检查和检验时，医疗保健从业者通常都会生成医学文档或临床报告，该医学文档或临床报告对检查或检验进行描述并陈述结果。临床报告以结构化、编码化或记述性文本和/或其组合的方式存储信息。结构化报告的示例是电子实验室报告，其中使用计算机来将信息项录入到预定模板的字段中。在该示例中，根据预定的本体论或词典表(例如，医学系统化命名法(snomed)、国际疾病分类(icd)、rxnorm等)将每个信息项录入到表单中。

例如，利用icd本体论，icd诊断代码134.0表示“非风湿性二尖瓣(瓣膜)功能不全”。当医疗保健从业者在用于结构化报告的表单的字段中录入或选择代码134.0时，该代码被存储在该表单内。系统可以在呈现该表单时利用文本“非风湿性二尖瓣(瓣膜)功能不全”来填充该字段，并且在生成最终报告时利用该文本来替换该代码。经编码的临床报告的示例包括超声心动图临床报告，其中信息项由内部独特识别符组织结构并且使用内部独特识别符进行录入，并且每个内部独特识别符都被映射到对应的记述性文本元素并且利用对应的记述性文本元素进行表示。记述性临床报告的示例包括放射学报告、病理学报告、手术报告、实验室报告以及进展报告，其中信息项以散文语言嵌入。

诸如放射科医生之类的医疗保健从业者在进行检查(例如，成像研究)时审查患者的先前临床报告。在审查每个报告中的信息量以及审查的报告数量方面，可能会耗费大量的时间。用于改善审查过程并实现直接快速地访问临床报告中的信息的一种常规方法是在正要进行患者护理时或事后使用自然语言处理技术(nlp)来根据规定的记述性文本生成结构化的临床文档。然而，该方法要求报告创建者(例如，专科医生)花费大量的开销或者包括大的误差范围。

技术实现要素：

本文描述的各个方面解决了上述问题和其他问题。

下面描述了用于总结临床报告的系统和方法的实施例。临床报告被转换成诸如可扩展标记语言(xml)、javascript对象表示法(json)等的对象。在临床报告对象的集合中验证临床端点。临床端点是该报告的含义或主要消息，例如，诊断、对于后续研究的推荐或者处置费用。临床端点是可量化的参数，其能够假定有限数量的离散值。在一些实施例中，临床报告对象的集合补充有其他患者相关的数据。对具有经验证的端点的临床报告对象的集合进行建模以创建机器学习模型。响应于用于总结患者的一个或多个临床文档的请求，机器学习模型关于在预定时间范围内发生的端点来评估患者的临床文档中的每个临床文档的值。在一些实施例中，该评估结果被显示为记分卡和/或时间线。

在一个方面中，一种系统包括端点预测引擎和端点可视化接口。所述端点预测引擎使用机器学习模型和患者的一个或多个临床报告对象来预测端点，其中，所述机器学习模型输入所述一个或多个临床报告对象并根据所述一个或多个临床报告对象中的短语或n元语言模型来输出所预测的端点。所述端点可视化接口对所预测的端点进行可视化。

在另一方面中，一种系统包括端点建模引擎，所述端点建模引擎根据训练数据来生成机器学习模型，所述训练数据包括经验证的端点和临床报告对象。

在另一方面中，一种计算机程序产品针对患者的一个或多个临床报告对象使用机器学习模型来预测端点并对所预测的端点进行可视化。

在另一方面中，一种计算机程序产品根据训练数据来生成机器学习模型，所述训练数据包括经验证的端点和临床报告对象。

在另一方面中，一种承载指令的非瞬态计算机可读存储介质控制一个或多个处理器以根据训练数据来生成机器学习模型，所述训练数据包括经验证的端点和临床报告对象。

参考下文描述的(一个或多个)实施例，本发明的这些方面和其他方面将变得显而易见。

附图说明

本发明可以采取各种部件和部件布置以及各个步骤和步骤安排的形式。附图仅出于说明优选实施例的目的，并且不应被解释为对本发明的限制。

图1示意性地图示了用于利用端点来总结临床报告的系统的实施例。

图2示意性地图示了用于使用端点来总结临床报告的系统的另一实施例。

图3图示了根据所预测的端点的显示的计分卡的示例。

图4图示了用于预测的端点的患者文档的显示的时间线的示例。

图5以流程图示出了生成用于预测端点的机器学习模型的方法的实施例。

图6以流程图示出了使用端点来总结临床报告的方法的实施例。

具体实施方式

参考图1，示意性地图示了用于利用端点来总结临床报告的系统100的实施例。临床端点是外部参考点，其识别所总结的临床报告的含义或主要消息，例如，诊断、对于后续研究的推荐或者处置费用。临床端点是可量化的参数，其能够假定有限数量的离散值。临床端点包括预定的时间范围。

临床报告解析器1101接收来自临床报告数据库或存储库114的临床报告112，解析每个临床报告112，并且针对每个临床报告112生成临床报告对象116，例如采用可扩展标记语言(xml)或javascript对象表示法(json)格式来生成临床报告对象116。所生成的临床报告对象116包括层次排序和识别相关联的元数据。

在一个实施例中，临床报告解析器1101使用自然语言处理(nlp)技术来对临床报告对象116中的信息进行排序并且识别相关联的元数据。nlp技术能够包括基于对标点、新行或行返回、标题模式及其组合的分析来检测句子、段落和/或部分。nlp技术能够包括检测词语、n元语言模型、短语及其组合。nlp技术能够包括词性标注，例如将词语或词组标注为名词、名词短语、动词、谓语等。例如，在句子“二尖瓣反流”中，将“二尖瓣”标注为名词短语，并且将“反流”标记为动词或谓语。nlp技术能够包括使用诸如snomed、等的本体论的概念提取。层次排序组织临床报告对象116内的信息，使得例如将句子分组在段落和部分下面，并且将词语和短语分组在句子下面等。在一些实施例中，临床报告对象116能够包括到临床报告112的链接，临床报告112将在对象中检测到的部分、段落、句子、短语和/或词语映射到报告中的对应空间位置。

例如，在诊断成像研究临床报告中，在“发现”部分标题下面检测到句子“右下叶中存在六毫米(6mm)的肺结节”。临床报告解析器1101对句子和部分进行层次排序，并且在临床报告对象116的元数据中将在“发现”部分标题下面的患者的解剖结构识别为“右下肺叶”。临床报告解析器110还使用本体论来提取具有在元数据中标注的icd-10诊断代码r91.1的“结节”的概念。

临床报告数据库114包括临床报告112，例如，放射学报告、病理学报告、手术报告、肿瘤学报告等。在一些实施例中，临床报告数据库114包括其他患者相关信息，例如，订单、账单记录、处方、电子病历及其组合等。临床报告112用例如产生报告的日期、检查的日期等来打上时间戳。能够通过患者识别符、时间戳或其组合来索引临床报告数据库114。在一些实施例(例如，所示的实施例)中，临床报告数据库114包括临床报告对象116。

端点验证引擎120在对临床报告112的端点进行验证之后，在临床报告数据库114中识别经验证的临床报告112。端点验证引擎120将经验证的端点或其表示存储在端点存储库122中。例如，在病理学临床报告确认了来自患者(鲍勃·罗伯茨)的肺部病变活检的肿瘤学恶性肿瘤，端点验证引擎120在临床报告数据库114中识别鲍勃·罗伯茨的临床报告112。在一些实施例中，这种验证包括医疗保健从业者的评审。在一些实施例中，通过患者、端点或其组合在存储库122中索引经验证的端点。在一些实施例中，端点和相关联的变量被存储在关系表中。相关联的变量是能用于预测端点的数据项。例如，在30天端点内的肿瘤学恶性肿瘤诊断中，相关联的变量包括吸烟史以及在肺部成像研究的放射学报告中的多个病变发现。在一些实施例中，相关联的变量包括到临床报告对象116中的元数据和/或层次排序的信息的链接。

在一些实施例中，端点由能够从其导出端点的信息来表示。例如，在“大于10000美元的、护理事件的住院费用”的端点中，针对该事件存储的个人费用，并且通过对个人费用的查询来合计总费用。在一些实施例中，能够使用nlp技术来导出表示端点的信息。例如，对于“肿瘤学恶性肿瘤”的端点，能够使用查询和nlp技术的组合来处理放射学和病理学报告和/或对象以获得端点并关联变量。在一些实施例中，端点验证引擎120对端点进行标准化。例如，对于30天内的肿瘤学恶性肿瘤的诊断，能够使用本体论和/或分期分类(例如，icd-10诊断代码、乳房成像、报告和数据系统(bi-rads)得分等)来对端点进行标准化。对于30天内的筛查程序的资格的端点，能够将端点标准化为特定的筛查程序或特定类型的筛查程序，例如通过赞助者来进行标准化。

端点验证引擎120使用规则来识别对应临床报告对象116中的相关联的变量和/或相关信息项以验证端点。例如，端点是在30天内诊断出的肿瘤学恶性肿瘤。临床报告对象116来自记述性放射学报告。规则将放射学报告的端点识别为在一年内进行的放射学研究之后同一患者解剖结构的时间上最接近的病理学检查的端点。该规则意味着，如果在一年内的记述性放射学报告之后的时间上最接近的病理学检查确认了肿瘤学恶性肿瘤，则记述性放射学报告的一个端点是在30天内诊断出的肿瘤学恶性肿瘤。在一些实例中，规则充当用于识别相关的报告对象并丢弃不相关的报告对象的过滤机制。在一些实例中，规则识别或关联临床报告对象116的端点。

端点建模引擎130使用机器学习技术来对端点存储库122中的经验证的端点以及来自相关临床报告对象116的信息进行建模，以生成机器学习模型132。例如，来自相关临床报告对象的每个短语或n元语言模型以经验证的端点的向量的形式被呈现给端点建模引擎130。在一些实例中，这种“卷积”方法使用极少的“特征工程”和人工神经元层，每层都接收来自选定的近侧向量条目的输入信号。其他合适的算法包括深度学习、随机森林、支持向量机或逻辑回归。

在一些实例中，所生成的机器学习模型132能够基于相关联的变量(例如，医疗保健从业者之间的发现、陈述、推荐或诊断)来进行区分。例如，在训练数据包括生成每个临床报告112的医疗保健从业者的身份的情况下，模型132能够区分不同的医疗保健从业者的相同发现。例如，模型能够区分经验证的端点并继而根据不同的放射科医生的临床报告针对30天的肿瘤学恶性肿瘤识别不同的预测评分。在一个示例中，来自由放射科医生1创建的总结临床报告的30天内的肿瘤学恶性肿瘤的预测端点评分为63％，相比之下，由放射科医生2和3创建的临床报告的30天内的肿瘤学恶性肿瘤的预测最终评分分别为75％和98％。预测端点评分较高表明诊断技能较好。

端点建模引擎130能够以周期性处理循环140操作，在周期性处理循环140中，来自端点存储库122和临床报告数据库114的训练数据被更新或修正。例如，当来自端点存储库122和临床报告数据库114的训练数据的改变超过阈值百分比时，端点建模引擎130能够进行操作，或者端点建模引擎130能够每周、每月、每季度和/或每年进行循环操作。

在诸如实时处理之类的应用循环142中，端点预测引擎150使用所生成的机器学习模型132来预测训练数据中不存在的、患者的临床报告对象152的端点。换句话说，所生成的机器学习模型132输入新的临床报告对象152并且根据新的临床报告对象152中的短语或n元语言模型来输出预测的端点。临床报告对象152是由临床报告解析器1102使用新接收的一个或多个临床报告154生成的。在一些实施例中，临床报告解析器1101和临床报告解析器1102是相同的解析器，而在一些实施例中，临床报告解析器1101和临床报告解析器1102是不同的解析器。端点预测引擎150使用(一个或多个)预测的端点来总结新接收的临床报告154。在一些实例中，总结没有重建临床报告和/或选择性访问临床报告中的信息项。在一些实施例中，端点预测引擎150在应用循环142中处理患者集合的所有报告。如下面更详细地描述的，总结包括记分卡162和/或时间线164，它们经由端点可视化接口160由显示器进行输出。

在一些实例中，记分卡162和/或时间线164对文档进行总结，从而使得报告创建者的开销得到避免或最小化。例如，能够利用包括记述性文档的现有报告生成，而不是强制采用更加结构化的方法。此外，能够通过在每个临床报告内的多值端点、预测时间范围和文本识别来使误差范围最小化。通过使用高置信度文档(例如，用于验证的病理学报告)来减小误差范围。例如，在30天内诊断出的预测的肿瘤学恶性肿瘤中，使用病理学报告和由与病理学报告相关联的规则识别的临床报告来验证机器学习模型的基础数据或真相，这使误差范围最小化。另外，端点可视化接口160能够使用链接或文本来直接识别所接收的临床报告154内的与记分卡162和/或时间线164中的结果相对应的记述性内容。在一些实例中，当对医疗保健从业者显示时，所识别的记述性内容能够额外地提供端点值的高置信度。

参考图2，示意性地图示了用于使用端点来总结临床报告的系统100的另一实施例。系统100以客户端服务器布置进行配置，其中，服务器200和计算设备210通过网络220通信性连接。在一些实施例中，系统100被配置有单个计算设备或多个计算设备，例如，服务器和计算机设备的组合。该配置能够包括被配置为超文本传输协议服务器(http)或网络服务器的服务器200，以及被配置有网络浏览器的客户端计算机210。该配置能够包括被配置有“应用程序”的客户端计算机210和被配置为与诸如ip协议之类的标准网络协议通信的服务器200。

临床报告解析器110、端点验证引擎120和端点建模引擎130被图示为作为服务器200的部分而分布。端点预测引擎140和端点可视化接口150被图示为作为计算设备210的部分而分布。在其他实施例中，服务器200与计算设备210之间的临床报告解析器110、端点验证引擎120、端点建模引擎130、端点预测引擎140以及端点可视化接口150可以不同。不同的分布能够包括：引擎120、130、140和解析器110处于一个计算设备中。不同的分布能够包括：引擎120、130、140和解析器110的不同组合分布在服务器200与计算设备210之间。

网络220能够包括有线和/或无线通信、蜂窝和/或数据通信、私人和/或公共网络或其组合。

计算机服务器200包括处理器202和存储器204。临床报告数据库114和端点存储库122由经配置的计算机处理器202访问的经配置的电子存储介质(例如，本地磁盘、云存储设备、服务器存储设备、远程存储设备等)合适地实施。经配置的电子存储介质能够包括系统文件结构、关系和/或面向对象的数据库系统结构等。

计算设备210包括显示设备212、处理器214和存储器216。计算设备210能够包括膝上型计算机、台式计算机、平板计算机、电视(tv)、智能电话、身体穿戴设备等。显示设备212由计算机显示器、智能电话显示器、投影仪、身体穿戴显示器等来合适地实施。

临床报告解析器110、端点验证引擎120、端点建模引擎130、端点预测引擎140以及端点可视化接口150由经配置的处理器202、214(例如，数字处理器、微处理器、电子处理器、光学处理器、多处理器、包括对等或协同操作处理器的处理器分布、处理器的客户端-服务器布置等)来合适地实施，通信性地连接到网络220，并且被配置为：接收临床报告112、154并将其转换为临床报告对象116、152，对端点进行验证、规范化和存储，在对应的临床报告对象116、152中识别相关联的变量和/或相关项，生成机器学习模型132，预测端点，并且将所预测的端点可视化。

经配置的处理器202、214运行被存储在计算机可读存储介质204、216中的至少一个计算机可读指令，计算机可读存储介质204、216例如为光盘、磁盘、具有经配置的处理器的计算设备的半导体存储器，其不包括瞬态介质并且包括物理存储器和/或其他非瞬态介质以执行所公开的技术。经配置的处理器还可以运行由载波、信号或其他瞬态介质承载的一个或多个计算机可读指令。图中表示的部件之间的线表示通信路径。

在一些实施例中，临床报告解析器110、端点验证引擎120、端点建模引擎130、端点预测引擎140以及端点可视化接口150被合适地实施为计算机程序产品。

参考图3，图示了计分卡300的示例。所预测的端点302包括要在30天内进行的重复成像研究310、在30天内诊断出的肿瘤学恶性肿瘤312、5年内的寿命预期314以及在接下来的30天内的筛查程序的资格316。所预测的端点302的其他示例包括在30天内的重大心脏事件的发生、在一年内大于10000美元的护理事件的医院费用以及在30天内的再次入院。

每个预测的端点302包括定量的二进制或多值度量。记分卡300中的值能够以数值(例如，百分比或概率)或二进制值(例如，“是”或“否”、“x”或空白)等来表示。如所图示的，记分卡300能够包括用于一个患者的单个端点、用于一个患者的多个端点、用于多个患者的单个端点或用于多个患者的多个端点。

计分卡300能够包括由预测引擎150确定为相关的相关临床报告320。相关临床报告320能够包括新接收的临床报告154的子集。能够利用链接到对应的新接收的临床报告154内的空间位置的指示符来指示相关的临床报告320。能够经由临床报告对象152来提供这些链接。在一些实施例中，能够通过临床报告对象152来提供文本的部分(例如，来自新的临床报告154的短语和/或句子)。

在一些实施例中，计分卡300包括所预测的端点302，每个预测的端点302具有对应的预定时间范围，并且特定于用户简档。例如，在第一医疗保健从业者(例如，放射科医生)的显示器中包括在30天内诊断出的肿瘤学恶性肿瘤的第一端点，并且省略了在30天内的再次入院的第二端点。对于第二医疗保健从业者(例如，规划床位分配的医院管理员)，将省略第一端点并且包括第二端点。

参考图4，图示了针对预测的端点302的患者临床报告154的图形显示的时间线400的示例。在其他实施例中，能够利用以时间顺序排序的临床报告表154以文本形式图示所显示的时间线400。

所显示的时间线400包括时间段402，例如，天、周、月或年等。与时间线相关地(例如利用时间线上的点或将个人相关的临床报告320连接到时间线400的线来)图示相关临床报告320。例如，在时间指示符t4与t3之间指示了第一成像研究临床报告410，在时间指示符t3与t2之间指示了实验室临床报告412，在时间指示符t2与t1之间指示了完整的调查表临床报告414，并且在时间指示符t1与t0之间指示了第二成像研究临床报告416。时间指示符t0能够表示当前时间，或者根据端点302的时间。在一些实施例中，相关的临床报告320能够用图标来指示。在一些实施例中，图标能够指示记分卡300的值，例如用颜色、突出显示、形状、符号组合等来指示记分卡300的值。

与根据计分卡300的相关临床报告320一样，根据时间线400的相关临床报告320(例如，第一成像报告410、实验室报告412、调查表414以及第二成像报告416)能够包括链接，例如，到由端点预测引擎150识别的文本或信息的空间位置或部分的超链接。

参考图5，图示了生成用于预测端点302的机器学习模型132的方法的实施例。

在500处，在临床报告数据库114中识别经验证的端点的临床报告112。

在510处，如本文和/或其他地方所描述地将临床报告112转换为临床报告对象116。

在520处，如本文和/或其他地方所描述地识别经验证的端点和相关联的变量并将其添加到端点存储库114。

在530处，如本文和/或其他地方所描述地使用机器学习技术来生成端点学习模型132。端点学习模型132被结构化以预测一个或多个端点302，每个端点302都在预定时间范围内。

参考图6，图示了使用端点302来总结临床报告154的方法的实施例。

在600处，针对患者接收一个或多个临床报告154并且将其转换为临床报告对象152。

在610处，如本文和/或其他地方所描述地根据临床报告对象152和机器学习模型132来预测端点。

在620处，对所预测的端点302进行可视化。能够使用记分卡和/或时间线来对所预测的端点302进行可视化。可视化能够特定于医疗保健从业者简档。

以上操作可以以计算机可读指令的方式实施，该计算机可读指令被编码或嵌入在计算机可读存储介质上，该计算机可读指令当由(一个或多个)计算机处理器运行时令(一个或多个)处理器执行所描述的动作。额外地或替代地，计算机可读指令中的至少一个由不是计算机可读存储介质的信号、载波或其他瞬态介质来承载。

虽然已经在附图和前面的描述中详细图示和描述了本发明，但是这样的图示和描述应当被认为是图示性或示例性的，而非限制性的；本发明不限于所公开的实施例。本领域技术人员通过研究附图、公开内容以及权利要求，在实践请求保护的发明时能够理解并实现对所公开的实施例的其他变型。

在权利要求中，“包括”一词不排除其他元件或步骤，并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。虽然某些措施被记载在互不相同的从属权利要求中，但是这并不指示不能有利地使用这些措施的组合。

计算机程序可以被存储/分布在合适的介质上，例如，与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质，但是也可以以其他形式分布，例如，经由互联网或其他有线或无线的电信系统分布。权利要求中的任何附图标记都不应被解释为对范围的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·塞芬斯特;S·M·达拉尔;A·M·塔赫玛塞比马拉古奥施;P·J·昌
技术所有人：皇家飞利浦有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。