电子临床自由文本的阅读者驱动的释义的制作方法

文档序号:14958996发布日期:2018-07-18 00:08阅读:164来源:国知局

以下总体涉及患者对健康记录的访问和自然语言处理,并特别适用于对电子地访问临床报告的患者审阅。



背景技术:

患者正在越来越多地直接访问电子临床报告,这些报告通常由医疗保健专业人员关于患者为另一医疗保健专业人员生成。临床报告(例如,实验室结果、诊断成像结果、身体检查等)通常包括自由文本。自由文本包括医学术语、缩写和行话,这些可能对患者而言不知所云或难以理解。自由文本是语句形式的非结构化文本。这种访问部分地可能由希望了解并参与他们的医疗保健决策的患者驱动。访问部分地由维护单独的医疗记录的多个医疗保健提供者的使用和需要了解来自不同提供者或来源的健康信息的整体视图而驱动。

为了理解临床文件中的自由文本,患者通常使用互联网搜索引擎来查找医学术语。搜索结果包括定义和大量文档,这些文档不考虑临床报告中的医学术语的上下文。阐明自由文本的一些方法包括识别医学术语并将术语映射到本体的自然语言处理技术。将术语映射到本体可以使术语标准化,但是没有语句上下方,并且命名仍然基于医疗保健专业人员而不是患者的理解。



技术实现要素:

本文描述的各方面解决了上述问题和其他问题。

以下描述了用于将从临床文档中的自由文本选择的语句显示为经释义的语句的方法和系统。利用短语语句对齐对来训练统计机器翻译模型以对患者临床文档中指示的语句进行释义。短语语句对齐对可以包括文本蕴涵。根据临床报告的注释语料库构建短语语句对齐对。释义可以包括表情符号。释义可以包括读者反馈,其进一步或替代地对语句进行释义。释义可以包括统计机器翻译模型的扩展,其基于映射的本体概念和/或同义词释义遇到的新术语。

在一个方面中,一种用于理解临床文档中的自由文本的系统,包括信息提取引擎和释义单元。信息提取引擎响应于输入而从临床文档提取所选择的语句。释义单元使用利用短语语句对齐对训练的统计机器翻译模型来对所提取的语句进行释义,并且输出构造的经释义的语句。

在另一方面中,一种理解临床文档中的自由文本的方法,包括:响应于输入,从临床文档中提取所选择的语句。使用利用短语语句对齐对训练的统计机器翻译模型来对所提取的语句进行释义,其输出经释义的语句。

在另一方面中,一种用于理解临床文档中的自由文本的系统,包括信息提取引擎和释义单元。所述信息提取引擎响应于输入而从临床文档中提取所选择的语句。所述释义单元使用利用从按包括诊断、检查和处置的元组聚类的临床报告的注释语料库获得的短语语句对齐对而训练的统计机器翻译模型来对所提取的语句进行释义,并将释义语句显示在显示设备上。

附图说明

本发明可以采取各种部件和部件布置以及各种步骤和步骤安排的形式。附图仅用于说明优选实施例的目的,并且不应被解释为对本发明的限制。

图1示意性地示出电子临床自由文本系统的阅读者驱动的释义的实施例。

图2示意性地示出了阅读者驱动的释义算法的实施例。

图3示出了所选择的语句的示例性释义。

图4示出了另一所选择的语句的示例性释义。

具体实施方式

首先参考图1,示意性地示出了电子临床自由文本系统100的阅读者驱动的释义的实施例。计算设备10(例如,智能电话、膝上型计算机、台式计算机、平板计算机、身体佩戴设备等)被配置为访问具有自由文本的临床文档112。访问可以是本地或远程的。例如,可以从计算设备110的本地存储器中取回临床文档112或者使用诸如互联网的网络114通过网络门户、云存储等取回临床文档112。

临床文档112被显示在计算设备110的显示设备116上。用输入设备120(例如,触摸屏、麦克风、鼠标、键盘等)来选择语句118。例如,图1中示出的是帮助框122,其在光标悬停在语句118中的术语上或语句118上时出现。输入(例如触摸屏上的轻敲或鼠标点击)选择语句118。在另一例子中,“什么是goldenhar综合征?”的语音输入可以选择具有术语“goldenhar综合征”的第一语句。

信息提取引擎124接收输入,并从自由文本文档中提取所选择的语句118。输入可以是所显示的临床文档112中的物理位置或处所和/或在所显示的临床文档112中使用的术语或短语。提取可以包括将文档的格式(例如,图像表示)转换为字符表示。提取包括将字符分词(tokenize)为词语和语句边界检测。提取包括短语的识别,例如名词短语或谓语短语。信息提取引擎124使用自然语言处理(nlp)技术来处理具有自由文本的临床文档112,以识别所选择的语句内的语句和短语。这种技术的例子可以在2015年3月9日提交的、申请号为62/130,141的、标题为“algorithmicdesignforsemanticsearchandextractionofactivediagnosesfromclinicaldocuments”的申请中找到。

在一个实施例中,系统100包括语义关系单元130,其可以将所提取的语句118中的术语(例如,词语和/或短语)映射到医学本体132和/或医学词典。例如,使用系统化医学命名法—临床术语(snomedct)和/或统一术语被映射到目标概念,例如的概念id。其他映射可以包括icd-10、galen等。映射可以包括识别否定的概念,或基于语句上下文来消除首字母缩略词和/或缩写词的歧义。在一个实施例中,语句上下文可以包括文档上下文和/或文档的一部分的上下文,例如标题信息。这种技术的例子可以在标题为“algorithmicdesignforsemanticsearchandextractionofactivediagnosesfromclinicaldocuments”的申请中找到。

释义单元140使用经训练的统计机器翻译模型142对所提取的语句118进行释义。经释义的语句可以代替在所显示的所选择的语句118中的所选择语句118,或者可以单独提供,例如弹出框、泡泡、屏幕、音频输出等。使用根据临床报告的注释语料库构建的短语语句对齐对来训练经训练的统计机器翻译模型142。短语是被翻译为语句对齐的短语。经训练的统计机器翻译模型142可以包括推理规则和/或模板,例如,混合机器翻译模型。经训练的统计机器翻译模型142可以包括用协作知识库144(例如freebase、维基百科等)进行训练。经训练的统计机器翻译模型142可以包括用英语词汇数据库146(例如wordnet)进行训练。例如,来自wordnet定义的描述和词义(即,词语注释)可以用于训练。在一个实施例中,训练可以包括表情符号字典148。翻译可以包括词语/短语的替换。翻译可以包括语句重组。翻译可以包括压缩,例如,更少的词语和/或简化,例如更少的不同词语。在一个实施例中,翻译可以包括文本蕴涵,其中替换文本基于假设(例如单向翻译)来推导原始语句的含义。

在一些情况下,用协作知识库144、英语词汇数据库146和/或表情符号字典148的训练将经释义的语句的命名面向患者的命名。在一些情况下,使用文本蕴涵的训练来将释义语句的命名面向患者的命名。在一些情况下,用语义关系单元130使用映射概念允许扩展经训练的统计机器翻译模型142,以将使用医学词典134和/或医学本体132映射的新遇到术语的翻译扩展到基于映射目标概念的训练范围内的短语。例如,第一术语被映射到概念a,并且第一术语(例如名词短语)用于训练统计机器翻译模型142。统计机器翻译模型142遇到第二术语是新的术语。第二术语由语义关系单元130映射到概念a,并且统计机器翻译模型142基于映射到概念a和/或继而到第一术语来翻译具有第二术语的语句。

信息提取引擎124、语义关系单元130和释义单元140包括一个或多个配置的处理器150(例如微处理器、中央处理单元、数字处理器等),其被配置为执行存储于计算机可读存储介质中的至少一个计算机可读指令,该计算机可读存储介质排除了瞬态介质并且包括物理存储器和/或其他非瞬态介质。处理器150还可以执行由载波、信号或其他瞬态介质携带的一个或多个计算机可读指令。处理器150可以包括本地存储器和/或分布式存储器。处理器150可以包括用于有线和/或无线通信的硬件/软件。例如,这些线表示可以是有线或无线的各种部件之间的通信路径。处理器150可以包括计算设备110,例如台式计算机、服务器、膝上型计算机、移动设备、身体佩戴设备、分布式设备、组合等。

参考图2,示意性地示出了阅读者驱动的释义算法的实施例。在200处,将聚类算法应用于临床报告集合202,按(诊断,检查,处置)的元组创建聚类临床报告204的语料库。临床报告集合202包括自由文本语句。例如,临床报告集合202可以从电子医疗记录(emr)、部门临床报告等中获得,其中移除了个人识别信息。聚类算法可以包括将报告的格式(例如,图像表示)转换为字符表示。聚类算法可以包括单词的分词。聚类算法可以包括将术语映射到本体132和/或词典134,以获得诊断、检查和治疗的一致元组。例如,(具有急性呼吸窘迫综合征(ards)、胸部x射线和机械通气的)所有临床报告属于同一聚类。胸部x射线检查可以包括语义等同项,例如胸部计算机断层扫描(ct)、胸部ct等。每个聚类代表大的可比较的语料库,其中短语和语句的含义可能相似。

在210处,注释经聚类的临床报告204的语料库,其识别短语语句对齐对212。该识别可以使用本领域已知的短语对齐模型或使用临床领域专家手动地进行。在一个实施例中,识别出的短语语句对齐对212可以包括基于本体132和/或词典134的到目标概念的映射。

在220处,使用短语语句对齐对212来训练统计机器翻译模型142。在一些情况下,短语语句对齐对212包括训练中的语句的上下文,例如,语句中使用的词语之间的关系。训练可以包括其他语料库,例如来自本体132、词典134、协作知识库144、英语词汇数据库146和/或表情符号字典148的描述和示例。训练可以包括自展(bootstrapping),它在初始训练期间平衡推理规则和/或模板的权重。推理规则以释义引导概率替换文本。模板可以用来引导推理规则的不同集合。例如,可以使用模板将推理规则引导至具有不同特征或偏好的读者,例如在训练期间使用表情符号或对多个语料库中的一个进行加权。

在225处,响应于输入,从所显示的临床文档(112)的自由文本中选择并提取语句(118)。输入可以包括指示语句(118)或语句(118)中的词语的空间位置。输入可以包括语句(118)中的词语或术语。

在230处,经训练的统计机器翻译模型142对所提取的语句118进行释义。输出(例如显示)经释义的语句。经释义的语句可以显示为所选择的语句的叠加(例如,替换所述语句);或单独地显示,例如单独的框、泡泡显示、音频输出等。释义可以包括翻译,例如双向的。释义可以包括文本蕴涵,例如单向的。在一些情况下,文本蕴涵可以解决冗余问题并确保简洁准确。文本蕴涵包括创建所选语句/部分释义的语句的向量空间表示,并识别一对语句或连接从句中的语句是否具有任何方向的文本蕴涵。释义可以包括表情符号。释义可以包括语句重组,例如,词语的不同排序、名词或谓词的不同排序等。释义可以包括压缩/简化,例如,更少的词语。释义可以包括不同的词语和/或短语,例如,同义词、基于原始词语的同义词、基于目标概念的语义等同词语或视觉表示、蕴涵、组合等。

释义可以包括重新释义232。例如,所提取的语句被释义。另一输入(例如,另一屏幕轻敲或鼠标点击)指示该释义仍然不可理解,并且统计机器翻译模型142用第二释义语句替换第一释义语句。输入可以包括用户特定的偏好,例如使用表情符号或其他模板作为模型的额外输入来选择下一释义。

在240处,统计机器翻译模型142可以接收反馈。反馈可以包括接受或未接受释义。反馈可以包括来自多个计算设备110的反馈。反馈可以包括释义的评级,例如,诸如星星数量的可读指示符。统计机器翻译模型142可以使用反馈来根据接受的和/或未接受的释义来统计地适应释义,例如调整权重和/或调整推理规则。

以上可以通过编码或嵌入在计算机可读存储介质上的计算机可读指令来实现,所述指令在由计算机(一个或多个)处理器执行时使(一个或多个)处理器执行所描述的动作。另外或替代地,计算机可读指令中的至少一个由信号、载波或其他瞬态介质携带。

参考图3,示出了所提取的语句300的示例性释义。所提取的语句“动脉粥样硬化斑块可能与急性和慢性疾病相关联”包括短语“动脉粥样硬化斑块”和短语“急性和慢性疾病”。

上下文中的短语可能蕴涵假设语句310“急性心肌梗塞(ami)通常由引起血栓形成、冠状动脉完全闭塞和心肌细胞坏死的破裂的动脉粥样硬化斑块引起”。概念“急性和慢性疾病”在该假设中表示为ami、血栓形成和斑块的上下文中心肌细胞的坏死。动脉粥样硬化斑块在急性和慢性疾病的上下文中以动脉粥样硬化斑块破裂、冠状动脉完全闭塞表示。该语句是重组的。该语句包括首先与动脉粥样硬化斑块、其次是动脉粥样硬化斑块破裂相关的ami的急性疾病,以及包括血栓形成、冠状动脉完全闭塞和心肌细胞坏死的慢性疾病。

在320中将假设语句310释义为“心脏病发作通常发生在当血管壁内的胆固醇和纤维组织的异常收集断裂时,开始血凝块的形成,心脏中血管的完全阻塞和心脏肌细胞的过早死亡”。该释义用针对用于训练统计机器翻译模型142的协作知识库144和/或英语词汇数据库146的命名中的短语替换基于医学的短语。例如,将“破裂”替换为同义词“断裂”。将“动脉粥样硬化斑块”替换为“血管壁内胆固醇和纤维组织的异常聚集”。将“触发”替换为“开始”以及将“血栓形成”替换为“血块”。“冠状动脉全闭塞”替换为“完全堵塞心脏中的血管”。“心肌细胞坏死”替换为“心肌细胞过早死亡”。

所提取的语句300替代地使用表情释义330来解释。表情符号释义的语句330是“通常在时发生,开始完全和过早”。表情符号包括短语的图形表示。例如,“心脏病发作”被表示为

参考图4,示出了另一所提取的语句400的示例性释义。所提取的语句400是“现病史:这是具有goldenhar综合征并且具有到位的胃造口术管和到位的j管的10周大女婴”。释义语句410在上下文中替换短语“goldenhar综合征”、“到位的胃造口术管”和“到位的j管”。释义语句410是“现病史:这是由于在出生前或出生时的罕见结构缺陷而(一个或两个)耳朵、鼻子、软腭、(一个或两个)嘴唇和下颚发育不完全的10周大女婴,通过胃的人造外部开口放置管用于营养支持,并且通过手术插入管通过腹部进入小肠的第二部分以进行营养补充”。

在释义语句420中,使用文本蕴涵来减少语句长度。“(一个或两个)耳朵、鼻子、软腭、(一个或两个)嘴唇和下颚”被蕴涵到“在面部”。这种短语翻译是单向的。“通过胃的人造外部开口放置管用于营养支持,并且通过手术插入管通过腹部进入小肠的第二部分以进行营养补充”被蕴涵到“通过手术插入通过到胃的人工外部开口和小肠的第二部分的两个管进行营养支持”。第二蕴涵包括识别连接从句。在释义语句430中,表情符号用于表示短语,例如,一个或多个词语。

已经参考优选的实施例描述了本发明。他人在阅读和理解前面的详细描述时,可能想到修改和变更。目的是,将本发明构造为包括所有这些修改和变更,只要它们落入所附权利要求或其等价方案的范围内即可。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1