文本分析系统的制作方法

文档序号:6497835阅读:256来源:国知局
文本分析系统的制作方法
【专利摘要】本发明描述了一种文本分析系统。将自然语言输入单元(1)布置为使用户能够以自然语言输入自由文本(10)。将自然语言处理单元(2)布置为在输入自由文本(10)的同时对自由文本(10)的至少部分进行处理以获得所述自由文本所表示的语义的显式表示(11)。将显式信息输入单元(3)布置为使用户能够输入与语义的显式表示(11)有关的显式信息(12)。所述系统包括用于在用户仍正在输入自由文本(10)的同时为用户可视化显式表示(11)的至少部分的可视化单元(4)。将用户界面(5)布置为向用户提供对自然语言输入单元(1)和显式信息输入单元(3)两者的同时访问。
【专利说明】文本分析系统
【技术领域】
[0001]本发明涉及文本分析。
【背景技术】
[0002]当前电子健康记录(EHR)系统被广泛实施,以帮助管理患者记录,提高分析人员评估保健质量的能力,以及减少由于医疗差错造成的患者痛苦。临床决策支持工具是利用EHR系统中收集的数据的值的主要部件。这样的工具可以允许医生采用所述信息/数据达成患者特有决策。尽管自然语言的文本描述是EHR数据中的主要模态之一,但是仍然有待开发出能够从患者记录中自动、鲁棒、准确地提取有用信息的工具。
[0003]在临床环境内实施这样的方法的显著障碍在于缺乏机器/计算机可理解的临床文本。由此这意味着计算机或者其他种类的机器不能提取在临床实践中建立的文本报告的含义。通常将诸如出院总结、放射和病理报告等的临床报告存储到自然语言文档当中,而不是存储成令语义更加明了的结构化数据格式。在实施更加先进的支持工具,例如临床决策支持(CDS)工具时,这样的结构化的并且语义丰富的数据格式是有用的。为了克服这一障碍,已经专门开发了各种自然语言处理(NLP)和机器学习技术,以识别自由文本中的概念和关系。但是,这一领域内的很多工作是采用科学文本数据进行的,其在一些重要的方式上与在临床报告中常被发现的语法自由的特异性文本存在区别。在实际的临床情况下,采用NLP方案提取相关信息的任务已经被证明是极为复杂的。尽管自由文本出于主观和客观的原因始终是临床医生报告的优选方式,但是就语义的解释而言计算机无法很好地处理自由文本。在临床护理当中收集的数据量不断提高的同时,临床用户要想了解所述数据的意义,以及过滤并提取出实际相关的信息条目变得越来越困难。在这一背景下,使数据可被计算机理解,包含隐藏在数据中的语义,变得非常有价值。例如,为了找出适于具体的临床试验的患者,必须使试验的合格标准与患者记录中的数据进行可靠地比较。对临床护理当中收集的数据充分结构化的方案在临床领域已经遇到了很多的阻力。此外,最近的研究认为这样的完全结构化方案是不现实的而且是起反作用的,其原因在于临床护理和相关联报告的复杂性。
[0004]US 7, 493, 253B1公开了这样一种系统和方法:既米用语言相关术语又米用概念的独立于语言的形式本体(formal ontology)对自由文本文档进行索引,以提取自由文本文档的深层含义。通过提供语言本体作为形式本体的一部分而教导自然语言理解系统什么是概念之间的适当关系以及什么不是。语言本体含有有关语言如何起用的规则以及人类思维在表达人类意识层面的事实时所遵循的原理。
[0005]US 2011/0033093公开了一种报告放射信息的方法。提供了一种用于对放射图像研究报告的内容进行图形表示的系统和方法。而且还提供了一种用于呈现结构化放射报告的内容的系统和方法,所述报告在单一图示当中包含了多项成像研究及其对应研究结果。采用放射知识的本体解释报告内容并生成要在图形图中显示的信息。
【发明内容】

[0006]具有对自由文本的改进的分析,尤其是为计算机提供对自由文本的更深的理解将是有利的。为了更好地解决这一问题,本发明的第一方面提供了一种文本分析系统,包括:
[0007]用于使用户能够以自然语言输入自由文本的自然语言输入单元;
[0008]用于在输入文本的同时对文本的至少部分进行处理以获得所述自由文本所限定的语义的显式表示的自然语言处理单元;以及
[0009]用于使用户能够输入与语义的显式表示有关的显式信息的显式信息输入单元。
[0010]所描述的系统提供了一种有效率的方式来产生一般在报告工作流中生成的自由文本所表达的语义的显式表示。所述显式表示可以是结构化的表示,或者尤其可以是机器可读或机器可理解的表示。通过在用户输入自由文本时执行自然语言处理,与此同时使用户除了自由文本外还能够提供与语义的显式表示相关的显式信息,收集有关自由文本的作者意在通过所述自由文本表达的语义的有价值的信息。至少可以通过两种方式使用这样的信息:首先,改进描述该具体自由文本的语义的显式表示,从而更好地理解文本所表示的语义。其次,改进自然语言处理算法,从而对其参数进行细调,或者改进自然语言处理算法中所使用的本体。可以将所述系统布置为只要用户已经输入了额外的文本或者只要用户已经提供了与语义的显式表示有关的显式信息,就持续地或者定期地更新所述自由文本所表示的语义的显式表示。
[0011]所述系统可以包括可视化单元,其用于在用户仍正在输入自由文本的同时,向用户可视化显式表示的至少部分。这允许用户检查所生成的显式表示,并根据需要对其做出校正或添加。由于在用户仍正在写文档的同时将所述表示呈现给了用户,因而用户更易于提供准确的校正,因为用户知道他或她想要通过自由文档表达什么。例如,只要已经输入了自由文档的新的部分(例如句子),就可以对所述可视化进行更新。
[0012]所述系统包括被布置成为用户提供对自然语言输入单元和显式信息输入单元两者的同时访问的用户界面。例如,这可以采用图形用户界面元件或相互并排显示的微件实现,从而用户能够通过引发点击事件或触摸事件而选择它们当中的任何一者。因而,能够使用户采用自然语言输入单元输入一些自由文本,之后采用显式信息输入单元输入一些显式信息,尔后继续输入更多的自由文本。这样,用户能够采用自由文本和显式信息的组合向系统传达预期的信息,并且能够在用户正输入自由文本时直接对显式信息做出任意校正。用户不必执行对数据的任何回顾性检查来验证正确性。
[0013]可以将输入单元布置为使用户能够确认或拒绝语义的显式表示。这允许所述系统响应于拒绝而提议替代的显式表示。或者,所述系统可以收集确认/拒绝,并采用其作为信息对自然语言处理系统做出改进,如上文所述。
[0014]可以将输入单元布置为使用户能够输入与语义的显式表示当中的差错的校正有关的信息。可以采用该信息来改进表示,或者收集自由文本和对应的显式语义表示的基础事实对。
[0015]可以将所述输入单元布置为使用户能够提供与概念实例或者两个概念实例之间的语义关系的添加、改变或删除有关的信息。这些是含有要包含在语义的显式表示当中的相关信息的信息片断的例子。
[0016]所述系统可以包括关联单元,其用于在自由文本的部分和语义的显式表示的对应部分之间建立关联,其中,语义的显式表示的对应部分表示文本的所述部分的语义。这允许执行针对正确性的检查,并且允许对导出显式表示的部分之处进行重构。此外,在已经对显式表示的对应部分做出了校正时,其允许跟踪不能对自由文本的哪一部分自动处理。该信息有助于改进自然语言处理系统。
[0017]可以将所述关联单元布置为基于用户所输入的显式信息而建立关联。用户的输入可以提供所述输入所涉及的自由文本部分的线索。例如,在用户注意显式表示中的差错并对其校正时,就有所述校正涉及刚刚键入的文本部分的线索。或者,可以将所述系统布置为使用户能够通过例如高亮显示明确指示自由文本的部分,并且指示校正或者显式语义的具体部分对应于高亮显示的自由文本部分。这提供了自由文本和显式信息之间的关系的更为详细的基础事实信息。
[0018]所述系统可以包括更新单元,其用于基于用户所输入的显式信息而生成文本所表示的语义的更新显式表示。该更新单元使用用户提供的输入,来生成语义的改进的更新显式表不。
[0019]所述系统可以包括存储单元,用于存储自由文本以及以下中的至少两项:用户所输入的显式信息、自然语言处理单元生成的语义的显式表示、以及文本表示的语义的更新显式表示。这允许检查每种情况的校正连同所述自由文本。其提供了有关如何改进自然语目处理系统的/[目息。
[0020]所述系统可以包括奖励发生器,其用于基于用户输入的与语义的显式表示有关的显式信息而生成对用户的奖励的指示。这提供激励用户在使用所述系统时提供反馈。例如,可以通过奖励激励医生在他或她输入报告的常规工作中提供有关语义的显式表示的反馈。这样,可以收集到在改进自然语言处理系统时感兴趣的有价值信息。
[0021]所述系统可以包括算法改进单元,其用于基于用户所输入的显式信息而改进自然语言处理单元所使用的自然语言处理算法。这允许自动改进用于自然语言处理的算法,从而使将来需要的校正更少。
[0022]在另一方面当中,本发明提供了一种包括所阐述的系统的工作站。
[0023]在另一方面当中,本发明提供了一种用于提供电子报告工作流的保健信息系统。所述保健信息系统可以包括所阐述的系统。所述保健信息系统还可以包括用于存储自由文本报告的电子健康记录数据库。所述系统在保健信息系统中的这一集成允许将反馈收集实现为保健工作流的整体部分。这样,反馈收集可以更有效率,和/或所收集的反馈可以更加完整。
[0024]在另一方面当中,本发明提供了一种文本分析方法,包括:
[0025]使用户能够以自然语言输入自由文本;
[0026]在正输入自由文本的同时采用自然语言处理对自由文本的至少部分进行处理,以获得所述自由文本所表示的语义的显式表示;以及
[0027]使用户能够输入与语义的显式表示有关的显式信息。
[0028]在另一方面当中,本发明提供了一种包括指令的计算机程序产品,所述指令用于使处理器系统执行所阐述的方法。
[0029]本领域的技术人员将会认识到,可以通过任何认为有用的方式组合两个或更多上述本发明的实施例、实现方式和/或方面。[0030]本领域技术人员能够基于本说明书执行对工作站、保健信息系统、文本分析系统、方法和/或计算机程序产品的修改和变化,所述修改和变化对应于所描述的对系统的修改和变化。
【专利附图】

【附图说明】
[0031]通过参考附图本发明的这些和其他方面将变得显而易见,并且将参考其得到阐述。
[0032]图1是示出了文本分析系统的各方面的方框图。
[0033]图2是示出了文本分析方法的各方面的流程图。
[0034]图3是示出了文本分析系统的各方面的另一方框图。
[0035]图4示出了简化的本体和语义图。
【具体实施方式】
[0036]图1示意性地示出了文本分析系统的部件。可以在工作站上实现文本分析系统,或者可以将其实现为诸如保健信息系统的分布式计算环境的部分。也可以采用专用电子电路实现所述系统。所述系统可以包括用户接口硬件,例如显示器、触摸屏、键盘、定位装置等,从而允许用户对所述系统进行操作,并提供本文所描述的用户输入。麦克风连同语音识别软件或硬件也可以是所述系统的一部分。所述系统可以包括或者操作地连接至数据存储系统,例如,数据库系统,尤其是健康记录数据库系统或医院信息系统,或者文件系统,以存储文档,例如,所创建的自由文本文档和/或以显式格式表示自由文本文档的语义的结构化文档。
[0037]也可以将所述系统实现为诸如放射报告系统或保健信息系统(如电子健康记录系统)的文档创建系统的插件。这样,可以将现有系统的报告特征扩展为具有用于提取自由文本10报告的语义的显式表示11的即时自然语言处理,以及对与正在创建的报告的语义的显式表示11有关的由用户提供的显式语义信息12的即时收集。
[0038]所述系统可以包括自然语言输入单元1,其被布置为使用户能够以自然语言输入自由文本10。该自然语言输入单元I可以包括常规文本编辑器或者具有实时语音识别的口授系统。但是,将自然语言输入单元I布置为一接收到任何自由文本就将其转发给所述自然语言处理单元。
[0039]自然语言输入单元I还可以包括到保健信息系统的软件接口。例如,所述系统可以是保健信息系统的插件。所述插件可以与保健信息系统通信。可以将所述保健信息系统布置为定期向自然语言输入单元I输送由用户经由所述保健信息系统的报告子系统输入的任何自由文本。也可以将这样的自然语言输入单元I连接至放射观察站;例如,在查看图像时,可以自动弹出文本输入窗口,从而使医生能够提供对所述图像的评述。
[0040]所述系统可以包括自然语言处理单元2,其被布置为在正在输入的同时对自由文本的至少一部分进行处理。因此,基于在到目前为止已经输入的自由文本的部分,利用不完整的文本信息开始所述处理。所述自然语言处理可以产生所述自由文本所表示的语义的显式表示11。自然语言处理技术本身是本领域已知的。因此,这里不再对其详细描述。但是,有可能应用这样的技术,例如,模板匹配以及本体中定义的概念实例和概念实例之间的关系的识别,从而按照自由文本的表达建立语义概念实例及其关系的网络。可以以诸如XML格式的计算机可读格式表达这一显式语义信息。这样的计算机可读格式可以与机器可理解格式兼容,例如,资源描述框架(RDF)、资源描述框架模式(RDFS)、网络本体语言(OWL)。
[0041]所述系统可以包括显式信息输入单元3,其被布置为使用户能够输入与语义的显式表示11相关的显式信息12。该显式信息12可以包括自由文本所表达的显式语义概念或者语义关系的指示。可以通过很多种不同的方式实现这样的显式信息输入单元3。例如,有可能使用户能够输入含有语义信息的XML代码的片断,如上文所述。或者,可以实施允许输入显式语义信息的各种图形用户界面元件。例如,可以呈现最有可能意指的概念和/或关系的列表,用户能够根据其做出选择。这允许所述系统通过要求用户从对自由文本的可能的不同解释中做出选择而解决自由文本中的歧义问题。在下文中将描述其他可能性。
[0042]所述系统可以包括可视化单元4,其用于在用户仍然在输入自由文本10的同时向用户可视化显式表示11的至少一部分。这样的可视化能够采取显示显式表示11的“原始版本”的形式。例如,假设所述原始版本包括XML,则可以采用XML查看器。或者,生成图形可视化。可以通过不同的方式实现这样的图形可视化。例如,可以将自由文本中所使用的概念实例做成图形的节点,并且可以通过表示节点的符号示出识别所述概念的术语。可以使用节点之间的边来表示概念实例之间的关系。可以采用两个连接的概念实例之间的关系的种类的指示对所述边加以注释。
[0043]所述系统可以包括用户界面5,其被布置用于为用户提供对自然语言输入单元I和显式信息输入单元3两者的同时访问。例如,可以在显示设备上显示两个窗口,一个窗口用于输入自由文本10,另一个用于输入显式信息12。例如,用于输入自由文本10的窗口可以包括文本编辑器。用于输入显式信息12的窗口可以示出语义的显式表示11的可视化。可以使用户能够与作为后者的可视化进行交互,从而做出改变或添加,以此作为输入显式信息12的方式。例如,可以使得采用具有节点和边的图形的图形表示可交互,从而能够对边拖放和/或能够用更加适当的术语替代节点中所示的术语,也可以提供其他种类的交互。
[0044]可以将显式信息输入单元3布置为使用户能够确认或拒绝语义的显式表示11。这可以采用简单的单选按钮或复选按钮实现,并且可以将其存储成布尔变量,以作为显式信息12。
[0045]可以将显式信息输入单元3布置为使用户能够输入与语义的显式表示11中的校正相关的信息。如上文所述,这可以采用显式表示11的可视化的拖/放以及其他交互实现。可替代地,所述系统可以提供命令提示符,其使得用户能够输入校正作为命令,其可选地采用语音识别技术。
[0046]可以将显式信息输入单元3布置为使用户能够提供与概念实例或者两个概念实例之间的语义关系的添加、改变或删除相关的信息。而且,这可以采用拖放功能或者通过其他方式实现,如上文所述或其它方式。
[0047]所述系统可以包括关联单元6,其用于在自由文本10的一部分和语义的显式表示11的对应部分之间建立关联。关联单元6可以操作地连接至自然语言处理单元2,以接收有关从自由文本的哪部分提取哪些语义元素的信息。语义的显式表示11的对应部分应当表示与之相关联的自由文本10的部分的语义。例如,可以将这些关联存储到存储语义的显式表示11的数据结构内。也可以将所述关联存储为单独的数据结构。
[0048]也可以将所述关联单元布置为(还)基于用户输入的显式信息来建立关联。例如,可以使用户能够提供具体的语义构造所涉及的文本部分的显式指示。
[0049]所述系统可以包括更新单元7,其用于基于用户输入的显式信息12,生成自由文本10所表示的语义的更新的显式表示11’。这是所述系统的可选特征,因为所述系统的一个应用可以是收集显式信息12作为反馈,从而能够在将来对所述系统做出改进。可以使更新单元7与显式信息输入单元集成,尤其是在由用户提供显式信息以作为对语义的显式表示11、11’的编辑时。
[0050]所述系统可以包括存储单元13。可以将这样的存储单元布置为记录用户经由显式信息输入单元3对显式表示11、11’所做的任何编辑。这样,可以保存显式信息12以供将来之用。这样的将来使用可以包括改进自然语言处理,例如,通过采用机器学习。另外或可替代地,可以将存储单元13布置为存储自然语言处理单元所生成的语义的显式表示11和/或所述文本所表示的语义的更新的显式表示11’。显式信息12、显式表示11和更新的显式表示11’中的至少两个可以允许识别出显式表示11的哪些方面需要用户校正。这允许识别并改进所使用的自然语言处理算法的弱点。存储自由文本10还允许对照显式表示11、11’和/或显式信息12,尤其是用户对显式表示11所做的校正来匹配显式表示。
[0051]所述系统可以包括奖励发生器8,其被布置为在用户输入的与语义的显式表示11有关的显式信息12的基础上生成对用户的奖励的指示。可以自动地或者通过控制人员的介入将该奖励提供给用户。例如,在用户已经提供了相当大量的显式信息12来改进语义时,可以为用户提供财务奖励。这有助于激励用户提供相关反馈。
[0052]所述系统可以包括算法改进单元9,其被布置为基于用户输入的显式信息12,来改进自然语言处理单元2所使用的自然语言处理算法。这可以由机器学习算法执行。算法改进单元9可以包括用于使操作人员能够控制实际施加至机器学习算法的改进的用户界面。所述机器学习算法的可以以这种方式而进行改进的各方面包括:本体、自然语言处理算法的参数、或者自然语言处理算法的算法步骤。
[0053]图2示出了文本分析方法的示范性实现的流程图。所述方法可以开始于步骤201,其使得用户能够以自然语言输入自由文本。在用户正输入自由文本的部分的同时,所述方法可以例如根据预定的自然语言处理算法采用自然语言处理技术在已经输入的范围内执行对自由文本的至少部分进行处理的步骤202。这可以在已经输入的自由文本的范围内产生由所述自由文本限定的语义的显式表示。尽管用户正在输入自由文本的部分,但是所述方法可以执行使用户能够输入与语义的显式表示相关的显式信息的步骤203。例如,可以使用户能够在自由文本的输入过程中随时提供这样的显式信息。在执行这些步骤之后,可以在步骤204中判定是否要对下一文档重复所述过程。如果是,那么所述方法再一次从步骤201开始,以创建下一具有自由文本和对应的语义显式表示的文档。
[0054]可以基于对文中的系统的功能的描述而对所述方法进行扩展或修改。类似地,可以基于对所述方法的描述而对所述系统进行扩展或修改。可以采用软件和/或采用专用硬件实施所述方法。
[0055]同音异义、一词多义、共指、直接和暗示否定、时间性是在临床报告中经常发现的语言特征,众所周知,这些特征对于NLP框架而言难以进行处理并提取意指含义。由于自然语言的模糊性,在一些情况下,甚至专业人员都无法提取出作者所意指的文本描述的本义。
[0056]为了为将来的智能临床决策支持系统(CDS)提供结构化的、语义确切的并且恰当描述的数据,从而允许CDS执行自动推理,可能必须改进当今的数据获取。对现有的文本报告进行回顾性分析并试图猜测隐藏含义可能不具有效率。
[0057]理论上,对于所有的数据获取都强加严格的结构化报告并且不允许自由文本字段将产生结构化和计算机可处理性高得多的数据,但是假定这将被临床医生所接受是不现实的。此外,相信结构化的报告就能够获取自由文本报告的全部复杂性和必要的微小差别也是不现实的。因而,在信息变得易于通过计算机处理的同时,可能会遗失一些必要的含义。在临床医生的报告系统当中,可能对于未来的很多年而言,自由文本的易于使用及其表达性都是临床医生所需要的东西。当然,在很多医疗子领域当中,例如,在乳腺癌的B1-RADS报告标准当中,成功地使用了一些部分结构化的报告解决方案,但是仍然必须具有伴随报告的自由文本。
[0058]大多数现有的试图从自由文本中提取语义的NLP系统提供对所提取的含义实际上就是作者实际所意指的含义的非常少(如果有的话)的验证。如果我们要处理历史数据,尤其是因为历史数据的作者可能再也找不到了,那么这样的验证就很困难,甚至不可能。
[0059]上文描述的很多困难源自于所述系统(或专业人员)必须“二次猜测”意指语义这一事实。在本说明书中提供了一种系统,其将使数据的创建者能够在必要时核对意指语义并提供有关其的反馈。
[0060]其原因之一在于,作者最了解他或她所书写的文本的含义,而且在数据输入时就对其进行验证将使得二次猜测没有必要。这一方案还允许所述系统例如用用户在他或她的描述中选择的优选短语而学习和个性化NLP管线。
[0061]可以通过语义图获取自由文本叙述的语义。
[0062]可以使用文中公开的技术来记录用户的反馈,并从中学习,从而使自然语言处理系统更加个性化,继而将其修整为适应临床领域内的具体微小差别以及用户的“书写风
格”/措辞。
[0063]图3示出了集成文档创建和处理系统的图解视图。所述系统包括报告系统301和文本处理系统302。报告系统301可以是现有的保健信息系统的一部分,可以将文本处理系统302实现为现有的报告系统301的插件或扩展。或者,可以将两个系统实现为集成单元。报告系统301包括报告创建工具303,其允许用户304 (例如,临床医师)创建文本文档或报告。随着报告的创建,将其提供为文本处理系统302的自然语言处理插件304的即时文本输入311。将文本输入311输送给NLP管线306,其采用来自例如包括个性化短语模式、基础事实等的领域本体305和数据库308的知识执行从文本输入311即时提取语义关系。将所提取的语义的显式表示307输送给交互式语义观察器309 (对应于可视化单元4),其向用户示出所提取的语义。将用户反馈模块310 (对应于显式信息输入单元3)布置为从用户304收集关于可视化的语义的反馈。
[0064]根据用户所创建的叙述性自由文本,通过提取所述叙述中存在的相关概念集合、建立它们之间的关系并识别出实例,而建立语义图。通过交互式语义观察器309将所构造的实例及其关系的图呈现给用户,以供确认或校正。
[0065]可以在模式(schema)层面和实例层面进行区分。已知的概念提取方案只关注模式层面,其对于很多临床应用而言可能过于笼统。在实例层面,识别出自由文本中的概念实例,并且在有可能的情况下识别出与实例相关联的文字值。然后将这些项呈现给用户以供检查。
[0066]例如,在创建有关患者髋部骨折的报告时,可以描述并提取其偏侧性,以及骨折发生的日期,如果其在文本中可得的话。在仅使用概念/模式层面时,那么做将是不可能的。
[0067]与其他表示(例如表格)相比,尝试获取语义图中的患者EHR记录可以提供更大的灵活性,因为直接标示的图能够很好地适合医疗叙述中经常发生缠结或交叉链接的基础语义关系。
[0068]下文将描述一种示范性情况。该例子可以代表经常在临床报告中发现的情况。可以提取患者医疗史和家族史的摘要的语义图。医疗史可能很重要,因为其提供了针对当前护理情节的信息,并且为诊断和治疗提供了相关背景。家族史可能在各种各样的可能具有基因原因的疾病(例如,癌症、心血管病)中有关,因为其可以提示当前患者的易患病体质和加大的风险。也可以将家族史用于诊断和治疗选择这两者。
[0069]例如,可以通过下述彼此交互的部件中的一者或多者实现所述系统。
[0070]插件部件304可以负责与临床医师的报告软件连接。这样的插件的应用编程接口(API)可以在从简单的文本提取模块到与包括外观和感觉的报告系统的全面UI集成的范围内变动。
[0071]插件304可以提供用户能够看到的用户界面部件。首先,可以是领域特有的语义观察器将涵盖基础NLP框架集中以确定的既定医疗领域内的最重要的数据项。例如,就乳腺癌而言,可以将观察器实现为肿瘤所处位置的图形演示,从而指示其尺寸等。其次,反馈系统可以为用户提供机会,使其能够提供针对可视化的提取语义的反馈。该部件能够在从简单的是/否(认可/反对)反馈选项到更加完善的能够实现用户一计算机交互的Π的范围内变动,例如,假设NLP框架在自动确定结构化数据时出现差错,那么应请求输入结构化数据。
[0072]基础系统还可以包括描述既定临床领域的知识部件。例如,这可以通过从SNOMED提取的本体实现,并且可以在必要时通过领域专家对其进行裁剪。这样的本体应当含有那些在既定的临床领域内具有重要性的语义概念,因而NLP框架应当集中于确定它们的的值
/绑定。
[0073]可以提供NLP管线306的实例以执行语义提取。可以实施从自然语言提取显式语义的NLP框架。该框架可以含有诸如句子检测、分词器、词干器、否定检测等的部件。
[0074]可以用接收到的用户反馈填充数据库308。每次在用户与反馈模块交互时,都可以将信息存储到数据库内。这可以含有用户对既定短语内的某些值的确认。该信息及时地呈现了用户短语选择以及相对于本体范畴的意指含义,其能够针对具体用户实现NLP解决方案的真正个性化。
[0075]来自自由文本的摘录的例子如下,下文简称为例I 我被要求对这一患者执行针对乳腺癌的医疗肿瘤学会诊。[姓名]女士 [年龄]岁,白种女性,据过去的医疗史中描述存在多种医疗问题。她体重已经有些下降,但是不知道有多少。既往医疗史:她以前做过主动脉瘤修复。她还在很多年前因跌倒而使左髋部发生过非病理性骨折。”
[0076]作为语义图的可能的语法之一,可能采用资源描述框架(RDF)和/或资源描述框架模式(RDFS),这是W3C联盟所提供的标准。可以采用任何现有的工具和推理器(reasoner)来处理遵守所述语法的图。
[0077]文中提出的NLP管线的一个方面在于,其可以导出已知类别或概念的实例或出现、以及这些概念的实例之间的关系。已知类别可以取自于诸如SNOMED的现有本体。只要有可能,就可以将那些实例与文字值链接起来,例如,从短语“左侧侧面发生髋部骨折”的短语当中,可以使概念实例“髋部骨折”与位置值“左侧侧面”关联起来。
[0078]图4的上半部分示出了从SNOMED提取的类别401的层级的摘录。该图的下半部分示出了类别实例的语义图402,即上文列举的例I的句子的语义的显式表示。
[0079]在示范性实施例中,在对文本(诸如例I的文本)进行处理时,可以识别出几个阶段。但是这些只是例子。其他实现方式也是可能的。
[0080]阶段1:识别感兴趣的部分。基于可以针对每一机构进行定制的一组规则来选择报告的有关部分。在这种情况下,在明确地引用医疗史的部分之后,所述系统还选择对当前会诊的描述,因为其含有用于建立当前医疗遭遇的医疗史的相关概念。
[0081]阶段2:识别在自由文本中引用的相关概念以及这些概念的实例。该步骤可以通过NLP执行。可以采用用于词句分割、词性标记、词干提取、否定检测等的部件。NLP管线可以采用本体来识别相关概念及其实例。类别的实例可能具有相互之间的关系或者具有带文字值的属性。例如,“髋部骨折”具有“侧面”属性,就例I的情况而言,其与值“左侧”绑定。紧挨着来自本体的关系,可能有所述系统搜索的预先定义的一组关系。
[0082]阶段3:建立针对患者历史的语义图。在识别出相关概念及其关系之后,系统采用例如RDF和/或RDFS语法构建语义图。
[0083]可以将所述系统布置为检测自由文本中的歧义性。在这种情况下,可以通过可见的指示、声音信号或其他指示警示用户。可以将与自由文本兼容的语义的显式表示的一个或多个提议呈现给用户,并且可以使用户能够做出选择,和/或细化自由文本,从而使自由文本不具歧义。
[0084]要认识到,本发明还适用于适于实践本发明的计算机程序,尤其是载体上或载体中的计算机程序。程序可以是源代码、目标代码、居于源和目标代码中间的代码形式,例如部分编译的形式,或适于用在实施根据本发明的方法的任何其他形式。还要认识到,这样的程序可能具有很多不同的架构设计。例如,实施根据本发明的方法或系统功能的程序代码可以细分成一个或多个子例程。对于技术人员而言,在这些子例程之间分配功能的很多不同方式将是显而易见的。可以将子例程一起存储在一个可执行文件中以形成独立自足的程序。这样的可执行文件可以包括计算机可执行指令,例如,处理器指令和/或解释器指令(例如Java解释器指令)。可替代地,可以在至少一个外部库文件中存储一个或多个或所有子例程,并例如在运行时间将其与主程序静态或动态地链接。主程序包含至少一个对至少一个子例程的调用。所述子例程也可以包括相互调用。涉及计算机程序产品的实施例包括与这里阐述的方法中的至少一个的每个处理步骤对应的计算机可执行指令。可以将这些指令细分成子例程和/或存储在可以静态或动态链接的一个或多个文件中。涉及计算机程序产品的另一实施例包括与这里阐述的系统和/或产品中的至少一个的每个模块对应的计算机可执行指令。可以将这些指令细分成子例程和/或存储在可以静态或动态链接的一个或多个文件中。[0085]计算机程序的载体可以是能够承载程序的任何实体或设备。例如,所述载体可以包括诸如ROM的存储介质,例如CDROM或半导体R0M,或者可以包括诸如闪速驱动或硬盘的磁记录介质。此外,载体可以是可传输载体,例如电信号或光信号,其可以经由电缆或光缆或通过无线电或其他手段传输它们。当在这种信号中实现程序时,载体可以由这样的电缆或其他设备或模块构成。或者,载体可以是其中嵌入了程序的集成电路,该集成电路适于执行相关方法或在执行相关方法时使用。
[0086]应当指出,上述实施例例示而非限制本发明,本领域的技术人员将能够设计很多替代实施例而不脱离所附权利要求的范围。在权利要求中,置于括号之间的任何附图标记都不应被解释为限制权利要求。使用动词“包括”及其词形变化不排除存在权利要求中所述那些之外的元件或步骤。元件前的冠词“一(a或an)”不排除存在多个这样的元件。可以利用包括若干不同元件的硬件并利用适当编程控制的计算机来实施本发明。在枚举了若干模块的设备权利要求中,可以由同一件硬件实现这些模块中的几个。在互不相同的从属权利要求中列举特定手段的简单事实并不表示不能有利地使用这些手段的组合。
【权利要求】
1.一种文本分析系统,包括: 用于使用户能够以自然语言输入自由文本(10)的自然语言输入单元(I); 用于在输入所述自由文本(10)的同时对所述自由文本(10)的至少部分进行处理以获得所述自由文本所限定的语义的显式表示(11)的自然语言处理单元(2);以及 用于使用户能够输入与语义的所述显式表示(11)有关的显式信息(12)的显式信息输入单元(3)。
2.根据权利要求1所述的系统,包括用于在用户仍正在输入所述自由文本(10)的同时,向用户可视化所述显式表示(11)的至少部分的可视化单元(4)。
3.根据权利要求1所述的系统,包括用于为用户提供对所述自然语言输入单元(I)和所述显式信息输入单元(3)两者的同时访问的用户界面(5)。
4.根据权利要求1所述的系统,其中,将所述显式信息输入单元(3)布置为使用户能够确认或拒绝所述语义的所述显式表示(11)。
5.根据权利要求1所述的系统,其中,将所述显式信息输入单元(3)布置为使用户能够输入与所述语义的所述显式表示(11)中的校正有关的信息。
6.根据权利要求1所述的系统,其中,将所述显式信息输入单元(3)布置为使用户能够提供与概念实例或者两个概念实例之间的语义关系的添加、改变或删除有关的信息。
7.根据权利要求1所述的系统,包括用于在所述自由文本(10)的部分和语义的所述显式表示(11)的对应部分之间建立关联的关联单元(6),其中语义的所述显式表示(11)的对应部分表示所述自由文本(10)的所述部分的语义。
8.根据权利要求1所述的系统,包括用于基于用户所输入的所述显式信息(12)而生成所述自由文本(10)所表示的语义的更新显式表示(11’)的更新单元(7)。
9.根据权利要求1或8所述的系统,包括存储单元(13),其用于存储自然语言的所述自由文本(10)以及以下中的至少两项:用户所输入的显式信息(12)、所述自然语言处理单元生成的语义的所述显式表示(11)、以及文本所表示的语义的更新显式表示(11’)。
10.根据权利要求1所述的系统,还包括基于用户所输入的与语义的所述显式表示(11)有关的所述显式信息(12)而生成对用户的奖励的指示的奖励发生器(8)。
11.根据权利要求1所述的系统,包括用于基于用户所输入的所述显式信息(12)而改进所述自然语言处理单元(2)所采用的自然语言处理算法的算法改进单元(9)。
12.一种包括根据权利要求1所述的系统的工作站。
13.一种用于提供电子报告工作流的保健信息系统,包括根据权利要求1所述的系统以及用于存储自由文本报告的电子健康记录数据库。
14.一种文本分析方法包括: 使用户能够以自然语言输入自由文本(201); 在正输入所述自由文本的同时采用自然语言处理对所述自由文本的至少部分进行处理(202),以获得所述自由文本所限定的语义的显式表示;以及 使用户能够输入与语义的所述显式表示有关的显式信息(203)。
15.一种计算机程序产品,包括用于使处理器系统执行根据权利要求14所述的方法的指令。
【文档编号】G06F19/00GK104011711SQ201280065030
【公开日】2014年8月27日 申请日期:2012年12月17日 优先权日:2011年12月27日
【发明者】G·R·曼科维奇, R·弗多夫亚克, A·I·D·布库尔, 钱悦晨, M·塞芬斯特, T·D·D·S·马博杜瓦纳 申请人:皇家飞利浦有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1