一种导诊医学术语库的构建方法及装置与流程

文档序号:17221963发布日期:2019-03-27 12:03阅读:337来源:国知局
一种导诊医学术语库的构建方法及装置与流程

本发明涉及数据处理技术领域,尤其涉及一种导诊医学术语库的构建方法及装置。



背景技术:

导诊也叫导医,是根据患者对自身症状的描述,初步判断患者所患疾病,以及引导患者到相关科室就医的过程。

智能导诊是实现智能化医院的重要组成部分,而导诊医学术语库则是智能导诊的基础。导诊术语库的目标是将导诊中会出现的术语标准化,使得导诊中的各种口语/方言/缩略语/含错别字/非正式的描述能够正确地映射到清晰无歧义的正式医学概念上。传统的构建导诊术语库的方法主要是依赖人工,需要大量的人力资源,将实际医院导诊场景中会的许多不同的同义词映射到相应的医疗概念上去,这种构建导诊术语库的方式效率较低。



技术实现要素:

本申请提供一种导诊医学术语库的构建方法及装置,用以提高导诊医学术语库的构建效率。

本发明实施例提供的一种导诊医学术语库的构建方法,包括:

获取待导诊的自然语言;

利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;

将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。

可选的,所述获取待导诊的自然语言之前,还包括:

获取训练医疗文本;

从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;

将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。

可选的,还包括:

针对第一表述聚类中的m个表述,按照拆分模板将每个表述拆分成n个文本单元,所述拆分模板包括不同属性的n个模板单元;其中n>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;

将m*n个文本单元组合为k个不同的表述,所述k个表述属于所述第一表述聚类且每个表述包含n个不同属性的文本单元;

将所述k个不同的表述存储至所述医学术语库中的所述第一表述聚类中。

可选的,所述医学术语库的各医学术语分类存储在所述医学术语库中;

所述存储至所述医学术语库中所述医学术语对应的表述聚类中,包括:

将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。

一种导诊医学术语库的构建装置,包括:

获取单元,用于获取待导诊的自然语言;

确定单元,用于利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;

存储单元,用于将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。

可选的,还包括训练单元,用于:

获取训练医疗文本;

从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;

将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。

可选的,所述存储单元,还用于:

针对第一表述聚类中的m个表述,按照拆分模板将每个表述拆分成n个文本单元,所述拆分模板包括不同属性的n个模板单元;其中n>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;

将m*n个文本单元组合为k个不同的表述,所述k个表述属于所述第一表述聚类且每个表述包含n个不同属性的文本单元;

将所述k个不同的表述存储至所述医学术语库中的所述第一表述聚类中。

可选的,所述医学术语库的各医学术语分类存储在所述医学术语库中;

所述存储单元,还用于将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。

本发明实施例还提供一种电子设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例中任一所述的方法。

本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述实施例中任一所述方法。

本发明实施例中,系统获取待导诊的自然语言。利用文本结构化模型,从自然语言中确定与医学术语属于同一概念的目标文本。将该目标文本作为医学术语对应的表达,存储至医学术语库中该医学术语对应的表述聚类中。医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。本发明实施例创新性地将文本结构化模型用于构建医学术语库,显著提高了医学术语库的构建效率,减少对人工的依赖。此外,现有技术中只能处理样本数据中出现过的表达方式,对于样本数据中没有出现的表达,医学术语库中无法覆盖。文本结构化模型只需要少量的训练样本就能够学习到多种不同的表述方式,这样,即使待导诊的自然语言没有包括在医学术语库中,本发明实施例仍然可以识别,并将该自然语言保存在医学术语库中,从而丰富了医学术语库的内容,扩大了医学术语库的覆盖范围。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种导诊医学术语库的构建方法的流程示意图;

图2为本发明实施例提供的一种诊医学术语库的构建装置的结构示意图;

图3为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例提供了一种导诊医学术语库的构建方法。如图1所示,本发明实施例提供的病史采集方法,包括以下步骤:

步骤101、获取待导诊的自然语言。

步骤102、利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本。

步骤103、将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。

本发明实施例中,系统获取待导诊的自然语言。利用文本结构化模型,从自然语言中确定与医学术语属于同一概念的目标文本。将该目标文本作为医学术语对应的表达,存储至医学术语库中该医学术语对应的表述聚类中。医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。本发明实施例创新性地将文本结构化模型用于构建医学术语库,显著提高了医学术语库的构建效率,减少对人工的依赖。此外,现有技术中只能处理样本数据中出现过的表达方式,对于样本数据中没有出现的表达,医学术语库中无法覆盖。文本结构化模型只需要少量的训练样本就能够学习到多种不同的表述方式,这样,即使待导诊的自然语言没有包括在医学术语库中,本发明实施例仍然可以识别,并将该自然语言保存在医学术语库中,从而丰富了医学术语库的内容,扩大了医学术语库的覆盖范围。

举例来说,用户输入待导诊的自然语言,如“有点烧,头略疼,双手双脚都起了水泡”。医学术语库中存有医学术语“发热”,利用文本结构化模型,从上述自然语言中确定与“发热”术语统一概念的目标文本为“有点烧”。其中,文本结构化可以为简单地判断自然语言与医学术语的文本相似度,也可以为深度学习的文本结构化。除此之外,上述自然语言中还可以结构化出目标文本,如“头略疼”、“手”、“脚”、“水泡”,其中,“头略疼”为与医学术语“头痛”属于同一概念的目标文本,“手”为与医学术语“手”属于同一概念的目标文本,“脚”为与医学术语“脚”属于同一概念的目标文本,“水泡”为与医学术语“水疱”属于同一概念的目标文本。将上述目标文本作对应医学术语的表述,存至医学术语库中对应医学术语的表述聚类中。本发明实施例中,医学术语库中的医学术语和表述,可以按表格映射的方式进行存储,也可以按照其它方式存储,这里不做限制。医学术语库中的一个表述聚类中包括一个医学术语的多个不同表述。例如,一个表述聚类中包括“发热”的多种不同表述,多个不同表述可以为“发烧”、“有点热”、“高烧”等,这些表述均位于医学术语“发热”对应的表述聚类中。将目标文本“有点烧”,存至医学术语库中“发热”对应的表述聚类中。

本发明实施例利用少量的文本病历,训练出文本结构化模型。文本结构化模型可以根据以下方法获得:

获取训练医疗文本;

从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;

将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。

这里的训练医疗文本,可以是电子病历,也可以是医院的一般病历文本。从训练医疗文本中确定与医学术语相关联的训练文本,输入文本结构化模型的初始模型,将初始模型训练后得到文本结构化模型。同时,将训练文本存入医学术语库中对应医学术语的表述聚类中。本发明实施例中的文本结构化模型,除了能够识别出在样本数据中出现过的表述,还可以识别出第一次出现的表述,因此,扩大了医学术语库的覆盖范围。

为了进一步扩大医学术语库的覆盖范围,本发明实施例还包括:

针对第一表述聚类中的m个表述,按照拆分模板将每个表述拆分成n个文本单元,所述拆分模板包括不同属性的n个模板单元;其中n>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;

将m*n个文本单元组合为k个不同的表述,所述k个表述属于所述第一表述聚类且每个表述包含n个不同属性的文本单元;

将所述k个不同的表述存储至所述医学术语库中的所述第一表述聚类中。

病历文本中很多的表达是有一定模式的。单纯人工提取概念同义词的时候通常不会考虑这些模式,但是它们可以显著地提高术语库的覆盖率。比如“生长发育迟缓”这个医学术语,可能的表述有“生长有点慢”、“生长发育较差”、“发育稍欠佳”等。如果只是从病历文本当中直接提取存储的话,医学术语库中只能存储这些表述。有些表述是可以按照一定的模式进行拆分和组合的。比如“生长发育较差”这个表述,可以按照“[观察对象][程度][形容词]”进行拆分,这里文本单元[观察对象]为“生长”,文本单元[程度]为“较”,文本单元[形容词]为“差”。将上述表述均按照这个模板进行拆分,则文本单元[观察对象]可以是“生长”、“发育”、“生长发育”;文本单元[程度]可以是“有点”、“较”、“稍”;文本单元[形容词]可以是“慢”、“较差”、“欠佳”。针对同一表述聚类中的多个表述,按照拆分模板将这些词汇进行拆分,再对文本单元进行组合,就能够得到27种不同的表述,覆盖率显著提高。此外,模板的不同文本单元可以在不同的表达间共用,比如上面例子中的[程度]和表达“差”这个含义的[形容词]。在导诊术语库不断充实的同时,模板和各个类别的文本单元也在不断积累,成倍地提高医学术语库的覆盖率。

进一步,为了便于表述的分类和找寻,本发明实施例中医学术语库的各医学术语分类存储在所述医学术语库中。

所述存储至所述医学术语库中所述医学术语对应的表述聚类中,包括:

将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。

其中,“症状”包括例如“发烧”、“咳嗽”、“疼痛”等。“部位”包括例如“手”、“脚”、“心脏”等。“操作”包括例如“打针”、“输液”等。医学术语分类存储,则目标文本也相应分类存储。这样,查找使用时只需在对应的分类中进行即可,大大提高了医学术语库的处理效率。

为了更清楚地理解本发明,下面以具体的实施例对上述流程进行详细描述,具体步骤包括:

步骤201、获取电子病历文本。

步骤202、从电子病历文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到文本结构化模型。

步骤203、获取用户输入的待导诊的自然语言。

步骤204、利用文本结构化模型,从自然语言中确定与医学术语属于同一概念的目标文本。具体可以为确定自然语言中各文本元素的输入向量;根据文本元素的输入向量,确定各文本元素与术语库中医学术语的关联性;根据关联性从各文本元素中确定与医学术语属于同一概念的目标文本。

步骤205、将目标文本按照症状、部位、操作分类,并分类存储在医学术语对应的表达聚类中。若目标文本符合拆分模板的要求,则将目标文本按照拆分模板拆分成多个文本单元,将多个文本单元根据可能的组合,形成不同的表述,并将这些表述均存储至医学术语库中对应的表述聚类中。

本发明实施例还提供了一种导诊医学术语库的构建装置,如图2所示,包括:

获取单元301,用于获取待导诊的自然语言;

确定单元302,用于利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;

存储单元303,用于将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。

进一步,还包括训练单元304,用于:

获取训练医疗文本;

从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;

将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。

进一步,所述存储单元303,还用于:

针对第一表述聚类中的m个表述,按照拆分模板将每个表述拆分成n个文本单元,所述拆分模板包括不同属性的n个模板单元;其中n>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;

将m*n个文本单元组合为k个不同的表述,所述k个表述属于所述第一表述聚类且每个表述包含n个不同属性的文本单元;

将所述k个不同的表述存储至所述医学术语库中的所述第一表述聚类中。

进一步,所述医学术语库的各医学术语分类存储在所述医学术语库中;

所述存储单元303,还用于将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。

基于相同的原理,本发明还提供一种电子设备,如图3所示,包括:

包括处理器501、存储器502、收发机503、总线接口504,其中处理器501、存储器502与收发机503之间通过总线接口504连接;

所述处理器501,用于读取所述存储器502中的程序,执行下列方法:

获取待导诊的自然语言;

利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;

将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。

进一步地,所述处理器501具体用于:

获取训练医疗文本;

从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;

将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。

进一步地,所述处理器501具体用于:

针对第一表述聚类中的m个表述,按照拆分模板将每个表述拆分成n个文本单元,所述拆分模板包括不同属性的n个模板单元;其中n>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;

将m*n个文本单元组合为k个不同的表述,所述k个表述属于所述第一表述聚类且每个表述包含n个不同属性的文本单元;

将所述k个不同的表述存储至所述医学术语库中的所述第一表述聚类中。

进一步地,所述处理器501具体用于:

将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。

本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一一项文本标记的方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1