病历结构化的处理方法和装置与流程

文档序号:12734450阅读:1355来源:国知局
病历结构化的处理方法和装置与流程

本发明实施例涉及计算机应用技术领域,尤其涉及一种病历结构化的处理方法和装置。



背景技术:

病历是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医学活动过程所作的文字记录。病历既是临床实践工作的总结,又是探索疾病规律及处理医学纠纷的法律依据,是国家的宝贵财富。

由于不同的医务人员往往存在着表达方式、书写习惯等个性化特点的差异,医务人员在录入病历的时候,经常混杂大量不规范的同义词、缩写用法,甚至还有错别字,使用的句型不仅多样化,而且可能不规范。即使是同一种疾病或者症状,不同的医务人员可能也会分别采用不同的同义词或近义词来表述,例如,“阿尔茨海默病”、“阿兹海默症”与“老年痴呆”;“纳差”与“食欲不振”等。因此,病历结构化对于有效整理病历,按规定的格式和要求书写的患者医学健康档案,从中挖掘医生临床经验,对医学进步具有重大意义。



技术实现要素:

本发明提供了一种病历结构化的处理方法和装置,以解决现有的能够解决病例样本中自然语句用词不准确以及表达不规范等问题,实现病历结构化处理的高准确性、高容差性以及结构严谨性。

第一方面,本发明实施例提供了一种病历结构化的处理方法,该方法包括:

获取病历样本中的至少一个自然语句,根据预设规则获取所述自然语句中的医学实体,并确定出各医学实体之间的依存关系;

在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系;

基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。

第二方面,本发明实施例还提供了一种病历结构化的处理装置,该装置包括:

医学实体获取模块,用于获取病历样本中的至少一个自然语句,根据预设规则获取所述自然语句中的医学实体,并确定出各医学实体之间的依存关系;

医学标准化用语获取模块,用于在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系;

形式化语句转化模块,用于基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。

本发明实施例的技术方案,通过获取病例样本中的自然语句,然后获取病例样本中的自然语句中的医学实体以及各医学实体之间的依存关系,能够准确地识别出自然语句中的关键信息以及结构关系,以便更好地调整自然语句;进而获取各医学实体的医学标准化用语,可以使得自然语句中的医学实体表达更加规范化,获取到的各医学标准化用语之间的拓扑关系,有利于进一步梳理自然语句中各医学实体之间的拓扑关系;最后,将自然语句根据预设的语句结构转化成形式化语句,从而实现自然语句向措辞标准化,句法标准化的形式化语言的转化。本技术方案,不仅解决了病例样本中自然语句用词不准确以及表达不规范等问题,而且实现了高准确、高容差以及结构严谨的病历结构化处理。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。

图1为本发明实施例一所提供的一种病历结构化的处理方法的流程示意图;

图2A为本发明实施例二所提供的一种病历结构化的处理方法的流程示意图;

图2B为本发明实施二所适用的一种LSTM单元的门构造示意图;

图3为本发明实施例三所提供的一种病历结构化的处理方法的流程示意图;

图4为本发明实施例四所提供的一种病历结构化的处理方法的流程示意图;

图5为本发明实施例五所提供的一种病历结构化的处理装置的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一所提供的一种病历结构化的处理方法的流程示意图。如图1所示,本实施例的方法可以由病历结构化的处理装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可独立的配置在服务器中或者由终端和服务器配合实现本实施例的方法。

本实施例的方法具体包括:

S101、获取病历样本中的至少一个自然语句,根据预设规则获取所述自然语句中的医学实体,并确定出各医学实体之间的依存关系。

自然语句一般可以理解为采用自然语言撰写的句子。其中,至少一个自然语句可以是一个自然语句,也可以是两个及两个以上的自然语句。考虑到在病例样本中所记载的内容往往前后相关,可选是获取病历样本中包括两个及两个以上自然语句的段落,譬如,病历样本中所记录的现病史、病程记录以及检查报告等。可以理解的是,病历样本可以是文本病历,也可以是电子化的病历。

在本发明实施例中,医学实体可以理解为自然语句中与医学诊断相关的关键字,譬如各种症状、各种器官和组织等。获取自然语句中的医学实体则可以理解为获取自然语句中符合要求的关键字。进一步地,各医学实体之间的依存关系可以理解为在同一自然语句或段落中的各医学实体之间的关联属性,譬如“位于”、“包含”、“数量”等等。

具体地,获取自然语句中的医学实体,首先可以是对待处理的自然语句进行预处理,其中,预处理包括对自然语句进行分词,去标点符号,去停用词等;然后基于医学知识结合医学术语识别分词后的各词语中的医学实体,例如,可以建立医学实体识别模型,分别获取各词语的特征向量以及各医学术语的特征向量进行特征比对,根据比对结果确定各词语中的医学实体。

进一步地,各词语的特征向量以及各医学术语的特征向量进行特征比对,具体可以是分别计算出各词语的第一特征向量以及各医学术语的第二特征向量,然后计算第一特征向量以及第二特征向量之间的空间相似度,然后根据空间相似度确定各词语中的医学实体,例如,将空间相似度高于设定阈值时第一特征向量所对应的各词语作为医学实体。

考虑到同一词语往往会被应用于不同的病历样本中,为了避免对相同词语的重复识别,实现快速识别自然语句中的医学实体,示例性地,根据预设规则获取自然语句中的医学实体具体可包括:将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体。其中,标准医学术语库可用于存储基于海量电子病历挖掘出的各个医学术语与自然语句中各词语表达之间的映射关系;该映射关系包括医学术语中的常出现的错别字、近义词或者同义词的表达等。

在同一自然语句中,各医学实体往往存在依存关系;但多个自然语句中的各医学实体间不一定都存在依存关系,例如,当同一患者存在多种疾病以及症状时,则一种疾病不一定对应所有的症状,即疾病不一定与所有的症状之间都存在依存关系。因此,确定出各医学实体之间的依存关系,包括确定出各医学实体之间是否存在依存关系,若存在依存关系,则进一步地还可以确定出依存关系的类型。

需要说明的是,将病例样本中的内容拆分为段落,将段落拆分为自然语句,以及将语句进行分词均属于目前比较成熟的技术,在此不再详细赘述。

S102、在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系。

示例性地,可以请医学专业人士预先人工整理出或者借助人工智能技术整理出各种医学标准化术语,以及各医学标准化术语的各种属性等医学知识,先录入数据库中,然后建立搜索索引,并且把相关知识条目连缀起来,生成医学知识库。即,医学知识库中存储有各医学标准化用语以及各医学标准化用语之间的拓扑关系的数据库,将各种医学术语及其拓扑关系,组成网状结构,方便存储和调用。为了便于查询,医学知识库还可以增加智能文字处理与检索功能。其中,医学知识一般有两个来源,医学文献和某一领域专家的临床经验。

医学知识库可以理解为一个)由点(Vertex)和边(Edge)组成的初级的医学知识图谱,其中,点用来描述医学知识库中的各医学标准化术语,譬如各种症状、各种器官和组织等;边用来描述各医学标准化术语之间的关系,,譬如“位于”、“包含”以及“数量”等等。点和边都是预先定义的有限集合。其中,各医学标准化用语之间的拓扑关系可以理解为医学知识库的边。用于描述各医学标准化用语之间的关联关系。例如,各个器官之间的位置关系以及各种症状的数量关系等。

可以理解的是,随着医学检验、医学影像、临床诊断以及康复治疗等医学技术的不断发展,医学知识也会不断的充实,为了充分发挥医学知识库的作用,可以不断地采集新生医学知识,更新医学知识库。

S103、基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。

具体地,将各医学实体采用医学标准化用语表述,实现规范用语;进而通过各医学标准化用语之间的拓扑关系,清晰化各医学实体之间的拓扑关系;最后,通过各医学实体之间的依存关系,充分地尊重自然语句原有的逻辑关系,将自然语句中的各医学实体以及拓扑关系转化为标准化用语后,依照自然语句中各医学实体中的依存关系,对应输入预设的语句结构,转化为措辞标准化、句法标准化、结构严谨的形式化语句。

举例而言,输入检查报告的一句话:“两侧肺门,淋巴结炎性增生,纵膈处多发,并有空洞,边缘不清”,通过病历结构化的处理后,理想输出的形式化语句是:{淋巴结:{位置:[两侧肺门,纵膈]},{数量:[多发,炎性增生]}},{空洞:{位置:[两侧肺门,纵膈]},{边缘:不清}}。

可以理解的是,预设的语句结构可以是系统默认设置的结构,也可以是由用户根据自身的需求进行个性化设置,只要可以完整准确地表述自然语句可能出现的内容即可,语句结构的具体的格式在此并不做限定。

本实施例的技术方案,通过获取病例样本中的自然语句,然后获取病例样本中的自然语句中的医学实体以及各医学实体之间的依存关系,能够准确地识别出自然语句中的关键信息以及结构关系,以便更好地调整自然语句;进而获取各医学实体的医学标准化用语,可以使得自然语句中的医学实体表达更加规范化,获取到的各医学标准化用语之间的拓扑关系,有利于进一步梳理自然语句中各医学实体之间的拓扑关系;最后,将自然语句根据预设的语句结构转化成形式化语句,从而实现自然语句向措辞标准化,句法标准化的形式化语言的转化。本技术方案,不仅解决了病例样本中自然语句用词不准确以及表达不规范等问题,而且实现了高准确、高容差以及结构严谨的病历结构化处理。

实施例二

图2A为本发明实施例二所提供的一种病历结构化的处理方法的流程示意图,如图2A所示,本实施例在上述实施例的基础上,可选是根据预设规则获取自然语句中的医学实体具体可包括:将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体。

为了便于通过查询方式获取医学术语,进一步地可以预先建立好标准医学术语库。具体地,本实施例的所提供的方法在所述根据预设规则获取所述自然语句中的医学实体之前,还可以包括:基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量,并基于所述词向量获取各词语的第一语义向量;获取各医学术语的第二语义向量,并计算各所述第一语义向量与各所述第二语义向量之间的余弦距离;根据所述余弦距离确定所述自然语句中的各词语与所述各医学术语之间的对应关系,并基于所述对应关系建立所述标准医学术语库。

在上述实施例的基础上,进一步地,所述基于所述词向量获取各词语的第一语义向量具体可包括:根据所述自然语句中各词语的词向量与各所述词语相邻的词语的词向量,采用时间递归神经网络模型计算出各词语的第一语义向量。

具体地,本实施例的方法可包括:

S201、基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量,并基于所述词向量获取各词语的第一语义向量。

类似地,将所述自然语句分词前,首先可以是对待处理的自然语句进行预处理,其中,预处理包括对自然语句进行分词,去标点符号,去停用词等。

考虑到病例样本的自然语句中,具体地,基于预先建立的医学词向量词库将自然语句分词后的词语转换成词向量,可以是在医学词向量词库中,查询获取自然语句中每一个词语的词向量,并结合上下文中其它词语的词向量,用时间递归神经网络(Long-Short Term Memory,LSTM)模型,计算出该词语的上下文语义向量。

基于词向量计算出该词语的上下文语义向量具体可以是,首先将句子的第一个词语与到第i个词语输入LSTM模型,基于LSTM模型的各个隐藏层的处理,输出第i个词语的上文语义向量,此时,上文语义向量的维度记为f;然后从最后一个词语到第i个词语,基于LSTM模型的各个隐藏层的处理,输出第i个词语的下文语义向量,此时所得到的下文语义向量的维度也是f;最后将上文语义向量与下文语义向量拼接在一起,即可得到第i个词语的语义向量,且该语义向量的维度是2f。其中,i的取值可以是任意正整数,用于表示自然语句中的任意一个词语。

可以理解的是,LSTM模型可以包括一层、两层以及两层以上的隐藏层,具体地层数以及每一层中LSTM单元的个数可以根据实际需求进行选择,在此并不做限定。其中,沿输入至输出方向,前一层的LSTM单元的输出是后一层的LSTM单元的输入;最后一层的LSTM单元的输出合并在一起,作为LSTM的输出。以LSTM模型的隐藏层包括两层为例,其中,每层包括多个LSTM单元。每个LSTM单元中,隐上下文可以由遗忘门(forget gate)和输入门(input gate)控制,而且两个控制门可配置窥视孔连接(peephole connections)。每次输入量被复制多份,分发到第一层的多个LSTM单元中。第一层的LSTM单元与第二层的LSTM单元全连通,第一层的LSTM单元的输出是第二层的LSTM单元的输入。第二层的LSTM单元的输出合并在一起,作为LSTM的输出。

图2B示出了本实施例所适用的一种LSTM单元的门构造。如图2B所示,xt表示在LSTM模型中输入的第t个输入量,t用来表示输入量的序号;yt表示与输入量xt所对应的LSTM模型的输出量;ct表示与输入量xt所对应的LSTM模型的隐状态。假设输入的原文是“双侧肺门膈膜有小结节”,那么x1=“双侧”,x2=“肺门”,x3=“膈膜”,x4=“有”,x5=“小结节”,由方框外的实线表示。方框外的虚线代表LSTM的输出y。y1是输入完x1=“双侧”之后的LSTM的输出;y2是输入完x1=“双侧”和x2=“肺门”之后的LSTM的输出;y2是输入完x1=“双侧”x2=“肺门”和x3=“膈膜”之后的LSTM的输出。方框内的ct代表LSTM的隐状态。c1是输入完x1=“双侧”之后的LSTM的隐状态;c2是输入完x1=“双侧”和x2=“肺门”之后的LSTM的隐状态;c3是输入完x1=“双侧”x2=“肺门”和x3=“膈膜”之后的LSTM的隐状态。

具体地,可以根据公式zt=g(Wzxt+Rzyt-1+bz)计算出蕴含着当前的原文输入xt的语义和语法信息的向量值zt。其中,g(Wzxt+Rzyt-1+bz)表示包括输入项xt和输入项yt-1的神经网络,即当前的原文输入xt以及上一次的LSTM的输出yt-1;Wz、Rz、bz分别为自定义参数,是需要根据训练数据,来不断调整的。这个调整过程,被称为神经网络的训练过程,也称为学习过程。语句中每个词汇的重要性不同,为了节省存储空间,可选是记住重要的词汇,忘记冗词,即LSTM处理序列时,可以选择性地把要点存储在隐状态里。可根据公式it=δ(Wixt+Riyt-1+Pict-1+bi)计算出用于决定zt向量中哪些项被LSTM接纳,哪些项被LSTM拒之门外的准入向量it;其中,δ(Wixt+Riyt-1+Pict-1+bi)表示包括输入项xt、输入项yt-1和输入项ct-1的神经网络;Wi、Ri、Pi以及bi分别为自定义参数,根据训练数据不断调整得到。需要说明的是,it是一个向量,向量值各项值要么接近于0,要么接近于1。所以函数δ()又被称为门函数。譬如,zt=[0.6,0.4,0.2],it=[0,1,1],两个向量的内积zt⊙it=[0.6*0,0.4*1,0.2*1]=[0,0.4,0.2],意思是zt=[0.6,0.4,0.2]中0.6被拒之门外,0.4和0.2被接纳。

类似地,可以根据公式ft=δ(Wfxt+Rfyt-1+Pfct-1+bf)计算门向量ft,只不过它决定了上次的LSTM隐状态向量中,哪些被“忘记”,哪些被“继承”进当前的LSTM的隐状态。同样地,可以计算出门向量ot=δ(Woxt+Royt-1+Poct-1+bo),相关参数的意义可参考上述解释。进而,可根据公式ct=it⊙zt+ft⊙ct-1计算出隐状态ct

在本发明中,可根据公式yt=ot⊙h(ct)计算出隐状态。其中,用函数h()对当前LSTM的隐状态ct做适当处理,得到准备输出的向量h(ct)。示例性地,函数h()被设置为压缩函数。譬如ct的维度为600,而最终的输出项yt的维度是200,那么压缩函数h()把ct均分为200段,每段取均值。例如,ct=[1,2,3,4,5,6,…600],则h(ct)=[(1+2+3)/3,(4+5+6)/3,…(198+199+200)/3]=[2,5,…,199],最后用门函数ot对h(ct)做取舍,生成最终的输出项yt

S202、获取各医学术语的第二语义向量,并计算各所述第一语义向量与各所述第二语义向量之间的余弦距离。

余弦距离也可称为余弦相似度,是用向量空间中两个向量夹角的余弦值衡量两个个体间差异的大小,通过余弦定理计算两个向量的夹角,确定两个向量方向是否一致。。如果两个向量的方向一致,即夹角越接近零,那么这两个向量就越相近。因此,本实施例中,通过计算第一语义向量与各第二语义向量之间的余弦距离,即可确定出自然语句中各词语所对应的各医学术语。

S203、根据所述余弦距离确定所述自然语句中的各词语与所述各医学术语之间的对应关系,并基于所述对应关系建立标准医学术语库。

把自然语句分词后的词语转变成词向量,能够有效地识别同义词;辅以字的字向量,能够识别错别字;辅以短语的短语向量,能够识别夹杂着冗词的词组,从而识别病历样本中的各医学实体的各种同义词、错别字,以及夹杂着冗词的词组,并建立与各医学术语之间的对应关系,譬如,在“纳差”与“食欲不振”措辞包含同义词的各词语之间建立对应关系,在“冠心病”与“冠状动脉粥样硬化性心脏病”等缩写词之间建立对应关系,以及在“体征”被误写为“体症”等包含错别字的词语之间建立对应关系等等。

基于各词语与各医学术语之间的对应关系建立标准医学术语库,可以是在确定出各词语与所述各医学术语之间的对应关系后,将该对应关系记录保存在标准医学术语库中,并标注出哪些是医学术语,以便在获取到各医学实体时,通过查询标准医学术语库即可快捷地找到与各词语对应的医学术语。

S204、获取病历样本中的至少一个自然语句,将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体,并确定出各医学实体之间的依存关系。

如前所述,可首先获取自然语句中的待确定的词语,进而根据各词语与所述各医学术语之间的对应关系,查询获取与盖茨与相对应的医学术语,若获取到的自然语句中的词语本身为医学术语的规范表达时,直接输出即可。

S205、在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系。

S206、基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。

本实施例的技术方案,与上述技术方案相比,在能达到上述各技术效果的基础上,进一步地通过计算自然语句分词后的各词语第一语义向量以及各医学术语的第二语义向量之间的余弦距离,进而基于余弦距离确定各词语与各医学术语之间的对应关系,从而建立标准医学术语库;通过查询标准医学术语库中各词语与各医学术语之间的对应关系,能够方便快捷地获取自然语句中的医学实体,从而提升病例结构化的处理效率。

实施例三

图3为本发明实施例三所提供的一种病历结构化的处理方法的流程示意图,如图3所示,本实施例在实施例二的基础上,可选是在所述基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量之前,还包括:采集历史病历样本,计算所述历史病历样本中的每个字的字向量;基于分词器将所述历史病历样本中的每个历史语句进行分词,并根据所述字向量计算分词后各历史词语的词向量;根据各所述历史词语的词向量建立所述医学词向量词库。

具体地,本实施例的方法可包括:

S301、采集历史病历样本,计算所述历史病历样本中的每个字的字向量。

示例性地,历史病历样本可以是电子化的历史病历样本,也可以是文本式的历史病历样本,其中,文本式的历史病历样本可以通过人工或者机器阅读的方式进行采集。然后将所采集到的历史病历样本的内容,输入语言模型(language model),计算出历史病历样本中的每个字的字向量,找到历史病历样本中字与字之间的关联关系。

可以理解的是,为了尽可能多地获取到不同字的字向量,本实施例的方法可基于采集到的海量的历史病历样本进行分析计算。

S302、基于分词器将所述历史病历样本中的每个历史语句进行分词,并根据所述字向量计算分词后各历史词语的词向量。

与将自然语句进行分词类似,可以基于现有的分词器将历史病历样本中的每个历史语句进行分词,分词前可以对历史病例样本中的内容进行预处理。本实施例中,据所述字向量计算分词后各历史词语的词向量具体可以是,在计算出历史病历样本中的每个字的字向量之后,用卷积找出由字组成词语的特征,进而用循环神经网络,正向叠加字向量,反向叠加字向量,组合成为词向量。

S303、根据各所述历史词语的词向量建立医学词向量词库。

医学词向量词库用于记录并存储获取到的各历史词语的词向量,当然包括各历史词语与词向量的对应关系。类似地,随着采集到的病历样本的增加,可以定期或者不定期地对医学词向量词库进行更新。例如,在出现查询不到词向量的词语时,可以后台实时基于S301与S302所述的计算过程,获取当前词语的词向量,并更新至医学词向量词库中;或者,当同一词语多次出现(查询次数超过预设的查询次数阈值)且查询不到该词语的词向量时,可以基于上述计算过程,获取当前词语的词向量,并更新至医学词向量词库中。

S304、基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量,并基于所述词向量获取各词语的第一语义向量。

S305、获取各医学术语的第二语义向量,并计算各所述第一语义向量与各所述第二语义向量之间的余弦距离。

S306、根据所述余弦距离确定所述自然语句中的各词语与所述各医学术语之间的对应关系,并基于所述对应关系建立所述标准医学术语库。

S307、获取病历样本中的至少一个自然语句,将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体,并确定出各医学实体之间的依存关系。

S308、在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系。

S309、基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。

本实施例的技术方案,与上述各技术方案相比,在能达到上述各技术效果的基础上,进一步地通过采集历史病历样本,并根据历史病历样本中每个字的字向量计算出各历史词语的词向量,进而基于各词向量建立医学词向量词库,以便通过查询医学词向量词库获取当前病历样本中自然语句中各词语的词向量,可以避免重复计算相同词语的词向量,节省响应时间,采用上述技术方案能够方便、快捷地查询获取各词语的词向量,提升整体效率。

实施例四

图4为本发明实施例四所提供的一种病历结构化的处理方法的流程示意图,如图4所示,本实施例在实施例三的基础上,可选是所述确定出各医学实体之间的依存关系包括:根据所述自然语句中各词语的第一语义向量以及所述各词语的第一语义向量之间的关联强度,采用注意力模型确定出所述自然语句中各词语之间是否存在依存关系;若所述依存关系存在,则基于分类器模型确定出所述依存关系的关系类型。

具体地,本实施例的方法包括:

S401、采集历史病历样本,计算所述历史病历样本中的每个字的字向量。

S402、基于分词器将所述历史病历样本中的每个历史语句进行分词,并根据所述字向量计算分词后各历史词语的词向量。

S403、根据各所述历史词语的词向量建立所述医学词向量词库。

S404、基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量,并基于所述词向量获取各词语的第一语义向量。

S405、获取各医学术语的第二语义向量,并计算各所述第一语义向量与各所述第二语义向量之间的余弦距离。

S406、根据所述余弦距离确定所述自然语句中的各词语与所述各医学术语之间的对应关系,并基于所述对应关系建立所述标准医学术语库。

S407、获取病历样本中的至少一个自然语句,将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体。

S408、根据所述自然语句中各词语的第一语义向量以及所述各词语的第一语义向量之间的关联强度,采用注意力模型确定出所述自然语句中各词语之间是否存在依存关系。

其中,各词语的第一语义向量之间的关联强度,可以理解为自然语句中每一个词语的第一语义向量,与同一个自然语句中其它词语的第一语义向量的关联强弱,也可理解为自然语句中各词语的第一语义向量中两两之间的关联强弱。

示例性地,可以通过计算各词语的语义向量之间的余弦相似度,来表示各词语的第一语义向量之间的关联强度。余弦距离越短则说明关联强度越强。具体地,可以通过获取自然语句中的医学实体的第一语义向量,并获取语句中与该医学实体关联的其它医学实体的第一语义向量,使得该医学实体的第一语义向量与语句中其它关联实体的第一语义向量之间的余弦距离最短,确定出与当前医学实体关联度最强的医学实体。

示例性地,实体之间的关联关系可存放在Memory networks里。采用注意力Attention模型与Memory networks模型,能够识别与各医学实体有关联的其它医学实体。另外,Attention模型中的隐状态,蕴含着医学实体与医学实体之间的语义上下文,进一步地用分类器对Attention模型的隐状态进行分类,可以识别各医学实体之间的关联属性,譬如是“包含”还是“位于”。

S409、若所述依存关系存在,则基于分类器模型确定出所述依存关系的关系类型。

其中,依存关系的关系类型可以理解为各医学实体之间的关联属性,也可以预先整理在医学知识库中。确定出依存关系的关系类型即可以理解为识别医学实体之间的关联属性,具体地,可以在分类器模型中输入两个医学实体的词向量,输出医学知识库中的某一种关联属性。

示例性地,分类器模型可采用多项式模型(multinomial model)和伯努利模型(Bernoulli model)等贝叶斯分类器模型。

S410、在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系。

S411、基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。

本实施例的技术方案,与上述各技术方案相比,在能达到上述各技术效果的基础上,进一步地通过自然语句中各词语的第一语义向量以及各词语的第一语义向量之间的关联强度,确定各词语之间是否存在依存关系,能够有效地判断出在该自然语句中各词语之间是否有关联;若依存关系存在,则进一步确定出依存关系的关系类型,即可以明确自然语句的结构,以使自然语句转化为形式化语言时,不仅结构严谨,而且准确地表述出自然语句中原有的逻辑关系。

实施例五

图5为本发明实施例一所提供的一种病历结构化的处理装置的结构示意图。该装置可通过硬件和/或软件的方式实现,并一般可独立的配置在服务器中或者由终端和服务器配合实现本实施例的方法。如图5所示,本实施例的病历结构化的处理装置包括:医学实体获取模块501、医学标准化用语获取模块502和形式化语句转化模块503。

其中,医学实体获取模块501,用于获取病历样本中的至少一个自然语句,根据预设规则获取所述自然语句中的医学实体,并确定出各医学实体之间的依存关系;医学标准化用语获取模块502,用于在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系;形式化语句转化模块503,用于基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。

本实施例的技术方案,通过获取病例样本中的自然语句,然后获取病例样本中的自然语句中的医学实体以及各医学实体之间的依存关系,能够准确地识别出自然语句中的关键信息以及结构关系,以便更好地调整自然语句;进而获取各医学实体的医学标准化用语,可以使得自然语句中的医学实体表达更加规范化,获取到的各医学标准化用语之间的拓扑关系,有利于进一步梳理自然语句中各医学实体之间的拓扑关系;最后,将自然语句根据预设的语句结构转化成形式化语句,从而实现自然语句向措辞标准化,句法标准化的形式化语言的转化。本技术方案,不仅解决了病例样本中自然语句用词不准确以及表达不规范等问题,而且实现了高准确、高容差以及结构严谨的病历结构化处理。

在上述技术方案的基础上,所述医学实体获取模块可用于:

将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体。

在上述技术方案的基础上,所述的病历结构化的处理装置还可包括:第一语义向量获取模块504、余弦距离计算模块505和标准医学术语库建立模块506。

其中,第一语义向量获取模块504,用于在所述根据预设规则获取所述自然语句中的医学实体之前,基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量,并基于所述词向量获取各词语的第一语义向量;余弦距离计算模块505,用于获取各医学术语的第二语义向量,并计算各所述第一语义向量与各所述第二语义向量之间的余弦距离;标准医学术语库建立模块506,用于根据所述余弦距离确定所述自然语句中的各词语与所述各医学术语之间的对应关系,并基于所述对应关系建立所述标准医学术语库。

在上述各技术方案的基础上,所述第一语义向量模块具体可用于:

根据所述自然语句中各词语的词向量与各所述词语相邻的词语的词向量,采用时间递归神经网络模型计算出各词语的第一语义向量。

在上述各技术方案的基础上,所述的病历结构化的处理装置还可包括:字向量计算模块507、词向量计算模块508和医学词向量词库建立模块509。

其中,字向量计算模块,用于在所述基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量之前,采集历史病历样本,计算所述历史病历样本中的每个字的字向量;词向量计算模块,用于基于分词器将所述历史病历样本中的每个历史语句进行分词,并根据所述字向量计算分词后各历史词语的词向量;医学词向量词库建立模块,用于根据各所述历史词语的词向量建立所述医学词向量词库。

在上述技术方案的基础上,所述医学实体获取模块还可用于:

根据所述自然语句中各词语的第一语义向量以及所述各词语的第一语义向量之间的关联强度,采用注意力模型确定出所述自然语句中各词语之间是否存在依存关系;

若所述依存关系存在,则基于分类器模型确定出所述依存关系的关系类型。

上述装置可执行本发明任意实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1