多关系医学知识提取方法、装置、设备及存储介质与流程

文档序号:24306739发布日期:2021-03-17 00:59阅读:72来源:国知局
多关系医学知识提取方法、装置、设备及存储介质与流程

本发明涉及人工智能领域,尤其涉及一种多关系医学知识提取方法、装置、设备及存储介质。



背景技术:

信息抽取是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础。医学知识的信息抽取在构建医学知识图谱、自动医学问答、提高医生效率中具有重要的作用。从医生的问诊对话中自动抽取结构化的知识对构建基础的医学知识库具有重要的作用。从医生和用户的诊断对话中可以抽取到一个知识的三元组,包含两个实体和一个关系。比如急性上呼吸道感染的症状为发热,信息抽取模型可以抽取到急性上呼吸道感染和发热两个实体,关系是症状。

传统的信息抽取模型仅在医疗语句中单个实体对应单个关系时具有良好的预测性能,但是在抽取一个关系对应多个实体上存在很大的问题;而在同一组实体对应多个关系的抽取的诊断对话上,传统的信息抽取模型只能抽取一个关系,无法全部抽取知识。故传统的知识抽取模型对多关系医疗知识的信息提取难度较大。



技术实现要素:

本发明的主要目的在于解决传统的知识抽取模型对多关系医疗知识的信息提取难度较大的技术问题。

本发明第一方面提供了一种多关系医学知识提取方法,包括:

获取医患对话的多个历史医疗语句,并对所述历史医疗语句进行标注,得到对应的标注文件;

将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中,并通过所述预训练堆叠模型中的第一预训练模型,对所述各历史医疗语句进行关系分类,得到所述各历史医疗语句中存在的一个或多个医学知识关系;

通过所述预训练堆叠模型中的第二预训练模型,预测所述各历史医疗语句中与所述一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;

根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型;

获取待抽取医学知识关系的医疗语句,并将所述医疗语句输入所述多关系医学知识提取模型中进行医学知识关系和实体特征抽取,输出所述医疗语句中具有多关系医学知识的一个或多个三元组。

可选的,在本发明第一方面的第一种实现方式中,所述预训练堆叠模型还包含输入层,在所述将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中之后,还包括:

通过所述输入层对所述各历史医疗语句进行二级分词处理,得到所述各历史医疗语句中的各单字的二级编码信息。

可选的,在本发明第一方面的第二种实现方式中,所述通过所述预训练堆叠模型中的第一预训练模型,对所述各历史医疗语句进行关系分类,得到所述各历史医疗语句中存在的一个或多个医学知识关系包括:

将所述二级编码信息输入所述预训练堆叠模型中的第一预训练模型中,通过所述第一预训练模型提取所述二级编码信息中的一个或多个关系特征;

匹配所述一个或多个关系特征对应的分类标签,并基于所述分类标签,确定所述各历史医疗语句中存在的一个或多个医学知识关系。

可选的,在本发明第一方面的第三种实现方式中,所述通过所述预训练堆叠模型中的第二预训练模型,预测所述各历史医疗语句中与所述一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组包括:

根据所述各历史医疗语句中预测的医疗知识关系,分别将所述各历史医疗语句中的二级编码和对应的医疗知识关系进行组合,得到所述各历史医疗语句对应的一个或多个训练样本;

依次将所述各训练样本输入所述预训练堆叠模型中的第二预训练模型中,通过所述第二预训练模型提取所述二级编码信息中的多个实体特征;

依次从所述多个实体特征中筛选与所述各医学知识关系相关联的两个实体特征,并依次将所述各医学知识关系和相关联的两个实体特征进行组合,得到各历史医疗语句中的一个或多个三元组。

可选的,在本发明第一方面的第四种实现方式中,所述根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型包括:

s1、根据所述三元组和所述标注文件,计算所述预训练堆叠模型的交叉熵损失值,并判断所述交叉熵损失值是否小于预置损失阈值;

s2、若小于,则得到多关系医学知识提取模型,若大于,则重新对所述预训练堆叠模型进行训练;

s3、循环执行步骤s1-s2,直到所述交叉熵损失值小于预置损失阈值或者训练次数超过预设训练次数阈值时停止,得到多关系医学知识提取模型。

可选的,在本发明第一方面的第五种实现方式中,所述根据所述三元组和所述标注文件,计算所述预训练堆叠模型的交叉熵损失值包括:

根据所述三元组中医学知识关系的分类结果和所述标注文件,计算所述医学知识关系的分类正确率,以及根据所述三元组中实体特征的预测结果和所述标注文件,计算所述实体特征的预测正确率;

根据所述预置第一模型训练参数和所述分类正确率,计算所述第一预训练模型的分类损失值,以及根据所述第二模型训练参数和所述预测正确率,计算所述第二预训练模型的预测损失值;

根据所述分类损失值和所述预测损失值,计算所述预训练堆叠模型的交叉熵损失值。

可选的,在本发明第一方面的第六种实现方式中,所述多关系医学知识提取模型包含输入层、关系抽取模型和实体抽取模型,所述将所述医疗语句输入所述多关系医学知识提取模型中进行医学知识关系和实体特征抽取,输出所述医疗语句中具有多关系医学知识的一个或多个三元组包括:

将所述医疗语句输入所述输入层进行二级分词处理,并对二级分词处理后的医疗语句进行编码,得到所述历史医疗语句的二级编码信息;

将所述二级编码信息输入所述关系抽取模型,并通过所述关系抽取模型,抽取所述医疗语句中存在的多个医学知识关系;

组合所述二级编码信息和所述各医学知识关系,得到组合医学知识关系;

将所述组合医学知识关系输入所述实体抽取模型,通过所述实体抽取模型,依次抽取与所述各医学知识关系相关联的两个实体特征,得到所述医疗语句中的多个三元组。

本发明第二方面提供了一种多关系医学知识提取装置,包括:

标注模块,用于获取医患对话的多个历史医疗语句,并对所述历史医疗语句进行标注,得到对应的标注文件;

分类模块,用于将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中,并通过所述预训练堆叠模型中的第一预训练模型,对所述各历史医疗语句进行关系分类,得到所述各历史医疗语句中存在的一个或多个医学知识关系;

预测模块,用于通过所述预训练堆叠模型中的第二预训练模型,预测所述各历史医疗语句中与所述一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;

训练模块,用于根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型;

提取模块,用于获取待抽取医学知识关系的医疗语句,并将所述医疗语句输入所述多关系医学知识提取模型中进行医学知识关系和实体特征抽取,输出所述医疗语句中具有多关系医学知识的一个或多个三元组。

可选的,在本发明第一方面的第一种实现方式中,所述预训练堆叠模型还包含输入层,所述多关系医学知识提取装置还包括:

分词模块,用于通过所述输入层对所述各历史医疗语句进行二级分词处理,得到所述各历史医疗语句中的各单字的二级编码信息。

可选的,在本发明第一方面的第二种实现方式中,所述分类模块包括:

第一提取单元,用于将所述二级编码信息输入所述预训练堆叠模型中的第一预训练模型中,通过所述第一预训练模型提取所述二级编码信息中的一个或多个关系特征;

匹配单元,用于匹配所述一个或多个关系特征对应的分类标签,并基于所述分类标签,确定所述各历史医疗语句中存在的一个或多个医学知识关系。

可选的,在本发明第一方面的第三种实现方式中,所述预测模块包括:

第一组合单元,用于根据所述各历史医疗语句中预测的医疗知识关系,分别将所述各历史医疗语句中的二级编码和对应的医疗知识关系进行组合,得到所述各历史医疗语句对应的一个或多个训练样本;

第二提取单元,用于依次将所述各训练样本输入所述预训练堆叠模型中的第二预训练模型中,通过所述第二预训练模型提取所述二级编码信息中的多个实体特征;

筛选单元,用于依次从所述多个实体特征中筛选与所述各医学知识关系相关联的两个实体特征,并依次将所述各医学知识关系和相关联的两个实体特征进行组合,得到各历史医疗语句中的一个或多个三元组。

可选的,在本发明第一方面的第四种实现方式中,所述训练模块包括:

计算单元,用于根据所述三元组和所述标注文件,计算所述预训练堆叠模型的交叉熵损失值,并判断所述交叉熵损失值是否小于预置损失阈值;

判别单元,用于若所述交叉熵损失值小于预置损失阈值,则得到多关系医学知识提取模型,若大于,则重新对所述预训练堆叠模型进行训练;

循环单元,用于循环执行步骤计算单元、判别单元,直到所述交叉熵损失值小于预置损失阈值或者训练次数超过预设训练次数阈值时停止,得到多关系医学知识提取模型。

可选的,在本发明第一方面的第五种实现方式中,所述计算单元还用于:

根据所述三元组中医学知识关系的分类结果和所述标注文件,计算所述医学知识关系的分类正确率,以及根据所述三元组中实体特征的预测结果和所述标注文件,计算所述实体特征的预测正确率;

根据所述预置第一模型训练参数和所述分类正确率,计算所述第一预训练模型的分类损失值,以及根据所述第二模型训练参数和所述预测正确率,计算所述第二预训练模型的预测损失值;

根据所述分类损失值和所述预测损失值,计算所述预训练堆叠模型的交叉熵损失值。

可选的,在本发明第一方面的第六种实现方式中,所述多关系医学知识提取模型包含输入层、关系抽取模型和实体抽取模型,所述提取模块包括:

分词单元,用于将所述医疗语句输入所述输入层进行二级分词处理,并对二级分词处理后的医疗语句进行编码,得到所述历史医疗语句的二级编码信息;

关系抽取单元,用于将所述二级编码信息输入所述关系抽取模型,并通过所述关系抽取模型,抽取所述医疗语句中存在的多个医学知识关系;

第二组合单元,用于组合所述二级编码信息和所述各医学知识关系,得到组合医学知识关系;

生成单元,用于将所述组合医学知识关系输入所述实体抽取模型,通过所述实体抽取模型,依次抽取与所述各医学知识关系相关联的两个实体特征,得到所述医疗语句中的多个三元组。

本发明第三方面提供了一种多关系医学知识提取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述多关系医学知识提取设备执行上述的多关系医学知识提取方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的多关系医学知识提取方法。

本发明提供的技术方案中,在模型训练阶段,通过将医患对话的多个历史医疗语句与对应的标注文件作为训练样本;先通过预置预训练堆叠模型中的第一预训练模型,对各历史医疗语句进行关系分类,得到各历史医疗语句中存在的一个或多个医学知识关系;再通过预训练堆叠模型中的第二预训练模型,预测各历史医疗语句中与一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;接着持续对预训练堆叠模型进行训练,直到预训练堆叠模型收敛,即可得到多关系医学知识提取模型;在模型应用阶段,获取待抽取医学知识关系的医疗语句,并通过多关系医学知识提取模型提取医疗语句中的一个或多个三元组,以确定医疗语句中存在的多关系医学知识,实现了对多关系医疗知识的信息提取。

附图说明

图1为本发明实施例中多关系医学知识提取方法的第一个实施例示意图;

图2为本发明实施例中多关系医学知识提取方法的第二个实施例示意图;

图3为本发明实施例中多关系医学知识提取方法的第三个实施例示意图;

图4为本发明实施例中多关系医学知识提取装置的一个实施例示意图;

图5为本发明实施例中多关系医学知识提取装置的另一个实施例示意图;

图6为本发明实施例中多关系医学知识提取设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种多关系医学知识提取方法、装置、设备及存储介质,将多个历史医疗语句和对应标注文件输入预置预训练堆叠模型中,先通过第一预训练模型提取各历史医疗语句中的医学知识关系;再通过第二预训练模型预测各历史医疗语句中与各医学知识关系相关联的两个实体特征,并对两者进行组合,得到三元组;持续对预训练堆叠模型进行训练,直到得到多关系医学知识提取模型;获取待抽取医学知识关系的医疗语句并输入多关系医学知识提取模型中,输出医疗语句中的一个或多个三元组。本发明实现了对医疗语句中存在的多个三元组的提取,即实现了对多关系医疗知识的信息提取。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中多关系医学知识提取方法的第一个实施例包括:

101、获取医患对话的多个历史医疗语句,并对所述历史医疗语句进行标注,得到对应的标注文件;

可以理解的是,本发明的执行主体可以为多关系医学知识提取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。需要强调的是,为进一步保证上述医疗语句的私密和安全性,上述医疗语句还可以存储于一区块链的节点中。

本实施例中,可以通过云端医疗机构的网上对话获取预置预训练堆叠模型训练所需的历史医疗语句;将各个历史医疗语句中存在的医学知识关系、实体特征进行标注,其中,实体特征包括疾病名称、疾病症状表现、测量数据、预防方法、治疗方法、家族史等,医学知识关系则指的是两个实体特征之间存在的关系,包括症状、预防、测量、治疗等,比如对于历史医疗语句为急性上呼吸道感染的症状为发热,则急性上呼吸道感染和发热是两个实体特征,医学知识关系是症状。

102、将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中,并通过所述预训练堆叠模型中的第一预训练模型,对所述各历史医疗语句进行关系分类,得到所述各历史医疗语句中存在的一个或多个医学知识关系;

本实施例中,预置预训练堆叠模型由一个输入层和两个预训练模型堆叠而成,其中,输入层针对历史医学语句中的每一字进行编码,相对于针对历史医学语句中的每一个词进行编码,使用输入层分词准确度更高。而一句历史医疗语句中可能包含有多个三元组,即表示其包含有多个医疗知识关系,可通过第一预训练模型确定历史医疗训练语句中存在的医疗知识关系。

103、通过所述预训练堆叠模型中的第二预训练模型,预测所述各历史医疗语句中与所述一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;

本实施例中,第二预训练模型可以是一个多标签单分类模型,具体亦可以为一个bert(bidirectionalencoderrepresentationfromtransformers,基于自变压器的双向编码表示)模型,预测历史医疗语句中存在的实体特征,并从中筛选出与各个医学知识关系相关联的两个实体特征,并可组合成一个三元组,三元组内带有医学知识关系和两个实体特征的标识信息,通过三元组即可确定历史医疗语句的多关系医学知识。

104、根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型;

本实施例中,三元组是对历史医疗语句中医疗知识关系以及实体特征的预测,而标注数据则是历史医疗语句中存在的真实医疗知识关系以及真实实体特征,当预测结果的准确度超过预置程度时,即该预训练堆叠模型收敛,得到多关系医学知识提取模型。

105、获取待抽取医学知识关系的医疗语句,并将所述医疗语句输入所述多关系医学知识提取模型中进行医学知识关系和实体特征抽取,输出所述医疗语句中具有多关系医学知识的一个或多个三元组。

本实施例中,多关系医学知识的信息抽取系统是基于医疗行业特征的深度学习技术,充分的抽取医学知识特质,以最终训练好的多关系医学知识提取模型充分提取医疗语句中的三元组,并且解决了医疗语句中存在的多关系多实体提取等相关问题,其中,多关系医学知识可用于搭建医学的基础结构化数据库、知识图谱等。

本发明实施例中,在模型训练阶段,通过将医患对话的多个历史医疗语句与对应的标注文件作为训练样本;先通过预置预训练堆叠模型中的第一预训练模型,对各历史医疗语句进行关系分类,得到各历史医疗语句中存在的一个或多个医学知识关系;再通过预训练堆叠模型中的第二预训练模型,预测各历史医疗语句中与一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;接着持续对预训练堆叠模型进行训练,直到预训练堆叠模型收敛,即可得到多关系医学知识提取模型;在模型应用阶段,获取待抽取医学知识关系的医疗语句,并通过多关系医学知识提取模型提取医疗语句中的一个或多个三元组,以确定医疗语句中存在的多关系医学知识,实现了对多关系医疗知识的信息提取。

请参阅图2,本发明实施例中多关系医学知识提取方法的第二个实施例包括:

201、获取医患对话的多个历史医疗语句,并对所述历史医疗语句进行标注,得到对应的标注文件;

202、将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中,并通过所述输入层对所述各历史医疗语句进行二级分词处理,得到所述各历史医疗语句中的各单字的二级编码信息;

本实施例中,二级分词处理指将历史医疗语句中的各个子根据医疗领域分为多个类别,各类比以类别编码进行表示,然后每个类别中的字再通过相同的编码规则进行编码即可,拼接类别编码与字编码,即可得到二级编码信息,可兼顾缩短编码长度以及降低编码复杂度。

203、将所述二级编码信息输入所述预训练堆叠模型中的第一预训练模型中,通过所述第一预训练模型提取所述二级编码信息中的一个或多个关系特征;

204、匹配所述一个或多个关系特征对应的分类标签,并基于所述分类标签,确定所述各历史医疗语句中存在的一个或多个医学知识关系;

本实施例中,第一预训练模型为一个多标签多分类模型,可为bert模型,可从历史医疗语句中提取多个医疗知识关系,其中,关系特征为表示医疗知识关系的编码组合,而分类标签,则与该编码组合相关联,表示该编码组合属于什么医学知识关系。

205、根据所述各历史医疗语句中预测的医疗知识关系,分别将所述各历史医疗语句中的二级编码和对应的医疗知识关系进行组合,得到所述各历史医疗语句对应的一个或多个训练样本;

206、依次将所述各训练样本输入所述预训练堆叠模型中的第二预训练模型中,通过所述第二预训练模型提取所述二级编码信息中的多个实体特征;

207、依次从所述多个实体特征中筛选与所述各医学知识关系相关联的两个实体特征,并依次将所述各医学知识关系和相关联的两个实体特征进行组合,得到各历史医疗语句中的一个或多个三元组;

本实施例中,先依据第一预训练模型模型得到的医疗知识关系,确定输入第二预训练模型中训练样本的数量,比如历史医疗语句中得到2个医疗知识关系,则将两个医疗知识关系分别于所在的历史医疗语句的二级编码信息进行结合,将其分成2个训练样本,训练样本的内容是二级编码信息+医疗知识关系1和二级编码信息+医疗知识关系2。将两个训练样本输入第二预训练模型中,最终输出两个不同的三元组。

208、根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型;

本实施例中,根据三元组和标注文件可计算当前预训练堆叠模型的损失值,以衡量当前预训练堆叠模型的预测准确度,并以此判断是否继续对预训练堆叠模型进行训练。具体迭代过程包括以下步骤:

(1)根据所述三元组和所述标注文件,计算所述预训练堆叠模型的交叉熵损失值,并判断所述交叉熵损失值是否小于预置损失阈值;

(2)若小于,则得到多关系医学知识提取模型,若大于,则重新对所述预训练堆叠模型进行训练;

(3)循环执行步骤(1)-(2),直到所述交叉熵损失值小于预置损失阈值或者训练次数超过预设训练次数阈值时停止,得到多关系医学知识提取模型;

本实施例中,通过交叉熵损失值来评价预训练堆叠模型预测结果的准确度,当其超过预置损失阈值时,即可确定该预训练堆叠模型的预测准确度超过预置程度,判断模型收敛,直接应用与后续医疗语句中医疗知识关系和实体特征的预测。其中,交叉熵损失值的具体计算方式如下所示:

(1)根据所述三元组中医学知识关系的分类结果和所述标注文件,计算所述医学知识关系的分类正确率,以及根据所述三元组中实体特征的预测结果和所述标注文件,计算所述实体特征的预测正确率;

(2)根据所述预置第一模型训练参数和所述分类正确率,计算所述第一预训练模型的分类损失值,以及根据所述第二模型训练参数和所述预测正确率,计算所述第二预训练模型的预测损失值;

(3)根据所述分类损失值和所述预测损失值,计算所述预训练堆叠模型的交叉熵损失值。

本实施例中,预置第一模型参数和预置第二模型参数初始由开发人员根据经验进行调校,再模型训练过程中,通过模型的预测结果对模型参数进行修改,以提升模型的预测准确度。

209、获取待抽取医学知识关系的医疗语句,并将所述医疗语句输入所述多关系医学知识提取模型中进行医学知识关系和实体特征抽取,输出所述医疗语句中具有多关系医学知识的一个或多个三元组。

本发明实施例中,详细介绍了通过预训练堆叠模型中的第一预训练模型和第二预训练模型依次对历史医疗语句进行医学知识关系的分类提取,以及通过医学知识关系从历史医疗语句中提取出相关联的两个实体特征,通过一个医学知识关系与两个实体特征进行组合,即可得到一个三元组,以用于描述历史医疗语句中的医学多关系医学知识。

请参阅图3,本发明实施例中多关系医学知识提取方法的第四个实施例包括:

301、获取医患对话的多个历史医疗语句,并对所述历史医疗语句进行标注,得到对应的标注文件;

302、将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中,并通过所述预训练堆叠模型中的第一预训练模型,对所述各历史医疗语句进行关系分类,得到所述各历史医疗语句中存在的一个或多个医学知识关系;

303、通过所述预训练堆叠模型中的第二预训练模型,预测所述各历史医疗语句中与所述一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;

304、根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型;

305、将所述医疗语句输入所述输入层进行二级分词处理,并对二级分词处理后的医疗语句进行编码,得到所述历史医疗语句的二级编码信息;

本实施例中,在实际应用中,包括构建医学知识图谱、智能医疗问答、智能医疗对话等人工智能应用时,输入医学关系语句到预置堆叠模型中,即可抽取出其中的多关系医疗知识;此处仅对输入一句医疗语句时,预置堆叠模型对多关系医疗知识的提取过程进行说明,而在实际应用过程中,比如在构建医学知识图谱时,可以同时向预置堆叠模型输入多条医疗语句,依次从医疗语句中抽取出多关系医疗知识进行医学知识图片的构建。

本实施例中,本领域通常使用基于词的分词工具,存在切错词向量边界的可能,而此处采用基于单字的分词工具,其分割特征的准确性更高,并且通过二级分词处理一方面减少编码的长度,另一方面降低编码难度,对于不同类别的单字,采用同一套编码规则即可。即此处二级分词处理将医疗语句中的各单字是多类别多标签的分词方式。比如:癌症分为“肝癌,胃癌”,分期分为“早起,中期,晚期”,总共有六种排列组合,故其中一个排列组合“肝癌-晚期”可以编码为[1,0,0,0,1],前两位为癌症类别,后三位编码为分期。

306、将所述二级编码信息输入所述关系抽取模型,并通过所述关系抽取模型,抽取所述医疗语句中存在的多个医学知识关系;

本实施例中,数据库中存储有各医学知识关系的分类标签,与各二级编码信息一一对应,在确定医疗语句中的二级编码信息后,即可确定与之对应的分类标签,以分类标签为索引,即可查找到对应的医学知识关系。此处二级编码信息表示输入的医疗语句,通过{[cls]二级编码信息}的固定格式输入关系抽取模型中,而提取的医学只是关系亦通过编码的形式进行表示。

307、组合所述二级编码信息和所述各医学知识关系,得到组合医学知识关系;

308、将所述组合医学知识关系输入所述实体抽取模型,通过所述实体抽取模型,依次抽取与所述各医学知识关系相关联的两个实体特征,得到所述医疗语句中的多个三元组。

本实施例中,对于关系抽取模型抽取得到的多个医学知识关系,与原医疗语句的二级编码信心组合成一个新的样本输入实体抽取模型中进行实体特征的抽取,以及三元组的生成,即一句医疗语句中存在有多少个医学只是关系,则可组合成相同数量的样本,得到相同数量的三元组。比如一句医疗语句抽取得到两个医学知识关系[关系1,关系2],将医学知识关系和二级编码信息进行组合形成新的两个样本:{[cls]二级编码信息[sep]关系1,[cls]二级编码信息[sep]关系2},依次输入实体抽取模型,即可得与关系1相关联的两个实体特征,以及和关系2相关联的两个实体特征,最后得到两个三元组。

本发明实施例中,详细介绍了多关系医学知识的提取过程,直接将用户输出的医疗语句输入训练好的多关系知识提取模型中,通过多关系知识提取模型中的分词工具、分类模型、预测模型,从医疗语句中分离出多个多关系多实体的三元组。

上面对本发明实施例中多关系医学知识提取方法进行了描述,下面对本发明实施例中多关系医学知识提取装置进行描述,请参阅图4,本发明实施例中多关系医学知识提取装置一个实施例包括:

标注模块401,用于获取医患对话的多个历史医疗语句,并对所述历史医疗语句进行标注,得到对应的标注文件;

分类模块402,用于将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中,并通过所述预训练堆叠模型中的第一预训练模型,对所述各历史医疗语句进行关系分类,得到所述各历史医疗语句中存在的一个或多个医学知识关系;

预测模块403,用于通过所述预训练堆叠模型中的第二预训练模型,预测所述各历史医疗语句中与所述一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;

训练模块404,用于根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型;

提取模块405,用于获取待抽取医学知识关系的医疗语句,并将所述医疗语句输入所述多关系医学知识提取模型中进行医学知识关系和实体特征抽取,输出所述医疗语句中具有多关系医学知识的一个或多个三元组。

本发明实施例中,在模型训练阶段,通过将医患对话的多个历史医疗语句与对应的标注文件作为训练样本;先通过预置预训练堆叠模型中的第一预训练模型,对各历史医疗语句进行关系分类,得到各历史医疗语句中存在的一个或多个医学知识关系;再通过预训练堆叠模型中的第二预训练模型,预测各历史医疗语句中与一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;接着持续对预训练堆叠模型进行训练,直到预训练堆叠模型收敛,即可得到多关系医学知识提取模型;在模型应用阶段,获取待抽取医学知识关系的医疗语句,并通过多关系医学知识提取模型提取医疗语句中的一个或多个三元组,以确定医疗语句中存在的多关系医学知识,实现了对多关系医疗知识的信息提取。

请参阅图5,本发明实施例中多关系医学知识提取装置的另一个实施例包括:

标注模块401,用于获取医患对话的多个历史医疗语句,并对所述历史医疗语句进行标注,得到对应的标注文件;

分类模块402,用于将所述历史医疗语句和所述标注文件输入预置预训练堆叠模型中,并通过所述预训练堆叠模型中的第一预训练模型,对所述各历史医疗语句进行关系分类,得到所述各历史医疗语句中存在的一个或多个医学知识关系;

预测模块403,用于通过所述预训练堆叠模型中的第二预训练模型,预测所述各历史医疗语句中与所述一个或多个医学知识关系相关联的两个实体特征,得到各历史医疗语句中的一个或多个三元组;

训练模块404,用于根据所述三元组和所述标注文件,对所述预训练堆叠模型进行训练,直到所述预训练堆叠模型收敛,得到多关系医学知识提取模型;

提取模块405,用于获取待抽取医学知识关系的医疗语句,并将所述医疗语句输入所述多关系医学知识提取模型中进行医学知识关系和实体特征抽取,输出所述医疗语句中具有多关系医学知识的一个或多个三元组。

具体的,所述多关系医学知识提取装置还包括:

分词模块406,用于通过所述输入层对所述各历史医疗语句进行二级分词处理,得到所述各历史医疗语句中的各单字的二级编码信息。

具体的,所述分类模块402包括:

第一提取单元4021,用于将所述二级编码信息输入所述预训练堆叠模型中的第一预训练模型中,通过所述第一预训练模型提取所述二级编码信息中的一个或多个关系特征;

匹配单元4022,用于匹配所述一个或多个关系特征对应的分类标签,并基于所述分类标签,确定所述各历史医疗语句中存在的一个或多个医学知识关系。

具体的,所述预测模块403包括:

第一组合单元4031,用于根据所述各历史医疗语句中预测的医疗知识关系,分别将所述各历史医疗语句中的二级编码和对应的医疗知识关系进行组合,得到所述各历史医疗语句对应的一个或多个训练样本;

第二提取单元4032,用于依次将所述各训练样本输入所述预训练堆叠模型中的第二预训练模型中,通过所述第二预训练模型提取所述二级编码信息中的多个实体特征;

筛选单元4033,用于依次从所述多个实体特征中筛选与所述各医学知识关系相关联的两个实体特征,并依次将所述各医学知识关系和相关联的两个实体特征进行组合,得到各历史医疗语句中的一个或多个三元组。

具体的,所述训练模块404包括:

计算单元4041,用于根据所述三元组和所述标注文件,计算所述预训练堆叠模型的交叉熵损失值,并判断所述交叉熵损失值是否小于预置损失阈值;

判别单元4042,用于若所述交叉熵损失值小于预置损失阈值,则得到多关系医学知识提取模型,若大于,则重新对所述预训练堆叠模型进行训练;

循环单元4043,用于循环执行步骤计算单元、判别单元,直到所述交叉熵损失值小于预置损失阈值或者训练次数超过预设训练次数阈值时停止,得到多关系医学知识提取模型。

具体的,所述计算单元还用于:

根据所述三元组中医学知识关系的分类结果和所述标注文件,计算所述医学知识关系的分类正确率,以及根据所述三元组中实体特征的预测结果和所述标注文件,计算所述实体特征的预测正确率;

根据所述预置第一模型训练参数和所述分类正确率,计算所述第一预训练模型的分类损失值,以及根据所述第二模型训练参数和所述预测正确率,计算所述第二预训练模型的预测损失值;

根据所述分类损失值和所述预测损失值,计算所述预训练堆叠模型的交叉熵损失值。

具体的,所述提取模块405包括:

分词单元4051,用于将所述医疗语句输入所述输入层进行二级分词处理,并对二级分词处理后的医疗语句进行编码,得到所述历史医疗语句的二级编码信息;

关系抽取单元4052,用于将所述二级编码信息输入所述关系抽取模型,并通过所述关系抽取模型,抽取所述医疗语句中存在的多个医学知识关系;

第二组合单元4053,用于组合所述二级编码信息和所述各医学知识关系,得到组合医学知识关系;

生成单元4054,将所述组合医学知识关系输入所述实体抽取模型,通过所述实体抽取模型,依次抽取与所述各医学知识关系相关联的两个实体特征,得到所述医疗语句中的多个三元组。

本发明实施例中,详细介绍了通过预训练堆叠模型中的第一预训练模型和第二预训练模型依次对历史医疗语句进行医学知识关系的分类提取,以及通过医学知识关系从历史医疗语句中提取出相关联的两个实体特征,通过一个医学知识关系与两个实体特征进行组合,即可得到一个三元组,以用于描述历史医疗语句中的医学多关系医学知识;然后还详细介绍了多关系医学知识的提取过程,直接将用户输出的医疗语句输入训练好的多关系知识提取模型中,通过多关系知识提取模型中的分词工具、分类模型、预测模型,从医疗语句中分离出多个多关系多实体的三元组。

上面图4和图5从模块化功能实体的角度对本发明实施例中的多关系医学知识提取装置进行详细描述,下面从硬件处理的角度对本发明实施例中多关系医学知识提取设备进行详细描述。

图6是本发明实施例提供的一种多关系医学知识提取设备的结构示意图,该多关系医学知识提取设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对多关系医学知识提取设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在多关系医学知识提取设备600上执行存储介质630中的一系列指令操作。

多关系医学知识提取设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图6示出的多关系医学知识提取设备结构并不构成对多关系医学知识提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种多关系医学知识提取设备,所述多关系医学知识提取设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述多关系医学知识提取方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述多关系医学知识提取方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1