一种面向NER的中文临床文本数据增强方法及装置与流程

文档序号:31050545发布日期:2022-08-06 06:59阅读:346来源:国知局
一种面向NER的中文临床文本数据增强方法及装置与流程
一种面向ner的中文临床文本数据增强方法及装置
技术领域
1.本发明涉及文本数据增强领域,尤其涉及一种面向ner的中文临床文本数据增强方法及装置。


背景技术:

2.命名实体识别任务是自然语言处理领域的一个基础任务,是序列标注问题的一种,类似于分类任务,对文本序列中的每个单元(中文的命名实体识别任务,通常基于单字或子词进行处理)进行类别判断,判断结果通常包括“非实体”,“实体开头词”,“实体中间词”,“实体结尾词”等多种类别,其中,实体相关的类型,会根据要预测的实体类型不同而有所不同。
3.随着医疗信息化建设的推进,医疗文本数据量呈现爆炸式增长的趋势,对非结构化医疗文书中信息的提取与利用成为了一大研究热点,而对医疗命名实体的识别是其中非常基础且重要的一个任务。通过对医疗命名实体进行识别,可以实现对非结构化医疗文本的信息提取,挖掘出大量蕴含于文本内容中的医疗信息,供临床和科研使用。
4.目前,命名实体识别任务常见的方式主要是基于统计学习或深度学习,采用有监督学习的方法进行模型的学习与训练,对医疗实体的识别通常也采用这些方法。有监督学习的方法准确度通常较高,但其要求样本的数量要足够多,样本数量越多,模型效果会越好,泛化能力也越强。而在医疗领域中,对数据的标注工作通常需要具有医疗知识的专业人员进行,并且不同应用场景下,对实体的类型定义等也不尽相同,如提取疾病相关信息时,实体类型可能多为“症状”、“检查”、“检验”等,而提取药品相关信息时,实体类型可能多为“成分”、“适用症”、“剂量”等,因此,不同场景下的医疗实体识别任务需要按照不同标注规范进行数据标注。以上可见,对医疗文本的标注工作是一项成本高难度大的任务,而数据增强技术的存在就是为了解决这个问题。
5.数据增强是一种通过让有限数据产生更多等价数据来人工扩展训练数据集规模的技术,采用数据增强技术,可以通过设计合适的算法框架,利用模型进行数据的自动标注,从而快速且低成本的获取到大量的带有标注信息的数据。通过数据增强手段,在节省大量的人工成本的同时,实现了增加训练数据规模,提高模型泛化能力,增加噪声数据,提升模型鲁棒性的效果。因此,如何对医疗ner任务进行有效的数据增强是一项可以大幅降低成本,且提升医疗信息提取效果的工作。
6.数据增强的现有技术主要包括两种:一种是采用同类型实体进行随机替换从而进行数据增强,另一种是通过语言模型生成来进行增强。
7.采用同类型实体进行随机替换是通用领域ner任务中常见的一种数据增强手段,其方法非常简单易实现,即对已有训练数据中标注好的命名实体进行同类型实体词替换,即可生成新的带有实体标注的样本,如原数据中包含样本“我家在杭州”,其中“杭州”被标记为“城市”类型的命名实体,则取另一同为“城市”类型的命名实体“上海”对其进行替换, 可得到一条新样本“我家在上海”。通过这样的方式,对训练数据进行数据增强,从而得到更
多的伪标注数据。其缺点主要是需要额外的数据资源,如实体词典等,数据增强的效果与实体词典的质量以及规模强相关。同时,该方法进行数据增强的丰富性不足,增强后的数据句式较为单一,可能对语料整体的分布情况造成影响,带来额外的噪声。
8.通过语言模型生成来进行增强的方法,将原始的序列标注标签与词条(token)进行混合,如原始内容为“i live in hangzhou”,其中,“hangzhou”为“loc”类型实体,则其与标签混合后变为“i live in s_loc hangzhou”的形式。对已有的标注数据做如上形式的调整,并使用lstm模型对调整后的数据进行语言模型训练。基于训练得到的语言模型,输入“[bos]+随机token”,则可由语言模型自动进行后续文本内容的生成,由于语言模型的训练数据中混合了序列标注标签,故其生成的文本中也会带有序列标注标签,根据标签对生成的数据进行实体标注,即可得到增强后的标注数据。但是,通过语言模型生成来进行增强的方法,多基于单字多基于单字或子词序列进行文本预测,而医疗实体多数由固定语义单元组合而成,将通用方法直接应用于医疗领域时,会忽略掉医疗实体特有的语义特性,导致生成的数据可能会不符合医疗用语特性或违背医学逻辑,进而影响ner模型准确率。
[0009]
常见生成模型多采用自左向右的解码方式,仅能利用已经产生的历史信息,而无法利用还未生成的未来信息,导致生成的样本存在一定程度的偏执;同时随着生成序列变长,单一方向的生成方式容易加剧错误累计问题:例如中间某处如果生成了不合理的词汇将带偏后续预测结果,影响整体生成样本的质量。
[0010]
通常生成模型的训练过程多仅采用强标签数据进行训练,但由于强标签数据量非常有限,导致生成模型性能受限,而生成模型的质量将直接影响增强数据的质量,从而决定数据增强方法的有效性。


技术实现要素:

[0011]
本发明目的在于针对现有技术的不足,提出一种面向ner的中文临床文本数据增强方法及装置,采用文本生成方法进行数据增强,避免了同类型实体替换方法对额外资源的依赖,有效提升数据增强的效果。本发明通过对医疗实体进行语义切分,如“慢性肾结石”切分为“慢性 肾 结石”,并在此基础上进行基于片段(span-based)的语言模型的训练与文本生成。由于模型训练过程,保留了医疗实体中的独立语义单元,故模型可以更好的学习到真实数据中所包含的语义信息,进而体现在文本生成的结果中,使增强后得到的标注数据相对更符合医学用语规范,达到数据高质量增强的目的。
[0012]
本发明除常规自左向右的解码方式外,加入反向及双向解码机制,有效建模历史和未来信息,丰富了增强数据的句式结构,增加生成结果的多样性,并提升生成结果的质量,使模型生成的增强数据能够更好的服务于后续的ner任务学习。
[0013]
同时,本发明在生成模型的训练阶段,使用弱标签数据对训练数据进行了补充,并通过调整损失函数避免弱标签数据的噪声影响,使生成模型可以在更大规模的带标签数据上进行训练,从而提升模型性能。
[0014]
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种面向ner的中文临床文本数据增强方法,该方法包括步骤如下:(1)数据预处理:获取无标注信息的临床文本数据并进行分词,得到处理后的未标注数据;获取有标注信息的临床文本数据进行实体切分,并将切分后的实体进行标注,得到
处理后的标注数据,并进行标签线性化处理。
[0015]
(2)基于片段span-based的语言模型预训练:使用未标注数据,通过掩盖文本中的部分信息,基于保留信息对掩盖部分进行预测;同时引入实体词级判别任务,将句子蕴含的实体与实体库中的相似实体进行随机替换,使用判别器网络进行实体的词级检测,判断实体内的每一个词是否为原实体的词;(3)微调finetune阶段引入多种解码机制:微调finetune阶段基于预训练后的基于片段的语言模型得到文本向量和文本数据之间的关系,将线性化的带实体标签数据转化为文本向量,进行文本生成模型的训练,将需要增强的文本数据输入到训练好的文本生成模型中,在文本生成模型的预测阶段通过正向解码和反向解码进行文本生成,得到带有实体标签的生成结果,通过对标签进行解析,得到带有标注信息的增强数据。
[0016]
进一步地,步骤(1)中,数据预处理过程包括对未标注数据的分词以及对标注数据的标签线性化操作,未标注数据用于预训练阶段的语言模型学习,基于已有的医疗词典,采用词典与规则结合的方式对未标注数据进行分词;标注数据采用bies标注方式进行标注,用于微调阶段的生成模型训练。
[0017]
进一步地,步骤(1)中,标签线性化处理具体过程为:将临床文本数据中的非实体部分按单字进行切分,并将已标注的实体片段所对应的标签与切分后的句子片段进行混合,将标签视为一个独立的切分片段,置于对应文本内容前。
[0018]
进一步地,步骤(2)中,实体替换具体过程如下:1)结合医疗词典及医学知识,定义不同类型医疗实体的细粒度短语组成结构,每个细粒度组成结构均为具有独立语义且无法继续拆分的独立短语;2)对要替换的实体,根据预定义的细粒度信息进行进一步切分成独立语义单元;3)对切分后的各独立语义单元,进行同类型相似词检索,通过计算语义相似程度,得到与待替换词按相似度从高到低排序的前top-k个同类型相似词,随机选取其中一个对原始内容进行替换;4)对各独立语义单元均进行步骤1)-步骤3)操作,最终完成整个实体替换过程。
[0019]
进一步地,步骤(2)中,实体词级判别任务具体过程为:假设输入基于片段的语言模型的句子序列x蕴含n个实体, 对于第i个实体,以概率p保留实体,以概率1-p从实体库中选择与其语义近似的实体,即:其中,表示实体库,是实体选择的策略函数;表示选择的实体语义近似的实体,是服从均匀分布的随机变量;经过上述实体随机替换后,形成新的句子;将经过深度自注意力网络(transformer)编码后得到相应的表示序列h,实体的编码结果记作,其中m,n分别表示实体在句子序列中的起始与结束位置,h为相应的位置的语义向量表示;然后将输入到判别器网络中进行词级实体检测,判别器网络结构为两层线性层加relu激活函数,并使用层标准化(layer normalization)及残差连接的方式保证网络训练的稳
定性:其中,和分别为线性层第一层和第二层的权重,为网络第一层的输出结果,为网络第二层的输出结果;最后将输入到sigmoid函数中进行二分类:如果x中位置i的词与中位置i的词一致,则预测目标为1,否则为0。
[0020]
进一步地,步骤(3)中,正向解码和反向解码的解码过程中,通过构建双向多头注意力模型来实现对另一过程已有的编码信息的利用;正向解码,即从左到右进行文本生成,即进行如下概率计算:反向解码,即从右到左进行文本生成,即进行如下概率计算:其中,n为解码结果的位置,为对应位置的解码结果。切分后的词条(token)首先经过编码(embedding),之后经过长短期记忆模型(lstm)结构解码,经过线性变换得到输出结果;双向解码则通过维护两个方向的解码器,同时从两端向中间进行文本生成,将正向解码记为l2r模块,反向解码记为r2l模块,双向解码过程,l2r模块将该方向的历史预测结果以及r2l模块已有的编码信息作为输入进行预测;r2l模块将前一个预测结果以及l2r模块已有的编码信息作为输入进行预测;具体过程为:假设l2r模块当前要预测第n个词条(token),对应的r2l模块要预测倒数第n个词条(token),而经过若干层编码后,得到的l2r模块的向量序列为,其中,表示l2r模块得到的句子第n个位置的编码结果,对应的r2l模块的向量序列为,其中,表示r2l模块得到的句子第n个位置的编码结果。在双向解码机制下,将作为查询向量query,以作为键key和值value来进行注意力attention操作,用注意力机制(attention)的输出作为特征来预测第n个词条(token),同样的,以为查询向量query,以为键key和值value来进行注意力attention操作,用输出作为特征来预测倒数第n个词条token,最终的损失函数loss是两个方向交叉熵的平均值;双向解码的预测阶段,同时缓存两个方向的top-k个结果,在预测下一个词条token时,除了枚举当前概率最高的top-k个词条token,并枚举top-k条当前方向的临时路径外,还有枚举top-k条反向临时路径,所述临时路径为文本生成过程中存储临时生成结果的文本序列,计算每条路径的概率值最为对应路径的得分,计算所有组合的得分后,保留分数最高的top-k个,反向同理;最后,两个方向都解码完成后,选择得分最高的作为输出结果。
[0021]
进一步地,步骤(3)中,强弱标签结合的训练过程:文本生成模型的训练过程采用强弱标签结合的方式;首先对文本生成模型生成的弱标签数据中的实体标签进行置信度估计,置信度的大小表示对当前标签的信任程度,置信度估计如下:
其中,y表示序列,表示人工标注的强标签序列,强标签序列为人工标注可信度高,故其置信度置为1;对文本生成模型训练阶段损失函数的调整,在负对数似然基础上进行了加权计算,通过置信度大小来影响模型的学习程度,损失函数如下:其中,w为置信度估计。
[0022]
进一步地,步骤(3)中,先使用已有的强标签数据进行文本生成模型的初始化,并基于此模型生成一部分弱标签数据,之后使用生成的弱标签数据混合初始的强标签数据,进行生成模型的微调finetune,并对弱标签数据进行补充。重复上述的训练过程,使模型进行迭代式的自学习,直至模型在预先分离出的校验集上的平均置信度符合预设的阈值。
[0023]
第二方面,本发明提供了一种面向ner的中文临床文本数据增强装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的面向ner的中文临床文本数据增强方法。
[0024]
第三方面,本发明提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的面向ner的中文临床文本数据增强方法。
[0025]
本发明的有益效果:(1)本发明采用基于片段(span-based)的语言模型,更好的保留了医疗语义单元的信息,通过采用基于片段(span-based)的语言模型,对医疗实体词特点进行学习,并引入词级判别式辅助任务,与掩码语言模型(masked lm)任务进行互补,使模型更加关注实体的词级差异,并提升辅助任务难度,进一步发掘模型潜力,鼓励模型将医疗实体内部所包含的各维度独立语义单元存储到向量表示中,以便在微调(finetune)阶段获得更好的效果。
[0026]
(2)采用领域内预训练语言模型进行文本生成,充分利用大规模未标注的领域内数据,对医疗文本的特征进行充分学习,并基于得到的lm再进行微调(finetune),从而得到可生成带有实体标签的文本的生成模型,避免仅使用标注数据进行生成模型训练由于标注数据规模不足所引起的模型性能下降问题,影响增强数据质量,以至影响最终ner任务的性能。
[0027]
(3)本发明通过将模型生成的弱标签数据与人工标注的强标签数据混合训练,实现对训练数据的补充,同时采用了适用于强弱标签混合训练的损失函数,使模型可以更智能的对不同置信度的数据进行学习。由于弱标签数据存在噪声且弱标签数据量远超强标签数据量,故模型可能过拟合到弱标签数据的噪声上,从而影响模型性能。因此我们首先对数据中的实体标签进行置信度计算,用于评估数据中标签的可信程度。同时,调整模型的损失函数,当数据中标签置信度较高时,使损失函数更激进,模型拟合更多,而标签置信度较低时,使模型拟合的更保守一些。
[0028]
(4)本发明在解码阶段引入了多种解码形式,包括正向、反向、双向解码。对比常规仅使用正向解码的生成模型,由于模型仅能利用历史信息,故生成的增强数据结构上会具
有某种程度的相似性,当增强数据作为主要训练数据去进行ner任务学习时,可能会导致模型的知识源受限,从而影响最终识别效果。本发明通过引入多种解码形式,使生成数据具有多种句式结构,极大的丰富的增强数据的多样性,使增强数据包含更全面的知识信息,从而得到更健壮的ner模型。同时,仅使用单向解码,可能会存在输出不平衡的问题,导致部分增强数据置信度较低而无法使用,因此本发明同时引入了双向解码的方式,避免了输出不平衡的问题,在进一步提升数据多样性的同时,对增强数据的质量也做了改善,从而确保模型可以生成更多高质量增强数据。
附图说明
[0029]
图1为标注数据处理流程示意图。
[0030]
图2为实体词级判别任务示意图。
[0031]
图3为单向文本生成模型结构图。
[0032]
图4为双向文本生成模型结构示意图。
[0033]
图5为多阶段迭代式自学习过程示意图。
[0034]
图6为本发明提供的一种面向ner的中文临床文本数据增强装置的结构图。
具体实施方式
[0035]
以下结合附图对本发明具体实施方式作进一步详细说明。
[0036]
如图1所示,本发明提供的一种面向ner的中文临床文本数据增强方法,主要流程及详细说明如下:1、数据预处理:数据预处理过程主要包括对未标注数据的分词以及对标注数据的标签线性化操作。
[0037]
对未标注数据,主要用于预训练阶段的语言模型学习,基于已有的医疗词典,采用词典与规则结合的方式对未标注数据进行分词。
[0038]
对标注数据,主要用于微调(finetune)阶段的生成模型训练及优化。主要处理流程如下:实体切分:基于已有的医疗词典,并结合医学专家的知识指导,针对不同类型医疗实体的构词特点进行独立语义单元的切分,如疾病类实体词,可能会包含程度词、部位词、病症描述词等部分,操作类实体词,可能会包含部位词、术式描述词等部分。采用基于词典与规则结合的方式对各类型实体内容进行进一步切分,如“慢性 肾病”,“胆囊 切除术”等。
[0039]
实体进一步切分的过程,结合了医学专家的知识指导,充分考虑到医疗实体特有的语言特点,对实体内部的语义单元进行划分,从而确保实体语义不被破坏,且为后续网络训练过程提供了更多初始的数据信息。
[0040]
标注实体片段:将切分后的实体片段采用bies标注方式进行标注。其中,bies标注方式指用“b-tag”标注实体部分的初始片段,用“i-tag”标注实体部分的中间片段,用“e-tag”标注实体部分的结尾片段,用“s-tag”标注由单个片段组成的实体,如“胆道恶性肿瘤”被切分为“胆
道 恶性 肿瘤”,类型标签为dis(表示疾病,disease),则可标注为“胆道/b-dis 恶性/i-dis 肿瘤/e-dis”,“肿瘤”无法被进一步切分,则可标注为“肿瘤/s-dis”。
[0041]
标签线性化:将数据中的非实体部分按单字进行切分,并将已标注的实体片段所对应的标签与切分后的句子片段进行混合,将标签视为一个独立的切分片段,置于对应文本内容前,如“肿瘤/s-dis”调整为“s-dis 肿瘤”。标签线性化处理后,原标注数据变为一个带标签的句子,如“患 者 因 b-dis 慢性 e-dis 肾病 服 药”等。
[0042]
2、基于片段(span-based)的语言模型预训练:使用大规模领域内未标注数据进行语言模型的预训练,通过掩盖文本中的部分信息,基于其他保留信息对隐藏部分进行预测来进行语言模型的训练。
[0043]
对文本中部分信息进行掩盖的操作称为掩码(mask),即将选中的片段(span)中的每个词条(token)都替换为[mask]标识。对一个序列,选择其中一个子集y进行掩码(mask)。通过不断选择片段(span),直到满足相应比例的词条(token)数量。在选择片段(span)过程中,会倾向于选择长度较短的片段(span),并且半随机的选择某个随机短语的起始位置作为片段(span)的开始,并在不超过指定长度的限制下选择具有完整语义的短语作为完整片段(span)进行掩码(mask)。
[0044]
同时,为了细粒度地区分不同实体片段(span)的语义差别,除上述掩码语言模型(masked lm)任务外,额外引入实体词级判别任务。任务描述如下:将句子蕴含的实体与实体库中的相似实体进行随机替换,使用判别器网络进行实体的词级检测,判断实体内的每一个词是否为原实体的词。
[0045]
实体词级判别任务流程可参考图2:详细实现方式如下;假设输入句子序列x蕴含k个实体, 对于每个实体,我们以p(例如p=50%)的概率保留该实体,1-p的概率从实体库中选择与其语义近似的实体,即:其中表示实体库,是实体选择的策略函数。
[0046]
经过上述实体随机替换后,形成新的句子。将作为输入经过深度自注意力网络(transformer)编码后得到相应的表示序列h,每个实体的编码结果记作,其中m,n分别表示该实体在句子序列中的起始与结束位置,h为相应的位置的语义向量表示。然后将输入到判别器网络中进行词级实体检测,判别器网络结构为两层线性层加relu激活函数,并使用层标准化(layer normalization)及残差连接的方式保证网络训练的稳定性:最后将输入到sigmoid函数中进行二分类:如果x中位置i的词与中位置i的词一致,则预测目标为1,否则为0。
[0047]
实体替换策略描述如下:如前文所述,医疗实体多由多个细粒度短语组成,如疾病类实体词可能包含部位词、程度词、病症描述词等,操作类实体词可能包含部位词、术式描述词等部分。故实体替换过程中,通过对实体内各独立语义单元进行同类替换,如部位词替换为部位词,程度词替换为程度词,从而构造出于原始实体相似的替换后实体。具体过程如下:1. 结合医疗词典及医学知识,定义不同类型医疗实体的细粒度短语组成结构,如操作类实体=部位词+术式描述词,疾病类实体=程度词+部位词+病症描述词;2. 对要替换的实体,根据预定义的细粒度信息进行进一步切分,如“慢性 肾病”,“胆囊 切除术”,“左下 腹 疼痛”等;3. 对切分后的各独立语义单元,进行同类型相似词检索,通过计算语义相似程度,得到与待替换词最相似的top-k个同类型相似词,随机选取其中一个对原始内容进行替换;4. 对各独立语义单元均进行上述操作,最终完成整个实体替换过程。
[0048]
语言模型主任务掩码语言模型(masked lm)的训练目标是根据上下文预测整个实体,而引入的词级判别器辅助任务则更关注实体内部更细粒度的词级差异,故引入该辅助任务与掩码语言模型(masked lm)任务进行互补,使模型训练更加充分。
[0049]
同时,通过对实体内不同维度语义单元进行相似词替换,构造相似实体,提升了辅助任务难度,从而更进一步发觉模型潜力,使模型对实体信息更加敏感。
[0050]
3、微调(finetune)阶段引入多种解码机制微调(finetune)阶段基于已获取的领域内预训练语言模型,在线性化的带实体标签的训练数据上进行文本生成模型的训练,从而得到带有实体标签的生成结果,通过对标签进行解析,得到带有标注信息的增强数据。
[0051]
同时,除常用的正向解码外,引入反向及双向解码机制。
[0052]
正向解码,即从左到右进行文本生成,即进行如下概率计算:类似的,反向解码,即从右到左进行文本生成,即进行如下概率计算:以上两种单向解码模型均采用基础的lstm网络架构进行轻量级的训练,参考图3,切分后的词条(token)首先经过编码(embedding),之后经过lstm结构,经过线性变换得到输出结果。其中,“[bos]”表示“beginning of sentence”,用作句首标识,“[eos]”表示“end of sentence”,用作句尾标识。预测阶段采用常规的束搜索(beam search)算法进行计算。
[0053]
双向解码则通过维护两个方向的解码器,同时从两端向中间进行文本生成。我们将正向解码称为l2r模块,反向解码称为r2l模块,双向解码过程,首先对两个模块均输入起始标记,之后l2r模块负责预测第一个词条(token),r2l负责预测最后一个词条(token),接着将第一个词条(token)以及r2l模块已有的编码信息共同传入到l2r模块中来预测第二个字,同理将最后一个词条(token)以及l2r模块已有的编码信息共同传入到r2l模块中来预测倒数第二个词条(token),以此类推,直至出现结束标记为止。
[0054]
其中,双向解码过程中,通过构建双向多头注意力模型(参考图4)来实现对另一模块已有的编码信息的利用。假设l2r模块当前要预测第n个词条(token),对应的r2l模块要
预测倒数第n个词条(token),而经过若干层编码后,得到的l2r向量序列为,对应的r2l向量序列为,在双向解码机制下,我们将作为查询向量(query),以作为键(key)和值(value)来进行注意力(attention)操作,用注意力(attention)的输出作为特征来预测第n个词条(token),从而实现对未来信息的感知,同样的,以为查询向量(query),以为键(key)和值(value)来进行注意力(attention)操作,用输出作为特征来预测倒数第n个词条(token),从而实现对历史信息的感知,最终的损失函数(loss)是两个方向交叉熵的平均值。预测阶段,仍然采用束搜索(beam search)的思路,但是同时缓存两个方向的top-k结果,在预测下一个词条(token)时,除了枚举当前概率最高的top-k个词条(token),并枚举top-k条当前方向的临时路径外,还有枚举top-k条反向临时路径,计算所有组合的得分后,保留分数最高的top-k个,反向同理。最后,两个方向都解码完成后,选择得分最高的作为输出结果。
[0055]
4、强弱标签结合的训练过程生成模型的训练过程采用强弱标签结合的方式。
[0056]
首先对弱标签数据中的实体标签进行置信度估计,置信度的大小表示对当前标签的信任程度,这个置信度估计会用于损失函数的计算以及判断训练过程是否中止迭代,置信度估计如下:其中,y表示序列,表示人工标注的强标签序列,强标签序列为人工标注可信度高,故其置信度置为1。
[0057]
对训练阶段损失函数的调整,主要目的是使模型对高置信度的标签拟合更多,而对低置信度的标签拟合相对保守,因此在负对数似然基础上进行了加权计算,通过置信度大小来影响模型的学习程度,损失函数如下:其中,w为置信度估计。
[0058]
5、多阶段迭代式自学习完整的模型训练共分为三个主要阶段(参考图5):第一阶段使用无标注数据进行基于片段的语言模型(span-based lm)预训练,采用掩码语言模型(mlm)+实体词级判别任务的方式,模型从开放领域(open-domain)语言模型变成领域内(in-domain)语言模型。
[0059]
第二阶段先使用已有的少量强标签数据进行文本生成模型(即上文所述的正向、反向、双向生成模型)的初始化,并基于此模型生成一部分弱标签数据,之后使用生成的弱标签数据混合初始的强标签数据,进行生成模型的微调(finetune),并对弱标签数据进行补充。
[0060]
重复第二阶段的训练过程,使模型进行迭代式的自学习,直至模型在预先分离出的校验集上的平均置信度符合预设的阈值。
[0061]
第三阶段使用强标签数据对生成模型进行最后的微调(finetune)。
[0062]
通过以上强弱标签结合的多阶段迭代式自学习,丰富增强数据的多样性,并实现生成模型性能的提升。
[0063]
具体应用实施例:第一阶段通过掩码语言模型+实体词级判别任务的方式进行语言模型预训练,如“左眼渐进性视物不清1年”在实体词级判别任务中将被替换为“腹部渐进性[mask]1年”,模型需预测“[mask]”所在位置的文本内容,并区分“腹部”是否为原文中的内容。
[0064]
第二阶段在强标签数据上进行文本生成模型初始化,并生成部分弱标签数据,如给定句首词“左眼”,文本生成模型可自动生成“左眼 b-sym 视物 i-sym 不清 e-sym”、“左眼 b-sym 视力 i-sym 模糊 e-sym 数年”、“左眼 b-sym 疼痛不适 e-sym 半天”等增强数据,其中sym为症状(symptom)实体标签,这部分增强数据将作为弱标签数据进行文本生成模型的迭代式训练。
[0065]
第三阶段仅使用强标签数据对生成模型进行最后微调,上文中的“左眼 b-sym 视物 i-sym 不清 e-sym”、“左眼 b-sym 视力 i-sym 模糊 e-sym 数年”、“左眼 b-sym 疼痛不适 e-sym 半天”等增强数据在该阶段将不参与模型训练。
[0066]
经过上述过程得到最终的文本生成模型并用于进行增强数据的生成,如给定句首词“上腹
”ꢀ
,生成模型可自动生成如“上腹 b-sym 疼痛 i-sym 难忍 e-sym 半日”、“上腹 b-sym 不适 e-sym 多日”、“上腹 b-sym 占位 e-sym半年”等带有实体标注的增强数据,该部分增强数据可用于中文临床文本ner任务的模型训练过程。
[0067]
生成模型经过多轮迭代及置信度筛选,可保证较高的增强数据质量,通过使用生成的增强数据,可极大扩充中文临床文本ner任务的训练数据规模,从而更好的进行ner模型的训练,实现更准确的对中文临床文本中的实体进行识别。
[0068]
与前述面向ner的中文临床文本数据增强方法的实施例相对应,本发明还提供了面向ner的中文临床文本数据增强装置的实施例。
[0069]
参见图6,本发明实施例提供的一种面向ner的中文临床文本数据增强装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的面向ner的中文临床文本数据增强方法。
[0070]
本发明面向ner的中文临床文本数据增强装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明面向ner的中文临床文本数据增强装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0071]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0072]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实
施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0073]
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的面向ner的中文临床文本数据增强方法。
[0074]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0075]
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1