一种基于对抗深度学习的儿童体质辨识方法与流程

文档序号:26054077发布日期:2021-07-27 15:30阅读:202来源:国知局
一种基于对抗深度学习的儿童体质辨识方法与流程

本发明涉及自然语言处理领域,尤其涉及一种基于对抗深度学习的儿童体质辨识方法。



背景技术:

儿童身体仍处于成长阶段,针对其生长发育迅速、体质不稳定、脾胃肾脏尚未发育完成等问题,中医治疗不仅可以减少药物对其身体的伤害,还可达标本兼治的效果,从而为儿童茁壮成长打好基础。中医预防并治疗疾病。需要对不同体质的儿童将会采用不同的方案,因人而异辨证论治,只有准确辨别体质,才能使开展得保健调养和治疗措施安全有效。随着大数据及人工智能技术的发展,对于智能分析症状体征数据及开展决策提供了可能性。

自然语言处理人工智能ai的一个子领域,临床医学领域nlp(自然语言处理)的研究开始于20世纪60年代。早期的研究基于有限的电子医疗文本验证了nlp在医疗领域的可行性。到80年代和90年代,大量的医学数据和领域知识库被逐渐建立起来。例如snomed—被广泛应用的临床医学术语知识库之一,umls(theunifiedmedicallanguagesystem)—一体化医学信息系统,集成了150多种常用医学术语知识库。随后,大量的临床医学nlp(自然语言处理)系统开始出现,代表性的临床医学nlp(自然语言处理)系统有medlee、metamap、ctakes、medex、knowledgemap等。这些临床医学nlp(自然语言处理)系统的应用覆盖了医学信息抽取、医学文本分类、医疗决策支持、病人信息管理、医疗信息问答、医学知识挖掘及知识库建立等诸多领域。

自然语言文本信息抽取任务包括命名实体识别、语义关系发现、时间抽取、情感分析等,通常分为七步,第一步获取语料,第二步语料预处理,第三步特征工程,第四步特征选择,第五步模型训练,第六步评价指标,第七步模型上线应用。本发明主要涉及到中间步骤的第二、三、四、五步,即识别出文本中具有特定意义的实体字符串边界,并归类到预定义类别,最终将非结构化文本转化为结构化知识的过程。医学领域文本信息抽取,目前使用最多的是lstm+cnn+crf的神经网络模型,利用lstm(长短期记忆网络)和cnn(卷积神经网络)对文本进行训练,提取特征,最终使用crf(conditionalrandomfields)作为判别模型完成判别训练,但是这种方法一般用于西医有标准指标的信息抽取,中医文本由于其个体化的专家表达与非结构化的中医症状等特点使用该方法判别效果较差,因此需要在此基础上进行改进。另一方面,训练深度神经网络需要大量的标注数据,现有的信息抽取任务研究主要是基于一些公开的数据集,由于中医儿科体质辨别领域研究较少,因此现在还没有可供使用的公开的标注数据集。



技术实现要素:

本发明的目的是针对现有技术的缺陷,提供了一种基于对抗深度学习的儿童体质辨识方法。

为了实现以上目的,本发明采用以下技术方案:

一种基于对抗深度学习的儿童体质辨识方法,

s1、设置实体类型,从病症知识库与体质知识库抽取体质辨别的症状体征,进行标注;

s2、建立体质辨别模拟模型,运用对抗深度学习网络包括生成器及判别器,将每个症状体征辨别标注候选;

s3、随机组合体质症状体征,生成多个模拟儿童体质辨别的症状体征包括s2中的体质辨别模拟模型生成的儿童体质辨别的症状体征,以及s1中标注的体质症状体征;

s4、生成的多个模拟体质症状体征;

s5、将真实体质症状体征输入训练后的体质辨别模型,体质辨别模拟模型对输入的真实体质症状体质进行识别,输出识别结果。

进一步的,s1中症状体征共426条,设置实体类型为9种体质,包括平和型、脾虚型、肾虚型、肺虚型、阳热型、阳虚型、痰湿型、脾虚湿滞型、特禀型,和实体阴性属性。

进一步的,s2中每个体质症状体征有9种体质辨别标注候选,向生成器中输入1x100的噪声和长度为9的类别信息,即9种儿童体质辨别信息,经过两层全连接层提取特征实体,再结合类别信息,经过两层反卷积层再次提取特征实体;

在判别器中输入最终儿童体质辨别的症状体征和长度为9的类别信息,经过两层卷积层和两层全连接层,经过reward算法判断输入症状体征所属体质的真实性,最后采用policygradient函数将reward算法的结果返回gan训练网络,训练体质辨别模型。

进一步的,s2中,在输入模型之前,对输入的实体进行预处理,用以去除无关系实体和实体属性为阴性的实体。

进一步的,s2中,体质辨别模型训练的时候将训练数据增扩500倍,batch_size参数选择225或者更大,学习率选择0.0002,momentum=0.5,每1个epoch结束生成一条症状体征对比体质辨别模型此时的性能。

采用本发明技术方案,本发明的有益效果为:本发明解决了儿童中医体质分型复杂难懂、多种体质兼夹、家长短时间难以掌握辨别方法等问题,提高了儿童体质辨别的准确率。本发明改善了现有的问卷体质调查法,通过人工智能的自然语言信息抽取技术,比现有的儿童体质辨别方法更加智能化和精准化,且儿童体质识别准确率达到了92.10%。

附图说明

图1是本发明提供的体质辨别症状体征标注示意图;

图2是本发明提供体质辨识模型的算法结构图;

图3是本发明提供的生成器网络结构图;

图4是本发明提供的判别器网络结构图;

图5是本发明提供的随机生成模拟体质辨识症状体征标注示例图;

图6是本发明提供的儿童体质辨识模型结构图。

具体实施方式

结合附图对本发明具体方案具体实施例作进一步的阐述。

如图所示,本发明中所述儿童体质辨别方法是从自建的病症知识库与体质知识库共抽取症状体征426条,进行人为标注,如图1所示。所述体质辨别模型是根据儿童体质症状体征模拟模块随机生成的大量体质症状体征文本训练得到的。所述儿童体质症状模拟模块由多个症状体征实体模拟数据组成。所述多个症状体征实体时由标注的体质症状体征反复训练纠正得到。具体实现过程如下:

s1、从病症知识库与体质知识库共抽取体质辨别的症状体征426条,进行标注;

具体的,前期工作中,标注工具后台设置实体类型为9种体质,即平和型、脾虚型、肾虚型、肺虚型、阳热型、阳虚型、痰湿型、脾虚湿滞型、特禀型,和实体阴性属性。在前端语料注释时,鼠标选中症状体征,鼠标右击会出现9种体质的菜单下拉框,选中点击即可,标注结果如图1所示。

426条体质辨别的症状体征,标注结束后,收集的语料库中注释了16,288个实体,实体类型为平和型(2469个)、脾虚型(2297个)、肾虚型(1895)、肺虚型(1756)、阳热型(1968个)、阳虚型(1259个)、痰湿型(987)、脾虚湿滞型(863个)、特禀型(620个)、无任何属性实体(2174个)。

上述语料标注工具brat是bratrapidannotationtool的递归缩写,是一个容易定制的轻量级标注系统,是一个基于web的文本标注工具用于对文本的结构化标注,用brat生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。可以标注实体、事件、关系、属性等,支持linux下安装,因为是基于web的工具,其使用需要webserver,项目源代码已经开源。

s2、体质辨别模拟模型,运用gan(对抗深度学习)网络包括生成器及判别器,模型算法的大致思想如图2所示。每个体质症状体征有9种体质辨别标注候选。如图3所示,向生成器中输入1x100的噪声和长度为9的类别信息,即9种儿童体质辨别信息,经过两层全连接层提取特征实体,再结合类别信息,经过两层反卷积层再次提取特征实体。

如图4所示,在判别器中输入最终儿童体质辨别的症状体征和长度为9的类别信息,经过两层卷积层和两层全连接层,经过reward算法判断输入症状体征所属体质的真实性,最后采用policygradient函数将reward算法的结果返回gan训练网络,训练体质辨别模型;

上述policygradient函数是强化学习策略梯度算法,这种算法归类于策略优化算法,不通过误差反向传播,它通过观测信息选出一个行为直接进行反向传播,利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次的被选中的概率,不好的行为会被减弱下次选中的概率。

在输入模型之前,对输入的实体进行一些预处理,用以去除一些无关系实体和实体属性为阴性的实体。本实施例采用stanfoednlp。首先对标注的实体数据进行提取,然后经过去阴性实体数据和无关系实体数据,最后将实体进行二值化。另外,由于模型比较小,泛化能力有限,本实施例将16,288个实体,分成8组,每组约2036个症状体征实体,每组训练一个模型,这样最终的体质辨别模拟模型由8个模型组成,每个模型负责模拟对应的2036个症状体征实体。

上述stanfordnlp是一个软件包组合,包括斯坦福团队在conll2018的通用依存解析(universaldependencyparsing)共享任务上使用的软件包,以及斯坦福corenlp软件的官方python接口。stanfordnlp支持包括阿拉伯语、中文、英语等53种语言。除了从corenlp继承的功能外,stanfordnlp还包含将一串文本转换成句子和单词列表,生成这些单词的基本形式、它们的词类和形态学特征的工具,以及超过70种语言的句法结构。这个软件包采用高准确性的神经网络组件构建,这些组件支持用户使用自己的注释数据进行高效的训练和评估。这些模块构建在pytorch上。

体质辨别模型训练的时候将训练数据增扩(拷贝)500倍,batch_size参数选择225或者更大,学习率选择0.0002,momentum=0.5,每1个epoch结束生成一条症状体征看看模型此时的性能。

上述batch是指每次送入网络中训练的一部分数据,而batch_size就是每个batch中训练样本的数量。momentum为动量参数。1个epoch是指使用训练集中的全部样本训练一次。

s3、随机组合体质症状体征,生成多个模拟儿童体质辨别的症状体征包括s2中的体质辨别模拟模型生成的儿童体质辨别的症状体征,以及s1中标注的体质症状体征。

以组合排布,其组合中包含的九种体质所含的实体个数、组合顺序、实体占比均为随机生成。本实施例一共随机生成了10,0000条模拟体质症状体征,如图5所示。

s4、生成的多个模拟体质症状体征。具体为,通过改进cnn+lstm+policygradient,提出了一种用于儿童体质辨识的神经网络,如图6所示。图6左边为gan网络训练的步骤1,判别器d主要用来区分真实样本和伪造样本,这里的判别器d是用cnn来实现的。图6右边为gan网络训练的步骤2,根据判别器d回传的判别概率回传给生成器g,通过增强学习的方法来更新生成器g,这里的的生成器g是用lstm来实现的。g网络的更新策略是增强学习,增强学习的四个要素state,action,policy,reward分别为:state为现在已经生成的tokens(当前timestep之前lstmdecoder的结果),action是下一个即将生成的token(当前解码词),policy为gan的生成器g网络,reward为gan的判别器d网络所生成的判别概率,reward奖励直接对选择行为的可能性进行增强和减弱,policygradient函数将reward算法的结果返回gan训练网络训练,好的行为会被增加下一次的被选中的概率,不好的行为会被减弱下次选中的概率。

s5,将真实体质症状体征输入训练后的体质辨别模型,体质辨别对输入的真实体质症状体质进行识别,输出识别结果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1