一种基于深度学习的在线中医文本命名实体识别方法与流程

文档序号:11919284阅读:270来源:国知局
一种基于深度学习的在线中医文本命名实体识别方法与流程
本发明涉及自然语言处理领域,尤其是一种基于深度学习的在线中医文本命名实体识别方法。
背景技术
:命名实体识别是从非结构化的自然文本中识别人名、地名、组织结构名、时间和数字表达等有意义的实体指称和类别。命名实体识别是许多自然语言处理技术中的重要组成部分,在线中医文本命名实体识别是识别互联网中医学领域文本中有特定含义的实体,包括疾病、症状、药物、食材等。现有的相关技术可以分为两类,一类是基于人工规则,例如根据词语出现的概率,将出现次数超过一定概率的词语识别为命名实体;或者根据词语的组成模式,例如人名由姓氏和名字组成等。另一类是基于机器学习方法,当前应用较为广泛的识别技术主要是基于机器学习方法,相关的方法有支持向量机模型(SVM)、最大熵模型(MaximumEntropy)、隐马尔科夫模型(HMM)、条件随机场(CRF)等,其中条件随机场是应用较多的模型。上述传统的统计学习方法依赖于特征选取的程度较高,特征选取的方法需要基于大量的领域知识和经验,同时需要花费大量的时间精力进行试验,无法保证结果的最优化。如何有效利用大规模无标注语料,实现特征自动提取是众多研究学者的关注课题。另一方面,深度学习在图像处理和语音识别领域取得了相当显著的进展,同时也开始被应用到自然语言处理领域中。深度学习方法能够在一定程度上很好地替代一般的特征提取方法,更好的提取词语、句子、篇章的语义信息,相关的模型有循环神经网络(RecurrentNeuralNetwork)、卷积神经网络、长短时记忆(LSTM)循环神经网络以及一些混合模型的方法等。技术实现要素:本发明的目的是针对上述现有技术的不足,提供了一种基于深度学习的在线中医文本命名实体识别方法,该方法有效解决了实际应用中在中医文本大数据上进行命名实体识别的低效率、低准确率问题。本发明的目的可以通过如下技术方案实现:一种基于深度学习的在线中医文本命名实体识别方法,所述方法包括以下步骤:1)通过网络爬虫获取在线中医文本数据,对在线中医文本数据进行包含编码转换、无关信息去除等的预处理操作,再利用已有的专业词典等及人工辅助对获取的在线中医文本数据中的命名实体进行标注;2)利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;3)将步骤1)中标注过的在线中医文本数据进行分词,对于每个句子,通过查找步骤2)的词汇表,将词语转化为固定长度词向量,将固定长度词向量转化为向量矩阵作为卷积神经网络的输入,其中,当句子长度不足时以空白符填充;4)将多个连续时刻的步骤3)中卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据。优选的,步骤1)中,所述对获取的在线中医文本数据中的命名实体进行标注采用的是BIO标注集,即标注集中包含{B,I,O},其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分;优选的,步骤2)中,所述语料数据的收集通过互联网进行,利用word2vec训练得到的词向量每一维代表了特定的词语特征,可选维度为100、200、500。优选的,步骤3)中,所述卷积神经网络的卷积层包含多种大小的卷积核,通过词语的上下文信息自动提取文本特征,卷积层后接随时间最大池化层对多个局部卷积特征进行下采样操作。优选的,步骤3)中,所述卷积神经网络在训练时采用均值为0及方差为2/n的高斯分布进行初始化,其中,n为输入个数,采用随机梯度下降进行迭代求解。优选的,步骤4)中,所述双向长短时记忆循环神经网络包含两个隐含层,每个隐含层都包含前向长短时记忆循环神经网络和后向长短时记忆循环神经网络组成的双向长短时记忆循环神经网络,对词语的前后上下文特征进行建模。优选的,步骤4)中,所述双向长短时记忆循环神经网络根据步骤3)中卷积神经网络的输出作为输入,分别计算每个输入词语属于某个命名实体类别标志的概率,以最大概率所属的类别作为词语最后的类别标志。本发明与现有技术相比,具有如下优点和有益效果:1、本发明提供了一种基于深度学习方法的在线中医文本命名实体识别方法,采用卷积神经网络对需识别的文本序列提取特征,将特征向量作为数据输入到双向长短时记忆循环神经网络中来完成识别过程,相比于使用传统方法进行命名实体识别,减少了特征提取的复杂性和工作量,简化了处理过程,显著提高了识别效率。2、本发明将词语转化为固定长度词向量,相比于传统的独热模型,词向量在大规模语料上的扩展性更好,降低了表示维度,减少了存储空间并可以计算词与词之间的相似性,提升了模型的健壮性。3、本发明采用双向长短时记忆循环神经网络输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据,因此,模型识别当前的词语和训练过程时,利用了当前时刻的输入及上一时刻的语言特征向量,将词语的上下文信息及依赖关系都学习和识别到了,简化了识别的工作,提升了识别效率。附图说明图1为本发明实施例采用的基于深度学习的在线中医文本命名实体识别方法流程图。图2为本发明实施例采用的双向长短时记忆循环神经网络双层网络的结构示意图。图3为本发明实施例采用的卷积神经网络结构示意图。图4为本发明实施例采用的长短时记忆神经元结构示意图。具体实施方式下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。实施例:本实施例提供了一种基于深度学习的在线中医文本命名实体识别方法,所述方法的流程图如图1所示,包括以下步骤:步骤一、通过网络爬虫获取在线中医文本数据,对在线中医文本数据进行包含编码转换、无关信息去除等的预处理操作,再利用已有的专业词典等及人工辅助对获取的在线中医文本数据中的命名实体进行标注,标注采用BIO标注集,即标注集中包含{B,I,O},其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分;步骤二、利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;本步骤中,语料数据通过互联网收集,利用word2vec训练得到的词向量包含了良好的语义特征,学习了上下文的语义信息,其中的每一维代表了特定的词语特征,维度较少,一般的可选维度为100、200、500等。步骤三、将步骤一中标注过的在线中医文本数据进行分词,对于每个句子,通过查找步骤二的词汇表,将词语转化为固定长度词向量,将固定长度词向量转化为向量矩阵作为卷积神经网络的输入,其中,当句子长度不足时以空白符填充;本步骤中,当词语位于句子首尾或句子长度不足时,用空白符Padding补足到句子M,多个词语组成向量矩阵并作为卷积神经网络的输入,表1与表2为步骤三的一个相关示例:表1表2进一步地,本步骤中,所述卷积神经网络的卷积层包含多种大小的卷积核,通过词语的上下文信息自动提取文本特征,卷积层后接随时间最大池化层对多个局部卷积特征进行下采样操作。所述卷积神经网络在训练时采用均值为0及方差为2/n的高斯分布进行初始化,采用随机梯度下降进行迭代求解。所述均值为0及方差为2/n的高斯分布初始化方法即MSRA初始化方法,该方法替代了传统的高斯分布初始化方法,解决了深度网络难以收敛的问题,公式如下:其中n为输入个数。所述卷积神经网络结构示意图如图3所示,第一层为卷积层,包括多个大小的卷积核,每个大小的卷积核有多个,每个卷积核宽度与词语向量的长度相同,通过训练后得到包含不同权值的权重矩阵,每个输入的向量矩阵分别与不同的权重矩阵进行二维卷积计算,得到局部卷积特征图,卷积层的前向传播可以表示为如下公式:其中1为当前卷积层下标,x为对应层的输出,j为特征图下标,w为卷积核参数,b为偏置,M表示输入集合,其中f函数为激励函数,选择ReLu作为激励函数,它可以使网络稀疏化,减少参数依赖和过拟合的情况。所述ReLu函数可以表示为:f(x)=max(0,x)其中max函数表示取0和x中的最大值。所述卷积神经网络的第二层是Max-over-timePooling层,对上层的输出进行降维,减少过拟合,减少模型参数,对于上述卷积核得到的每个特征图输出中都只保留最大的值。所述卷积神经网络的最后部分是全连接网络,全连接网络的输出是固定长度的向量,作为下层长短时记忆(LSTM)循环神经网络的输入,全连接网络以上层的输出为输入,通过误差反向传播的方式进行训练。步骤四、将多个连续时刻的步骤三中卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据。本步骤中,所述双向长短时记忆循环神经网络包含两个隐含层,如图2所示,每个隐含层都包含前向长短时记忆循环神经网络和后向长短时记忆循环神经网络组成的双向长短时记忆循环神经网络,对词语的前后上下文特征进行建模。本步骤中,所述双向长短时记忆循环神经网络根据步骤三中卷积神经网络的输出作为输入,分别计算每个输入词语属于某个命名实体类别标志的概率,以最大概率所属的类别作为词语最后的类别标志。本步骤中,双向长短时记忆(LSTM)循环神经网络利用了前后词语的特征、中间词特征、命名实体特征,LSTM循环神经网络网络是对传统RNN(RecurrentNeuralNetwork)的改进,通过引入单元状态来保留一定时间的记忆信息,避免了求导时梯度消失的问题,LSTM网络包括一个输入层、两个隐含层和一个softmax层,通过BPTT(BackpropagationThroughTime)的方法进行学习,实现网络误差反向传播及权重更新,具体组成部分如下:输入层包括多个单元,每个单元的输入为上层卷积网络的输出,一定长度的输出组成LSTM网络的输入;隐含层接受上层输入,每个隐含层由指定数量的LSTM单元组成,每个单元由输入门、遗忘门、输出门和自连接组成,具体结构如图4所示,可以用如下公式描述:i=sigmoid(xtUi+st-1Wi+bi)f=sigmoid(xtUf+st-1Wf+bf)o=sigmoid(xtUo+st-1Wo+bo)g=tanT(xtUg+st-1Wg+bg)其中i、f、o分别表示输入门、遗忘门、输出门的输出,t表示t时刻,t-1表示上一时刻,bi、bf、bo、bg表示相应的偏置向量,ɡ、s分别表示输入激活函数的输出和输出激活函数的输出,c为单元最后的记忆状态,U、W表示相应的权值矩阵。其中遗忘门控制了单元从过去的“记忆”中需要保留或丢弃的信息,输出越接近于1表示保留的相关信息越多,即控制文本的上下文对当前词语的影响,输入门控制了获得新的输入后,单元需要保留的信息,输出门控制了信息有多少程度上是对外可见的。每个隐含层包括从前往后传递的LSTM循环神经网络和从后往前传递的LSTM循环神经网络,同一个隐含层的不同传递方向的神经单元不直接连接。倒数第二层为单层全连接层,最后一层为softmax分类器,根据输出的最大概率值来判断相应的每个词语的命名实体标注。本方法的标注采用经典的BIO模型进行标注,将命名实体分为两类,即食材(用F表示)、病症(用D表示),其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分,例如针对句子“你描述的问题是因为胃热的症状”,相应标记如表3所示:你描述的问题是因为胃热的症状OOOOOOOOOB-DI-DOOO表3以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1