一种基于深度学习的在线中医文本命名实体识别方法与流程

文档序号:11919284阅读:来源:国知局

技术特征:

1.一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:所述方法包括以下步骤:

1)通过网络爬虫获取在线中医文本数据,对在线中医文本数据进行包含编码转换、无关信息去除的预处理操作,再利用已有的专业词典及人工辅助对获取的在线中医文本数据中的命名实体进行标注;

2)利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;

3)将步骤1)中标注过的在线中医文本数据进行分词,对于每个句子,通过查找步骤2)的词汇表,将词语转化为固定长度词向量,将固定长度词向量转化为向量矩阵作为卷积神经网络的输入,其中,当句子长度不足时以空白符填充;

4)将多个连续时刻的步骤3)中卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据。

2.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤1)中,所述对获取的在线中医文本数据中的命名实体进行标注采用的是BIO标注集,即标注集中包含{B,I,O},其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分。

3.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤2)中,所述语料数据的收集通过互联网进行,利用word2vec训练得到的词向量每一维代表了特定的词语特征,可选维度为100、200、500。

4.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤3)中,所述卷积神经网络的卷积层包含多种大小的卷积核,通过词语的上下文信息自动提取文本特征,卷积层后接随时间最大池化层对多个局部卷积特征进行下采样操作。

5.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤3)中,所述卷积神经网络在训练时采用均值为0及方差为2/n的高斯分布进行初始化,采用随机梯度下降进行迭代求解。

6.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤4)中,所述双向长短时记忆循环神经网络包含两个隐含层,每个隐含层都包含前向长短时记忆循环神经网络和后向长短时记忆循环神经网络组成的双向长短时记忆循环神经网络,对词语的前后上下文特征进行建模。

7.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤4)中,所述双向长短时记忆循环神经网络根据步骤3)中卷积神经网络的输出作为输入,分别计算每个输入词语属于某个命名实体类别标志的概率,以最大概率所属的类别作为词语最后的类别标志。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1