本发明涉及文本数据处理领域,具体是用于生物数学实体抽取的双通道神经网络及特征识别方法。
背景技术:
1、实体抽取(entity extraction, ee)是自然语言处理技术中的关键任务,旨在抽取出具有特殊意义的事物。最初的实体抽取是面向通识领域,抽取对象包括人物名称、地点名称、机构名称、时间等标注性内容。伴随着研究的推进,实体范围逐渐转向特定领域,抽取对象也更专注于专业术语。
2、近年来,随着智能制造在生物医药行业的发展,生物医药产品在生产与管理中涉及数理统计、数值计算、仿真模拟等,对这些数学语言、数学方法的应用需要智能的获取和实体抽取,是实现生物医药制造的智能计算与智能管控的重要基础。当前,大部分实体抽取模型都是利用单神经网络进行特征提取,而不同神经网络对特征的提取能力存在差异,导致无法正确抽取出特征不明显的实体。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供用于生物数学实体抽取的双通道神经网络及特征识别方法,包括如下步骤:
2、步骤一,获取生物数学文本,采用bio标注方法对获取的生物数学文本进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集;
3、步骤二,采用pytorch word embedding将词嵌入存储在的词典中,建立每个字与向量之间的映射关系,得到生物数学文本序列所对应的词向量;
4、步骤三,使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码,得到生物数学文本序列中的字符特征向量和;
5、步骤四,采用权重分配方式将特征学习层获取的特征向量进行组合,得到融合特征向量;
6、步骤五,采用条件随机场模型对融合特征向量进行解码处理,得到融合特征向量中每字符对应所有标签的概率,然后通过维特比算法求解最大概率,获取每个字符的预测标签,实现数学命名实体抽取。
7、进一步的,所述的获取生物数学文本,采用bio标注方法对获取的生物数学文本进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集,包括:
8、步骤s1:从生产实际应用或网络资源库中获取生物数学知识,形成原始文本数据;
9、步骤s2:对获取的原始数据进行清洗、筛选和整理,仅保留关于数学知识的中文文本信息;
10、步骤s3:将生物数学实体划分为普通实体和基本实体,将具有相同性质的普通实体归属于同一个基本实体类别;
11、步骤s4:将所有的标注完成的生物数学文本数据按照设定的划分比例,划分为训练集、测试集和验证集,其中训练集用于拟合双通道特征学习模型;验证集用于调整模型的超参数和对模型的泛化能力进行初步评估;测试集用来评估模型最终的泛化能力。
12、进一步的,所述的采用pytorch word embedding将词嵌入存储在的词典中,建立每个字与向量之间的映射关系,得到生物数学文本序列所对应的词向量,包括:
13、训练集中的每个句子以字为基本单位采用换行符进行分词,分词后得到序列
14、表示,作为双通道特征模型的输入;
15、采用pytorch word embedding方法,对一个句子序列中所有出现的字符建立字典表,对输入序列中每个字查询字典表中对应的位置索引号,其中;
16、再建立映射得到该句子序列的词向量。
17、进一步的,所述的使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码,得到生物数学文本序列中的字符特征向量和,包括:
18、建立idcnn特征学习模型,初始化参数,包括word embedding层数、字典表d的大小、每个句子序列对应的位置检索号、滤波器,设置滤波器的大小为3,初始学习率为0.0005;
19、计算四个膨胀宽度为1,1,2的三层卷积块的输出,采用如下公式:
20、
21、利用concat拼接方式获得idcnn最终输出的特征向量,采用如下公式:
22、
23、其中表示大小为的滤波器;为膨胀因子,为激活该神经元的阈值,为每个字符的词向量表示,为词向量中的分量,表示其中一个字的向量xt;
24、建立bilstm特征学习模型,初始化参数,包括word embedding层数、bilstm隐层数、实体类别标签词典大小、字符字典表的大小,设置学习率为0.01,定义前向和后向lstm神经单元的输出,采用如下公式:
25、
26、
27、
28、
29、
30、
31、再采用concat的拼接方式获得bilstm最终的输出特征矩阵
32、;
33、其中分别表示遗忘门、输入门、记忆单元和输出门;表示遗忘门、输入门、隐藏层单元和输出门的输入连接权值矩阵和反馈连接权值矩阵; b表示遗忘门、输入门、隐藏层单元和输出门的阈值;表示激活函数。
34、进一步的,所述的采用条件随机场模型对融合特征向量进行解码处理,得到融合特征向量中每字符对应所有标签的概率,然后通过维特比算法求解最大概率,获取每个字符的预测标签,实现数学命名实体抽取,包括:
35、采用条件随机场模型进行序列标注,根据对序列的标注结果引入特殊的起点和终点状态标注和,定义每条标注路径的得分为上一时刻标签到该时刻标签的转移分数与该时刻对应标签的状态分数的和,采用如下公式:
36、
37、其中表示到的转移得分,表示第个字符标注为得分;
38、定义序列中每个字符的条件概率为,表示真实路径在所有可能出现路径中出现的概率,采用如下公式:
39、
40、定义损失函数为负对数似然函数,采用如下公式:
41、
42、通过不断迭代优化,使损失函数达到极小值,此时真实路径在所有可能路径中出现的概率最大,得到模型的参数;通过维特比解码,预测出所有可能标签序列中概率最大的标签序列:
43、。
44、本发明的有益效果是:本发明结合了多种神经网络的特征提取优势,增强了模型的特征提取能力,从而提高了生物数学实体抽取的精准率。
1.用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,所述的获取生物数学文本,采用bio标注方法对获取的生物数学文本进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集,包括:
3.根据权利要求2所述的用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,所述的采用pytorch word embedding将词嵌入存储在的词典中,建立每个字与向量之间的映射关系,得到生物数学文本序列所对应的词向量,包括:
4.根据权利要求3所述的用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,所述的使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码,得到生物数学文本序列中的字符特征向量和,包括:
5.根据权利要求4所述的用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,所述的采用条件随机场模型对融合特征向量进行解码处理,得到融合特征向量 中每字符对应所有标签的概率,然后通过维特比算法求解最大概率,获取每个字符的预测标签,实现数学命名实体抽取,包括: