基于超图神经网络的生物医学事件触发词提取方法与系统

文档序号:32625825发布日期:2022-12-20 23:47阅读:107来源:国知局
基于超图神经网络的生物医学事件触发词提取方法与系统

1.本发明属于自然语言处理、生物医学领域,特别涉及一种基于超图神经网络的生物医学事件触发词提取方法与系统。


背景技术:

2.随着互联网技术的飞速发展,全球信息数据展现爆发增长、海量集聚的特点。网络承载的数据呈现出爆炸式增长的态势,表现为数据种类多种多样、结构复杂、规模庞大。这使得人们在面对庞大的数据规模时往往会惘然若失,混入其中的有作用的知识往往和其指数级规模的噪音交杂在一起,无法有效的从数据中提取出来,人工提取和分析数据会因为这如汪洋一般的数据规模无的放矢。这时,自动化的从海量的数据中提取知识的信息抽取技术应运而生。信息抽取是利用计算机从文本、音频、视频、图像等数据中自动抽取结构化信息的过程。事件抽取是信息抽取领域的一个重要研究方向,同时也是该领域最具挑战性的一个课题。
3.同时,生物医学领域相关数据也呈猛烈增长的趋势,各种生物医学知识包括生物医学文献、医学病历等需要被应用于科学家们的研究和开发,这就使得如何从海量的非结构化生物医学数据中获取相关有益知识以便研究人员使用成为一大难题。生物医学触发词抽取是事件抽取的子任务,是信息抽取中涵盖信息最丰富且抽取难度最大的任务,其旨在抽取细粒度的生物实体之间的多元语义关系,并以结构化形式将事件的详细信息进行展示,对药物研发和疾病防治等具有重大意义。
4.生物医学触发词检测在应对一些病理特征明显、传染性高的疾病时更能体现其作用和价值。可有效地帮助科研工作者抽取有关事件信息用于研究,也能帮助医疗工作人员从病例中快速的读取相关、类似病例的症状和治疗措施。这不仅大大减轻了他们的负担,也可以用于知识的收集和分类。


技术实现要素:

5.发明目的:本发明的目的在于提供一种能够有效进行生物医学触发词提取的方法与系统,创新性的使用超图结构聚合每条句子中的上下文信息,以提高生物医学文本中触发词提取的准确性。
6.技术方案:为实现上述发明目的,本发明采用的技术方案为:一种基于超图神经网络的生物医学事件触发词提取方法,所述方法包括以下步骤:
7.步骤1,对生物医学数据集的进行预处理,包括分句、分词和标注,获得有标注的结构化训练集和无标注的测试集;
8.步骤2,使用分词工具获得句子中的token,并通过预训练的bio-bert模型获得每个token的词向量,然后通过平均池化将token连接为单词,得到句子中每个单词的特征表示;
9.步骤3,以窗口大小为超参数,基于滑动窗口的方法,构建每个句子的超图结构;
10.步骤4,通过超图卷积神经网络聚合句子中每个单词的语义特征,基于训练集对超图卷积神经网络模型参数以及超参数进行训练调优;
11.步骤5,利用步骤4中训练好的深度学习模型,在未标注的测试集上进行测试,识别生物医学事件触发词。
12.进一步地,步骤1中生物医学数据集预处理的具体过程包括:
13.步骤1-1,将生物医学数据集划分为训练集和测试集;
14.步骤1-2,将非结构化的生物医学数据集进行分句处理,得到数量为n的句子序列s={s1,s2,

,si,

,sn},其中si表示第i个句子序列;
15.步骤1-3,将句子si通过分词,得到单词序列为si={w1,w2,

,wj,

,wm},其中m为句子的长度,wj表示单词序列中的第j个单词;
16.步骤1-4,借助bio三元标注法设置类别集合为l={l1,l2,l3},其中l1表示触发词的开头位置、l2表示触发词的中间位置、l3表示不属于触发词类型;
17.步骤1-5,对句子si进行标注,得到该句子对应的标签序列yi={y1,y2,

,yj,

,ym},其中yj表示句子中第j个单词的标签且yj∈l,并最终得到训练集的标签序列y={y1,y2,

,yi,

,yn}。
18.进一步地,步骤2中得到句子中每个单词的特征表示的具体过程包括:
19.步骤2-1,使用bio-bert模型自带的tokenization分词工具进行对第i个单词序列进行分词,将长单词和生物医学的专有名词拆分为多个token,则得到的token序列为ti={t1,t2,

,tk},其中k为句子中token的个数且k≥m;
20.步骤2-2,将token序列输入进预训练的bio-bert模型,随后将模型12个decoder层的最后四层输出平均池化作为最终的输出
21.步骤2-3,将步骤2-1中经过分词的单词的token的特征向量通过平均池化的方法得到单词的特征表示,最终得到句子的特征向量xi={x1,x2,

,xj,

,xm},所有句子的特征向量x={x1,x2,

,xi,

,xn},xj表示句子中第j个单词的特征表示。
22.进一步地,步骤3中对于每个句子构建超图具体过程包括
23.步骤3-1,以每个单词为顶点构建顶点集合为v={w1,w2,

,wm};
24.步骤3-2,采用滑动窗口的方法,窗口大小为超参数,初始设置为3,则得到超边的集合为e={(w1,w2,w3),(w2,w3,w4),

,(w
m-2
,w
m-1
,wm)};
25.步骤3-3,第i个句子构建的超图gi={(v,e)|v=(w1,w2,

,wm),e={(w1,w2,w3),(w2,w3,w4),

,(w
m-2
,w
m-1
,wm)}}。
26.进一步地,步骤4中语义特征聚合具体过程包括:
27.步骤4-1,将所有句子超图集合g,所有句子特征向量x,句子数量n,所有句子标签序列y作为超图卷积神经网络(hgcn,hypergraph convolutional network)的输入;
28.步骤4-2,使用两层的hgcn卷积聚合领域的语义信息,其输出为单词得分,公式如下:
[0029][0030]
其中,xi是第i个句子的特征向量,θ1和θ2是权重矩阵,relu是非线性激活函数,a是第i个句子的超图gi的邻接矩阵,i是单位矩阵,是a的度矩
阵,softmax函数定义为其中xi是模型经过一层hgcn后的输出的第i个单词的特征向量,xj是第j个单词的特征向量;
[0031]
步骤4-3,模型训练,采用梯度下降算法,最小化损失函数,不断优化模型中的参数,损失函数定义如下:
[0032][0033]
其中,v
t
是训练集,z
ij
是模型对第i个单词的第j个标签的预测标签,y
ij
是符号函数,当第i个单词的标签为j时取1,否则为0。
[0034]
步骤4-4,根据模型的结果调整超参数,即滑动窗口的大小并开启新一轮的实验,以找到超参数的最优解。
[0035]
基于相同的发明构思,本发明提供一种基于超图神经网络的生物医学事件触发词提取系统,包括:
[0036]
预处理模块,用于对生物医学数据集进行分句、分词和标注,获得有标注的结构化训练集和无标注的测试集;
[0037]
单词特征表示模块,用于使用分词工具获得句子中的token,并通过预训练的bio-bert模型获得每个token的词向量,然后通过平均池化将token连接为单词,得到句子中每个单词的特征表示;
[0038]
超图构建模块,用于以窗口大小为超参数,基于滑动窗口的方法,构建每个句子的超图结构;
[0039]
语义特征聚合模块,用于通过超图卷积神经网络聚合句子中每个单词的语义特征,基于训练集对超图卷积神经网络模型参数以及超参数进行训练调优;
[0040]
触发词检测模块,用于利用训练好的深度学习模型,在未标注的测试集上进行测试,识别生物医学事件触发词。
[0041]
进一步地,所述预处理模块中,借助bio三元标注法设置类别集合为l={l1,l2,l3},其中l1表示触发词的开头位置、l2表示触发词的中间位置、l3表示不属于触发词类型;对句子中的所有单词进行标注,得到句子对应的标签序列。
[0042]
进一步地,所述超图构建模块中,以每个单词为顶点构建顶点集合,采用滑动窗口的方法,以窗口大小为超参数,一个滑动窗口中包含的单词构成一个超边。
[0043]
基于相同的发明构思,本发明提供一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于超图神经网络的生物医学事件触发词提取方法。
[0044]
有益效果:本发明提供的基于超图神经网络的生物医学事件触发词提取方法,首先将生物医学的非结构化文本进行嵌入,获得每句话中每个单词的特征向量,然后使用滑动窗口的方式将每句话构建为一个超图,随后将得到的超图和单词的特征表示输入到超图卷积神经网络,最终通过模型的输出进行触发词检测。与现有技术相比,其显著优点为:1)本发明提出更加新颖的以超图的新式构建语义关系图,而不同于以往的使用双向lstm模型来聚合语义关系;2)本发明使用配合句子生成超图的超图卷积神经网络,通过超边共现的
次数生成权重矩阵,并以此来聚合节点与节点之间的信息;3)本发明的结果验证了使用滑动窗口构建超图并进行生物医学触发词检测的有效性,并且模型简单,训练时空开销小。4)本发明不同于传统的基于规则和机器学习的触发词检测方法,实现了一种可训练的神经网络模型,避免了人工设计各种词法、句法等规则和手工提取语言学特征,简化了触发词检测的实施。
附图说明
[0045]
图1为本发明实施例的流程示意图。
具体实施方式
[0046]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0047]
结合图1本发明实施例一的流程示意图,本发明提出了一种基于超图神经网络的生物医学事件触发词提取方法,包括以下步骤:
[0048]
步骤1,生物医学数据集的预处理,获得有标注的结构化训练集和无标注的测试集;
[0049]
步骤2,得到句子中每个单词的特征表示,使用分词工具获得句子中的token,并通过预训练的bio-bert模型获得每个token的词向量,然后通过平均池化将token连接为单词;
[0050]
步骤3,构建超图,对应每个句子生成相应的超图结构;
[0051]
步骤4,语义特征聚合,通过超图卷积神经网络聚合句子中每个单词的语义特征,基于训练集对超图卷积神经网络模型参数以及超参数进行训练调优;
[0052]
步骤5,触发词检测,利用步骤4中训练好的深度学习模型,在未标注的测试集上进行测试,识别生物医学事件触发词。
[0053]
具体地,步骤1中生物医学数据集的预处理,具体过程包括:
[0054]
步骤1-1,将生物医学数据集划分为训练集和测试集;
[0055]
步骤1-2,将非结构化的生物医学数据集进行分句处理,得到数量为n的句子序列s={s1,s2,

,si,

,sn},其中si表示第i个句子序列;
[0056]
步骤1-3,将句子si通过分词,得到单词序列为si={w1,w2,

,wj,

,wm},其中m为句子的长度,wj表示单词序列中的第j个单词;
[0057]
步骤1-4,借助bio三元标注法设置类别集合为l={l1,l2,l3},其中l1表示触发词的开头位置、l2表示触发词的中间位置、l3表示不属于触发词类型;
[0058]
步骤1-5,对句子si进行标注,得到该句子对应的标签序列yi={y1,y2,

,yj,

,ym},其中yj表示句子中第j个单词的标签且yj∈l,并最终得到训练集的标签序列y={y1,y2,

,yi,

,yn}。
[0059]
采用本实施例的方案,我们使用mlee生物医学数据集。mlee数据集包含训练集和
测试集,其中训练集共有1736个句子,而测试集包含882个句子。mlee数据集是生物医学事件提取领域常用的数据集,可以对方法的性能进行充分的测试。
[0060]
具体地,步骤2中得到句子中每个单词的特征表示,具体过程包括:
[0061]
步骤2-1,使用bio-bert模型自带的tokenization分词工具进行对第i个单词序列进行分词,将长单词和生物医学的专有名词拆分为多个token,则得到的token序列为ti={t1,t2,

,tk},其中k为句子中token的个数且k≥m;
[0062]
步骤2-2,将token序列输入进预训练的bio-bert模型,随后将模型12个decoder层的最后四层输出h8,h9,h
10
,h
11
平均池化作为最终的输出,公式如下:
[0063]
h=bert(ti)={h0,h1,

,h
11
}
[0064][0065]
步骤2-3,将步骤2-1中经过分词的单词的token的特征向量通过平均池化的方法得到单词的特征表示,最终得到维度为m*768的句子的特征向量xi={x1,x2,

,xj,

,xm},并得到所有句子的特征向量x={x1,x2,

,xi,

,xn},xj表示句子中第j个单词的特征表示。
[0066]
具体地,步骤3中每个句子构建超图具体过程包括
[0067]
步骤3-1,以每个单词为顶点构建顶点集合为v={w1,w2,

,wm};
[0068]
步骤3-2,采用滑动窗口的方法,窗口大小为超参数,初始设置为3(后续训练可以取值3、4、5等),则得到超边的集合为:
[0069]
e={(w1,w2,w3),(w2,w3,w4),

,(w
m-2
,w
m-1
,wm)};
[0070]
步骤3-3,第i个句子构建超图得:
[0071]gi
={(v,e)|v=(w1,w2,

,wm),e={(w1,w2,w3),(w2,w3,w4),

,(w
m-2
,w
m-1
,wm)}}。
[0072]
具体地,步骤4中语义特征聚合,具体过程包括:
[0073]
步骤4-1,将g,x,n,y作为输入初始化超图卷积神经网络(hypergraph convolutional network),其中g是句子超图形成的集合;
[0074]
步骤4-2,使用两层的hgcn卷积聚合领域的语义信息,其输出为单词得分,公式如下:
[0075][0076]
其中,xi是第i个句子的特征向量,θ1和θ2是权重矩阵,relu是非线性激活函数,a是第i个句子的超图gi的邻接矩阵,i是单位矩阵,是a的度矩阵,softmax函数定义为其中xi是模型经过一层hgcn后的输出的第i个单词的特征向量,xj是第j个单词的特征向量;
[0077]
步骤4-3,模型训练,采用梯度下降算法,最小化损失函数,不断优化模型中的参数,损失函数定义如下:
[0078][0079]
其中v
t
是训练集,z
ij
是模型对第i个单词的第j个标签的预测标签,y
ij
是符号函数,
当第i个单词的标签为j时取1,否则为0。
[0080]
步骤4-4,根据模型的结果调整超参数,即滑动窗口的大小并开启新一轮的实验,以找到超参数的最优解。
[0081]
采用本实施例的方案,超图卷积神经网络的层数为2,单词嵌入的维度为768,训练采用“早停”策略避免过拟合。模型学习率为0.01,权重衰减为0.0005。
[0082]
实验结果表明在窗口大小为28时,模型得到最优解。此时模型的召回率r、准确率p分别为79.82%和77.94%,得到的f1-score为78.87%。
[0083]
方法prf1-scorebilstm76.26%72.27%74.21%本方法79.82%77.94%78.87%
[0084]
表1方法结果对照表
[0085]
上述提出了基于超图神经网络的生物医学事件触发词提取方法。在该方法中,创新性地提出了使用滑动窗口超图并在超图上卷积聚合语义信息,从而来替代传统的使用双向lstm模型的方法。该模型在mlee数据集上验证了生物医学触发词提取的准确性,证明了所提出的基于滑动窗口生成超图聚合的生物医学文本的触发词提取问题上具有一定的优势。
[0086]
基于相同的发明构思,本发明实施例提供一种基于超图神经网络的生物医学事件触发词提取系统,包括:预处理模块,用于对生物医学数据集进行分句、分词和标注,获得有标注的结构化训练集和无标注的测试集;单词特征表示模块,用于使用分词工具获得句子中的token,并通过预训练的bio-bert模型获得每个token的词向量,然后通过平均池化将token连接为单词,得到句子中每个单词的特征表示;超图构建模块,用于以窗口大小为超参数,基于滑动窗口的方法,构建每个句子的超图结构;语义特征聚合模块,用于通过超图卷积神经网络聚合句子中每个单词的语义特征,基于训练集对超图卷积神经网络模型参数以及超参数进行训练调优;触发词检测模块,用于利用训练好的深度学习模型,在未标注的测试集上进行测试,识别生物医学事件触发词。
[0087]
上述描述的各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述模块的划分仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统。
[0088]
基于相同的发明构思,本发明提供一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于超图神经网络的生物医学事件触发词提取方法。
[0089]
本领域技术人员可以理解的是,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例所述方法的全部或部分步骤。存储介质包括:u盘、移动硬盘、只读存储器rom、随机存取存储器ram、磁碟或者光盘等各种可以存储计算机程序的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1