一种融合词汇边界及语义信息的实体识别及关系抽取方法

文档序号:33713592发布日期:2023-04-01 02:18阅读:来源:国知局

技术特征:
1.一种融合词汇边界及语义信息的实体识别及关系抽取方法,其特征在于,包括以下步骤:步骤一、构建预处理语言模型的样本输入及标签;步骤二、将样本输入预训练bert模型,通过bert模型输出最后一层的特征向量;步骤三、构建实体识别任务的任务特征向量由句子最大池化后的特征、预测片段边界词元特征、及样本末尾拼接的边界特征进行拼接得到,特征向量送入ner分类器得到分类结果并计算损失步骤四、构建关系抽取任务相关的任务特征向量由句向量、待预测主体片段的边界特征、待预测的客体片段的边界特征特征进行拼接得到,送入re分类器得到分类结果并计算损失步骤五、将损失与损失按照系数相加得到总损失步骤六、联合实体识别以及关系抽取的结果,得出三元组。2.根据权利要求1所述的融合词汇边界及语义信息的实体识别及关系抽取方法,其特征在于,步骤一具体包括:步骤11、将文本语句进行分词,分词后的文本语句添加[cls]符号得到序列{[cls],t1,t2,t3,t
i
...,t
n
};其中,t
i
表示为文本语句经过分词后得到的词元token;步骤12、文本语句结尾组合m个待预测片段表示为{[cls];t1,t2,t3,...,t
n
;s1,s1,...,s1;s1,s2,s3,...,s
m
};其中,{s1,s1,...,s1}表示添加的待预测片段的首位置信息,{s1,s2,s3,...,s
m
}表示添加的待预测片段的尾位置信息,直到遍历所有的片段位置信息s1~s
n
,添加的待预测片段的位置信息与文本中对应的词元共享位置信息,一共得到z条拼接的待预测片段;步骤13、构造实体标签及关系标签,实体标签由实体边界信息以及实体类型标签信息组成,关系标签包括主客实体对的边界信息以及关系类型标签组成。3.根据权利要求2所述的融合词汇边界及语义信息的实体识别及关系抽取方法,其特征在于,z条拼接的待预测片段的计算公式为:其中,l表示待预测片段的长度,n表示分词后的文本语句中共包含n个词元。4.根据权利要求1所述的融合词汇边界及语义信息的实体识别及关系抽取方法,其特征在于,步骤二中特征向量包含词向量和句向量。5.根据权利要求1所述的融合词汇边界及语义信息的实体识别及关系抽取方法,其特征在于,步骤三具体包括:步骤31、将词向量特征信息进行最大池化得到h
m
,计算公式为:h
m
=maxpooling(h1,h2,...,h
n
);步骤32、对部分特征向量进行拼接得到任务特征计算公式为:
其中,cat表示concatenate操作,h
i
表示预测实体片段的首位置信息特征,h
j
表示预测实体片段的尾位置信息特征,表示为样本末尾添加的待预测片段的首位置信息特征,表示为样本末尾添加的待预测片段的尾位置信息特征,通过组合一次识别m个候选片段;步骤33、将送入ner分类器,得到实体类型为k的预测结果公式为:其中,w
e
,b
e
表示为实体抽取和关系抽取的任务模型的可训练参数,k表示为实体的类型,ε表示为实体类型集合;步骤34、计算ner部分的交叉熵损失公式为:其中,n表示样本数量,y
ij
表示是否为当前类别。6.根据权利要求1所述的融合词汇边界及语义信息的实体识别及关系抽取方法,其特征在于,步骤四具体包括:步骤41、对部分特征向量进行拼接得到任务特征公式为:其中,cat表示为concatenate操作,h0表示为预训练语言模型输出的[cls]句特征向量;表示为主体片段a的首位置特征,表示为主体片段a的尾位置特征,表示为候选客体片段的首位置特征,表示为候选客体片段的尾位置特征;步骤s42、将送入re分类器,得到主体片段a与客体片段b之间的关系类型为l的预测结果公式为:其中,w
r
,b
r
表示为模型可训练的参数,l表示为关系的类型,表示为关系类型的集合;步骤43、计算re部分的交叉熵损失公式为:其中,n表示样本数量,y
ab
表示是否为当前类别。7.根据权利要求1所述的融合词汇边界及语义信息的实体识别及关系抽取方法,其特征在于,步骤五中总损失的公式为:其中,α,β为动态权重。

技术总结
本发明涉及自然语言处理技术领域,尤其涉及一种融合词汇边界及语义信息的实体识别及关系抽取方法,包括构建预处理语言模型的样本输入及标签;通过BERT模型输出最后一层的特征向量;构建实体识别任务的任务特征向量,并计算损失;构建关系抽取任务相关的任务特征向量计算损失;将两种损失按照系数相加得到总损失;联合实体识别以及关系抽取的结果,得出最后的三元组。本发明解决深度学习方法存在误差积累、实体冗余,交互缺失的问题;以及解决现有嵌套实体基于片段排列的方式显示的提取所有可能的片段排列的问题。可能的片段排列的问题。可能的片段排列的问题。


技术研发人员:周奂月 徐守坤 袁扬 石林 张华君 庄佳
受保护的技术使用者:常州大学
技术研发日:2022.11.17
技术公布日:2023/3/31
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1