一种基于BERT和依存句法联合实体及关系抽取方法与流程

文档序号:34705303发布日期:2023-07-07 10:40阅读:44来源:国知局
一种基于BERT和依存句法联合实体及关系抽取方法与流程

本发明涉及一种基于bert和依存句法联合实体及关系抽取方法,属于自然语言处理领域。


背景技术:

1、实体抽取也叫命名实体识别,是指在非结构化的自然语言文本中提取命名实体,并将其分类到提前预定好的类别中。关系抽取旨在提取实体之间存在的语义关系,如实体“成都”和实体“四川”它们的关系是“省会”。

2、传统的实体抽取技术都是基于“基于词典”或“有监督”的方法,所构建的知识图谱将无法适应新问题领域中的新词汇。例如,当构建一个冠状病毒的知识图谱时,它不能用预先建立的字典或数据集来构建,也不能频发的更新构建好的知识图谱。

3、基于神经网络的无监督流水线(pipeline)学习模型,也会有误差传递和实体冗余的问题。误差传递,即如果实体识别不准确,则后面的实体关系识别也会受到相应的影响。实体冗余,即在实体识别阶段,产生不存在任何关系的实体,在关系识别阶段,模型检索实体就会增加模型的计算量,大大降低模型的效率。这种方法对关系重叠和复杂关系的情况处理也不够准确,因此也需要改进。


技术实现思路

1、本发明提出一种基于bert和依存句法联合实体及关系抽取方法。本发明的目的在于解决误差传递和实体冗余的问题,更加准确、更加高效地识别特定领域实体,以及实体之间的关系,生成医疗领域三元组以供构建医疗领域知识图谱,从而构建医疗领域的知识图谱。

2、本发明技术方案如下:

3、首先构建句子的依存句法图。依存句法可以准确的表示两个实体之间的关系,且可以理解句子实体之间的关键信息,从而解决关系重叠和复杂关系等类似问题。

4、然后基于biobert进行模型嵌入,得到词嵌入、词性嵌入、依存关系嵌入和实体标签嵌入。词嵌入层采用biobert,biobert是在继承通用bert参数权重的基础上,在生物医药领域语料(包括pubmed摘要和pmc全文)上继续预训练。

5、接着利用bilstm作为序列编码器,结合crf完成实体识别。bilstm是由前向lstm和后向lstm组成的双向网络,能够更好地捕获双向语义信息。在bilstm之后添加crf层,可以计算相邻标签之间的依赖信息,进一步提高标签预测准确率。

6、最后利用依存句法树和bi-treelstm模型获取两个实体之间的关系。为了实现参数共享,本层将进行独立embedding,利用依存句法树构造treelstm,然后利用bi-treelstm获取两个实体存在的关系。

7、本发明的有益效果为:本发明可以很好地解决误差传递和实体冗余的问题,更加准确、更加高效地识别特定领域实体,以及实体之间的关系,生成医疗领域三元组以供构建医疗领域知识图谱,从而构建医疗领域的知识图谱。

8、附图和附表说明

9、图1为本发明的算法整体框图;

10、图2为依存句法图示例;

11、图3为bert嵌入层示意图;

12、图4为treelstm结构单元;

13、



技术特征:

1.一种基于bert和依存句法联合实体及关系抽取方法,该方法包括以下步骤:

2.如权利要求1所属方法,其特征在于,步骤2和步骤3提出一种基于预训练模型的医疗领域实体抽取算法biobert+bilstm+crf。选择biobert模型作为词向量获取的特征表示层,使得在后面的bilstm层更加关注医疗领域的词语。bilstm是由前向lstm和后向lstm组成的双向网络,能够更好地捕获双向语义信息。将词嵌入层后的输出,作为双向长短时间记忆网络bilstm的输入。在双向长短时间记忆网络bilstm之后添加crf层,可以计算相邻标签之间的依赖信息,进一步提高标签预测准确率。

3.如权利要求1所属方法,其特征在于,步骤4提出一种利用依存句法树和bi-treelstm模型获取两个实体之间关系的方法。为了实现参数共享,本层将进行独立embedding,利用依存句法树构造treelstm,然后利用bi-treelstm获取两个实体存在的关系。模型的输入就是该层与实体识别层对应时刻的隐藏状态、依存关系嵌入和实体标签嵌入。treelstm与标准lstm的不同点使得treelstm可以获得多个子节点的隐藏信息,而不仅仅是上个时刻的隐藏信息,其相同类型的子节点共享矩阵的参数,同时允许可变数量的子节点。


技术总结
本发明提出了一种基于BERT和依存句法联合实体及关系抽取方法,所述方法包括以下步骤:构建句子的依存句法图;基于BioBERT进行模型嵌入,得到词嵌入、词性嵌入、依存关系嵌入和实体标签嵌入;利用BiLSTM作为序列编码器,结合CRF完成实体识别;利用依存句法树和Bi‑TreeLSTM模型获取两个实体之间的关系。本发明旨在解决误差传递和实体冗余的问题,更加准确、更加高效地识别特定领域实体,以及实体之间的关系,生成医疗领域三元组以供构建医疗领域知识图谱,从而构建医疗领域的知识图谱。

技术研发人员:周焕来,李嘉豪,唐小龙,许文波,贾海涛,李金润,谭志昊,张博阳
受保护的技术使用者:成都量子矩阵科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1