一种基于实体链接与关系抽取的行业知识库系统及方法与流程

文档序号:36271945发布日期:2023-12-06 19:46阅读:54来源:国知局

本技术涉及知识库构建,特别涉及一种基于实体链接与关系抽取的行业知识库系统及方法。


背景技术:

1、随着互联网技术的发展,各行各业积累了大量文本、图像、音频等非结构化数据。这些非结构化数据中蕴含了丰富的知识,但是缺乏有效的组织和管理。为了系统地组织、管理和应用这些知识,知识图谱技术应运而生。知识图谱通过实体抽取、概念抽取、关系抽取等技术,构建领域知识体系,实现知识的表达、组织和应用。但是,在复杂的行业背景下,现有知识图谱技术在实体链接、关系抽取等方面仍存在准确率不高的问题,无法满足构建高质量行业知识图谱的需求。

2、在行业知识图谱构建过程中,实体链接是一项关键技术,它对知识图谱的质量具有重要影响。但是,复杂的行业语境使得仅依靠词向量等单一特征的实体链接方法,其准确率较低。同时,依存句法分析是关系抽取的重要手段,但仅使用依存句法信息,也无法完全解决关系提取的歧义问题。

3、在相关技术中,比如中国专利文献cn114417004a中提供了一种知识图谱和事理图谱的融合方法,包括:对文本语料库进行事件抽取、事件关系抽取,事件相似度计算、事件泛化过程形成事理逻辑知识库;构建上下位概念体系和本体形成抽象知识图谱;利用实体识别将事理逻辑知识库中具象事件实体词与上下位概念体系中下位词进行匹配泛化成上位概念,并利用可视化工具构建事理图谱;通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的知识图谱中,实现知识图谱与事理图谱的深度融合,形成新融合图谱。但是该方案仅依靠字符串匹配的实体链接方法,忽略了实体的语义信息,导致同义词、近义词无法有效匹配,因此该方案的实体链接准确率有待进一步提高。


技术实现思路

1、1.要解决的技术问题

2、针对现有技术中存在的实体链接准确率低问题,本技术提供了一种基于实体链接与关系抽取的行业知识库系统及方法,通过实体的多模态特征表达、知识图谱的关联约束等,提高了知识库构建过程中实体链接准确率。

3、2.技术方案

4、本技术的目的通过以下技术方案实现。

5、本说明书实施例的一个方面提供一种基于实体链接与关系抽取的行业知识库系统,包括:实体识别模块,采用基于迁移学习的实体识别模型,对输入文本进行实体识别,得到文本中包含的实体;多模态信息融合模块,采用深度学习模型对包含文本特征、图像特征和音频特征的多模态信息进行特征提取和融合,输出实体的融合多模态特征至实体链接模块;实体链接模块,将识别出的实体和获取的融合多模态特征作为输入,采用基于字符串匹配和词向量匹配的方法,从知识库中为每个输入实体生成候选实体,并使用基于知识图谱的联合推断模型,选择与上下文信息最匹配的候选实体进行链接,得到链接后的实体;关系抽取模块,以包含链接后的实体的文本作为输入,采用基于依存句法分析和语义角色标注的方法,从输入文本中提取出链接后的实体之间的关系;知识图谱构建模块,以链接后的实体和抽取出的实体关系作为输入,构建行业领域知识图谱。

6、进一步地,实体识别模块包括:词性标注单元,采用卷积神经网络的文本特征提取模型,对输入文本进行特征提取,获取输入文本中的词性特征;第一实体识别单元,输入获取的词性特征,采用包含n1个神经元的双向lstm层和条件随机场输出层的条件随机场模型,识别出输入文本中已命名实体类别的第一实体,已命名实体类别包含人名、地名和组织机构名;第二实体识别单元,输入获取的词性特征,加载bert语言表示模型训练的文本编码器参数,通过回归模型校准编码器参数,在编码器输出端添加包含n2个神经元的全连接层作为输出层,识别出输入文本中未命名实体类别的第二实体;其中,双向lstm层通过正向和反向获取输入文本的上下文特征;条件随机场输出层将双向lstm层获取的上下文特征作为输入,利用状态转移特征函数和状态特征函数,在最大化条件概率的条件下,使用viterbi算法获取最优的实体标注序列,以识别命名实体的边界和类别。

7、进一步地,实体链接模块包括:候选实体生成单元,接收识别出的实体和多模态特征表示,通过n-gram级别的jaccard相似算法计算实体文本的相似度,并通过基于注意力机制的词向量匹配模型计算实体语义的相似度,从知识库中搜索出多个文本相似和语义相似的候选实体;排序单元,构建包含节点和有向边的实体关系图,节点表示实体关系图中的实体,有向边表示两个实体间的关系,将识别出的实体及其候选实体作为节点加入实体关系图中;建立多层图卷积网络模型学习实体的向量表示;将实体的向量表示输入page rank算法迭代计算实体的重要度分数;根据实体的重要度分数对候选实体列表进行排序;链接单元,通过设定重要度分数阈值的方法选择排序最前面的候选实体,作为识别实体的链接结果。

8、进一步地,建立多层图卷积网络模型学习实体的向量表示包括:构建m1层图卷积网络,m1为正整数,m1的取值范围为2至5,其中第i层包含多个节点,节点表示实体关系图中的实体;图卷积网络的输入层节点表示为对应实体的onehot编码;在第i层,为每个节点计算特征向量,通过对节点在第i+1层和第i-1层的相邻节点特征向量进行加权求和聚合计算得到;在图卷积网络的训练过程中,通过传播关系约束信息,学习节点的低维特征向量表达,低维特征向量的维度d1为正整数,d1的取值范围为10至100;在相邻节点特征向量的加权求和中,利用基于节点的入度数量进行归一化的注意力机制作为边权重;经过m1层图卷积网络训练后,输出网络中每个节点的d1维低维特征向量作为对应实体的向量表示。

9、进一步地,n-gram级别为2-gram或3-gram。

10、进一步地,关系抽取模块包括:预处理单元,对包含已链接实体的文本进行分词和词性标注的预处理;依存句法分析单元,通过转化为特征依存图的方法构建预处理后的文本的依存句法树;依存路径确定单元,通过找到依存句法树中两个实体节点间最短路径的方法获取依存句法树中每个实体对间的最短依存路径,得到依存关系;语义角色标注单元,利用基于双向lstm-crf结构的神经网络模型对预处理后的文本进行语义角色标注,获取每个实体的语义角色标签;关系抽取单元,构建基于多层自注意力机制的神经网络分类模型,输入每个实体对的依存关系和语义角色标签,输出每个实体对相应的语义关系类别。

11、进一步地,语义角色标注单元包括:输入子单元,用于接收经过预处理的文本数据,并将预处理后文本数据中的每个词转换成固定维度的词向量,作为输入层的输入;双向lstm子单元,包含前向lstm子单元和后向lstm子单元,前向和后向lstm子单元的隐藏层节点数相等,均为d2,用于分别对输入层中的词向量序列进行前向和后向遍历,并输出文本序列的前后上下文语义特征;条件随机场子单元,连接到双向lstm子单元的输出层,用于接收双向lstm输出的文本特征,并依据特征对输入文本进行语义角色标注,输出语义角色标注结果;人工标注子单元,用于提供人工标注的文本语义角色标注结果,作为训练数据;损失函数子单元,连接到条件随机场子单元的输出层和人工标注子单元,用于计算条件随机场子单元输出的预测语义角色标注结果和人工标注子单元提供的文本语义角色标注结果之间的负对数似然损失;正则化子单元,连接到损失函数子单元,用于向损失函数中添加l2正则化项,以防止神经网络模型过拟合。

12、进一步地,多模态信息融合模块包括:文本特征获取单元,用于接收文本数据,利用预训练的bert模型对文本数据进行编码,获取文本的语义特征表示;图像特征获取单元,用于接收图像数据,利用预训练的resnet模型对图像数据进行卷积操作,获取图像的视觉特征表示;音频特征获取单元,用于接收音频数据,利用预训练的resnet模型对音频数据进行编码,获取音频的音频特征表示;多模态特征融合单元,分别连接文本特征获取单元、图像特征获取单元、音频特征获取单元,用于收集各模态的特征表示,并输入到多层感知机中,学习不同模态特征之间的关联,得到融合多模态特征;输出接口,连接多模态特征融合单元,用于输出融合多模态特征,以供实体链接模块使用。

13、进一步地,多模态特征融合单元包括:输入子单元,用于输入获取的包含语义特征、视觉特征和音频特征的多模态特征;多模态注意力子单元,通过计算不同模态特征的注意力权重,并进行加权求和,获取加权特征;交互建模子单元,采用多线性张量分解模型,分解多模态特征的张量表示,获取交互特征;拼接子单元,将加权特征和交互特征按照预定维度进行拼接,形成融合多模态特征;多层感知机子单元,包含输入层、隐藏层和输出层,隐藏层基于反向传播调节权重及非线性激活函数,学习特征的非线性关联;

14、输出子单元,输出经过多层感知机学习后的融合多模态特征。

15、本说明书实施例的另一个方面还提供一种基于实体链接与关系抽取的行业知识库构建方法,包括:实体识别步骤,采用条件随机场模型识别命名实体,并采用基于bert的模型识别未命名实体;多模态信息融合步骤,通过深度学习模型提取并融合文本、图像、音频多模态特征;实体链接步骤,利用字符串匹配、词向量匹配从知识库生成候选实体,并通过知识图谱模型进行链接;关系抽取步骤,基于依存句法分析和语义角色标注的神经网络模型抽取实体关系;知识图谱构建步骤,以链接后的实体和抽取的关系为输入,构建知识图谱;其中,实体链接步骤中的候选实体排序采用多层图卷积网络模型学习实体表示;关系抽取步骤中的语义角色标注采用注意力机制增强的双向lstm模型;多模态信息融合步骤采用含注意力机制和张量分解的多模态特征融合方法。

16、3.有益效果

17、相比于现有技术,本技术的优点在于:

18、(1)实体识别模块采用了迁移学习和多任务学习相结合的方法,迁移学习部分加载bert等预训练语言模型以提高对新出现实体的识别能力,多任务学习部分同时进行命名实体识别和未登录词识别,扩大了实体识别的范围,提高了实体识别召回率,进而提高了实体链接的准确率;

19、(2)实体链接模块通过构建知识图谱并学习实体的向量表示,增加了实体之间的关联性建模,使得可以根据关联关系对候选实体进行更准确的排序,相比直接通过字符串匹配结果进行排序,提高了实体链接的准确率;

20、(3)关系抽取模块采用依存句法分析获取句法路径特征和语义角色标注获取语义特征的方式进行关系分类,相比单独使用句法或语义方法,句法结构表示和语义角色标注的有机结合,使关系表达更加完整,提高了关系分类的f1值,从而提高了实体链接的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1