本申请涉及自然语言处理领域,特别是涉及一种针对于实体及实体关系的联合抽取方法、装置及存储介质。
背景技术:
1、在自然语言处理任务中,实体识别及实体关系抽取是构建知识图谱的关键技术。知识图谱可以分为模式层和数据层两个层次。其中,模式层定义了知识图谱中存储的实体类型和实体关系类型,而数据层则存储着实际的知识信息,通常以三元组的形式构成。
2、由于模式层的构建首先要明确实体以及实体关系,因此在知识抽取阶段,需要根据模式层的要求,从相应的待处理文本信息中提取出非结构化数据和结构化数据。对于结构化数据,可以使用python自动化脚本来提取实体以及实体关系,而对于非结构化数据,现有的一般利用模型从非结构化数据中提取实体以及实体关系。
3、但是在识别待处理文本信息中的实体,并抽取实体之间的实体关系的过程中,由于基于crf层所生成的标签向量(与输入至模型中的待处理文本信息对应)之间较为独立,并没有考虑标签向量之间的语义关联性,从而基于模型所得到的实体关系不能很好地体现出实体之间的关联性,并且会影响语境、语义以及上下文关系的表征,进而会影响所构建的知识图谱的准确性。
4、针对上述的现有技术中存在的由于标签向量(与输入至模型中的待处理文本信息对应)之间较为独立,并没有考虑标签向量之间的语义关联性,从而基于模型所得到的实体关系不能很好地体现出实体之间的关联性,并且会影响语境、语义以及上下文关系的表征的技术问题,目前尚未提出有效的解决方案。
技术实现思路
1、本公开的实施例提供了一种针对于实体及实体关系的联合抽取方法,以至少解决现有技术中存在的由于标签向量(与输入至模型中的待处理文本信息对应)之间较为独立,并没有考虑标签向量之间的语义关联性,从而基于模型所得到的实体关系不能很好地体现出实体之间的关联性,并且会影响语境、语义以及上下文关系的表征的技术问题。
2、根据本公开实施例的一个方面,提供了一种针对于实体及实体关系的联合抽取方法,包括:确定待处理文本信息;基于待处理文本信息,确定分别与待处理文本信息中的各个词语对应的第一词向量;确定分别与各个第一词向量对应的第一标签向量,其中第一标签向量用于指示与各个词语对应的实体类型;基于各个第一标签向量,生成对应的第二标签向量,其中第二标签向量在第一标签向量的基础上,进一步包含第一标签向量之间的语义关联性;分别将第一词向量和对应的第二标签向量进行拼接,并生成多个拼接向量;以及基于多个拼接向量,确定待处理文本信息的实体之间的实体关系。
3、根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
4、根据本公开实施例的另一个方面,还提供了一种针对于实体及实体关系的联合抽取装置,包括:第一待处理文本信息确定模块,用于确定待处理文本信息;第一词向量确定模块,用于基于待处理文本信息,确定分别与待处理文本信息中的各个词语对应的第一词向量;第一标签向量确定模块,用于确定分别与各个第一词向量对应的第一标签向量,其中第一标签向量用于指示与各个词语对应的实体类型;第二标签向量生成模块,用于基于各个第一标签向量,生成对应的第二标签向量,其中第二标签向量在第一标签向量的基础上,进一步包含第一标签向量之间的语义关联性;拼接向量生成模块,用于分别将第一词向量和对应的第二标签向量进行拼接,并生成多个拼接向量;以及实体关系确定模块,用于基于多个拼接向量,确定待处理文本信息的实体之间的实体关系。
5、根据本公开实施例的另一个方面,还提供了一种针对于实体及实体关系的联合抽取装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:确定待处理文本信息;基于待处理文本信息,确定分别与待处理文本信息中的各个词语对应的第一词向量;确定分别与各个第一词向量对应的第一标签向量,其中第一标签向量用于指示与各个词语对应的实体类型;基于各个第一标签向量,生成对应的第二标签向量,其中第二标签向量在第一标签向量的基础上,进一步包含第一标签向量之间的语义关联性;分别将第一词向量和对应的第二标签向量进行拼接,并生成多个拼接向量;以及基于多个拼接向量,确定待处理文本信息的实体之间的实体关系。
6、在本申请所公开的技术方案中,首先基于第一词向量和第一crf层确定了第一标签向量。然后基于各个第一标签向量,以及第二bilstm层和第二crf层生成了对应的第二标签向量。从而由上述可知,第二标签向量在第一标签向量的基础上,进一步包含了第一标签向量之间的语义关联性。
7、从而与现有的仅基于较为独立的标签向量,直接确定实体之间的实体关系不同的是,本申请是基于具有较高语义关联性的第二标签向量,确定实体之间的实体关系。从而本公开的技术方案中所确定的实体关系能够更好地体现出各个实体之间的语义关联性,准确的表征与待处理文本信息对应的语境、语义以及上下文关系。
8、进而解决了现有技术中存在的由于标签向量(与输入至模型中的待处理文本信息对应)之间较为独立,并没有考虑标签向量之间的语义关联性,从而基于模型所得到的实体关系不能很好地体现出实体之间的关联性,并且会影响语境、语义以及上下文关系的表征的技术问题。
1.一种针对于实体及实体关系的联合抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述待处理文本信息,确定分别与所述待处理文本信息中的各个词语对应的第一词向量的操作,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述多个拼接向量,确定所述待处理文本信息的实体之间的实体关系的操作,包括:
4.根据权利要求3所述的方法,其特征在于,基于所述多个拼接向量,确定所述待处理文本信息的实体之间的实体关系概率值的操作,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述实体关系概率值以及预设阈值,确定所述待处理文本信息的实体之间的实体关系的操作,包括:
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至5中任意一项所述的方法。
7.一种针对于实体及实体关系的联合抽取装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,第一词向量确定模块,包括:
9.根据权利要求8所述的装置,其特征在于,实体关系确定模块,包括:
10.一种针对于实体及实体关系的联合抽取装置,其特征在于,包括: