基于对比学习的文档关系抽取方法及其相关设备与流程

文档序号:29048666发布日期:2022-02-25 23:04阅读:209来源:国知局
基于对比学习的文档关系抽取方法及其相关设备与流程

1.本技术涉及人工智能技术领域,尤其涉及基于对比学习的文档关系抽取方法及其相关设备。


背景技术:

2.关系抽取是自然语言处理领域的重要分支,其目的在于分析出文本中不同实体之间蕴含的关系,例如“中国的首都是北京”这句话中蕴含的关系有:《x:北京,y:中国,x是y的首都》。又例如“王小明的父亲王大明出生在上海”这句话中蕴含的关系更多,有:《x:王大明,y:王小明,x是y的父亲》、《x:王大明,y:上海,x的出生地是y》。
3.目前,关系抽取采用的技术思路主要都属于有监督学习范畴。通过标注训练语料,形成句子-关系标签对,再利用各种机器学习算法,训练分类算法;当模型训练结束后,在推理阶段再输入新句子,识别其蕴含的关系。但这需要花费大量精力对语料进行标注,在很多场景下限制了算法的落地。近年来学者提出了基于弱监督学习识别句子中关系的思路,其主要思想是认为若两个实体内蕴含某种关系,而这两个实体又同时出现在某个句子中,则可以在一定程度认为该句子中蕴含了这种关系。但这种方法抽取的实体-关系对置信度太低,对抽取出的可能关系仍然要花费大量精力去人工筛选。


技术实现要素:

4.本技术实施例的目的在于提出一种基于对比学习的文档关系抽取方法、装置、计算机设备及存储介质,在减少样本标注的同时,提高关系抽取的准确性。
5.为了解决上述技术问题,本技术实施例提供一种基于对比学习的文档关系抽取方法,采用了如下所述的技术方案:
6.一种基于对比学习的文档关系抽取方法,包括下述步骤:
7.接收语料文档集合,基于所述语料文档集合生成实体集合,并基于预设知识库确定所述实体集合的非知识库实体,其中,所述知识库包括知识库实体;
8.将所述非知识库实体和所述知识库实体分别输入至预训练的向量生成模型中,分别获得非知识库实体表征向量和知识库实体表征向量;
9.根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体;
10.基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签,若存在,则获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合,若不存在,则将对应的句子作为负样本语料,基于所述负样本语料生成句子关系负样本集合;
11.基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器;
12.接收待分类句子,将待分类句子输入至目标特征编码器,获得输出的表征向量,将
表征向量输入至预训练的关系分类器,获得关系分类。
13.进一步的,所述基于所述语料文档集合生成实体集合的步骤包括:
14.对所述语料文档集合中的语料文档进行分词操作,获得分词集合;
15.对所述分词集合进行实体识别操作,获得所述实体集合。
16.进一步的,所述根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体的步骤包括:
17.基于所述非知识库实体表征向量和所述知识库实体表征向量计算所述非知识库实体和所述知识库实体的余弦相似度;
18.将最大的所述余弦相似度对应的知识库的实体作为所述非知识库实体的替代实体。
19.进一步的,所述基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签的步骤包括:
20.确定所述实体集合中处于同一句子的任意两个实体是否存在非知识库实体;
21.若是,则将所述非知识库实体的替代实体作为节点实体;
22.若否,则将所述实体集合中处于同一句子的任意两个实体作为节点实体;
23.确定在所述知识库中所述两个节点实体是否具有连接关系;
24.若两个节点实体具有连接关系,则存在所述关系标签。
25.进一步的,所述获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合的步骤包括:
26.确定在所述知识库中两个所述节点实体是否直接相连;
27.若是,则将连接两个所述节点实体的实体关系作为所述关系标签;
28.若否,则将从所述一个节点实体出发至所述另一个节点实体,所经过的最后一个实体关系作为所述关系标签;
29.将所述关系标签放置在对应的所述正样本语料的句尾,并添加预设分割函数,生成所述句子关系正样本集合。
30.进一步的,所述基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器的步骤包括:
31.所述句子关系正样本集合和所述句子关系负样本集合组成句子关系样本集合,基于预设比例关系,将句子关系样本集合划分为训练集和验证集;
32.通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器收敛,获得中间特征编码器;
33.通过所述验证集微调所述中间特征编码器,直至所述中间特征编码器收敛,获得所述目标特征编码器。
34.进一步的,所述通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器收敛,获得中间特征编码器的步骤包括:
35.通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器的损失函数达到预设条件,确定所述初始特征编码器收敛,获得所述中间特征编码器,其中,所述损失函数的计算公式如下:
36.其中,所述表示所述初始特征编码器输出的所述句子关系正样本集合的正样本的表征向量,所述表示所述初始特征编码器输出的所述句子关系负样本集合的负样本的表征向量,sim表示计算余弦相似度,r为超参数。
37.为了解决上述技术问题,本技术实施例还提供一种基于对比学习的文档关系抽取装置,采用了如下所述的技术方案:
38.一种基于对比学习的文档关系抽取装置,包括:
39.接收模块,用于接收语料文档集合,基于所述语料文档集合生成实体集合,并基于预设知识库确定所述实体集合的非知识库实体,其中,所述知识库包括知识库实体;
40.输入模块,用于将所述非知识库实体和所述知识库实体分别输入至预训练的向量生成模型中,分别获得非知识库实体表征向量和知识库实体表征向量;
41.确定模块,用于根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体;
42.生成模块,用于基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签,若存在,则获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合,若不存在,则将对应的句子作为负样本语料,基于所述负样本语料生成句子关系负样本集合;
43.训练模块,用于基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器;
44.分类模块,用于接收待分类句子,将待分类句子输入至目标特征编码器,获得输出的表征向量,将表征向量输入至预训练的关系分类器,获得关系分类。
45.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
46.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的基于对比学习的文档关系抽取方法的步骤。
47.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
48.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的基于对比学习的文档关系抽取方法的步骤。
49.与现有技术相比,本技术实施例主要有以下有益效果:
50.通过接收的语料文档集合生成实体集合,进而根据知识库确定该实体集合中的非知识库实体。通过非知识库实体表征向量和知识库实体表征向量确定出非知识库实体的替代实体,便于后续的从知识库中查找关系标签。在实体集合中处于同一句子的实体之间存在关系标签时,则将对应的句子作为正样本语料,并生成句子关系正样本集合。在实体集合
中处于同一句子的实体之间不存在关系标签时,则将对应的句子作为负样本语料,生成句子关系负样本集合。实现基于句子关系正样本集合和句子关系负样本集合训练初始特征编码器,实现初始特征编码器对正负样本的表征向量的对比学习,通过对比学习初始特征编码器能够更快的区分正负样本,无需大量的训练样本,有效减少了在样本标注任务上的任务量。同时,也使得后续关系抽取任务更准确。
附图说明
51.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
52.图1是本技术可以应用于其中的示例性系统架构图;
53.图2是根据本技术的基于对比学习的文档关系抽取方法的一个实施例的流程图;
54.图3是根据本技术的基于对比学习的文档关系抽取装置的一个实施例的结构示意图;
55.图4是根据本技术的计算机设备的一个实施例的结构示意图。
56.附图标记:100、系统架构;101-103、终端设备;104、网络;105、服务器;200、计算机设备;201、存储器;202、处理器;203、网络接口;300、基于对比学习的文档关系抽取装置;301、接收模块;302、输入模块;303、确定模块;304、生成模块;305、训练模块;306、分类模块。
具体实施方式
57.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
58.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
59.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
60.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
61.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
62.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
63.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
64.需要说明的是,本技术实施例所提供的基于对比学习的文档关系抽取方法一般由服务器/终端设备执行,相应地,基于对比学习的文档关系抽取装置一般设置于服务器/终端设备中。
65.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
66.继续参考图2,示出了根据本技术的基于对比学习的文档关系抽取方法的一个实施例的流程图。所述的基于对比学习的文档关系抽取方法,包括以下步骤:
67.s1:接收语料文档集合,基于所述语料文档集合生成实体集合,并基于预设知识库确定所述实体集合的非知识库实体,其中,所述知识库包括知识库实体。
68.在本实施例中,接收用于训练的语料文档集合d_s。选取知识库g,实践中可选择知网、freebase等主流知识库。若在知识库g中不存在实体集合的某个实体,则确定其为非知识库实体。
69.在本实施例中,基于对比学习的文档关系抽取方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收语料文档集合。需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
70.具体的,在步骤s1中,即所述基于所述语料文档集合生成实体集合的步骤包括:
71.对所述语料文档集合中的语料文档进行分词操作,获得分词集合;
72.对所述分词集合进行实体识别操作,获得所述实体集合。
73.在本实施例中,对语料文档集合d_s中的语料文档进行分词操作,得到由语料文档的所有词构成的分词集合。再利用命名实体识别技术识别分词集合中的实体,获得实体集合。由于分词和命名实体识别技术在本领域有较多算法可供选择,本发明不限定具体方案。
74.s2:将所述非知识库实体和所述知识库实体分别输入至预训练的向量生成模型中,分别获得非知识库实体表征向量和知识库实体表征向量。
75.在本实施例中,将知识库中已有的实体和实体集合中的非知识库实体输入到预训练向量生成模型,即预训练的语言模型:bert中。从该模型的输出层得到知识库的实体的表征向量和非知识库实体的表征向量,分别为知识库实体表征向量和非知识库实体表征向量。
76.s3:根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体。
77.在本实施例中,根据非知识库实体表征向量和知识库实体表征向量确定出非知识
库实体的替代实体,用于后续在知识库中进行关系标签查询。
78.具体的,在步骤s3中,即所述根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体的步骤包括:
79.基于所述非知识库实体表征向量和所述知识库实体表征向量计算所述非知识库实体和所述知识库实体的余弦相似度;
80.将最大的所述余弦相似度对应的知识库的实体作为所述非知识库实体的替代实体。
81.在本实施例中,计算知识库已有的实体和分词集合中非知识库实体的余弦相似度,找到知识库中已有的实体与非知识库实体相似度最高的实体,作为后续关系查找过程中的替代实体。
82.s4:基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签,若存在,则获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合,若不存在,则将对应的句子作为负样本语料,基于所述负样本语料生成句子关系负样本集合。
83.在本实施例中,关系标签为上述预置的有限数量关系的知识库中存在的关系。将分词集合中处于同一句子的实体,输入到知识库中查询,检查是否存在给定的关系标签。在实体关系查找结束后,若某个句子中存在所述给定的关系标签,则将该句子视为正样本语料;若不存在给定的关系,则将该句子视为负样本语料。基于正样本语料和其对应的关系标签生成正样本,所有的正样本组成了句子关系正样本集合。而句子关系负样本集合是基于负样本语料生成的,具体的过程包括:先从所述句子关系正样本集合中选取一定比例的正样本,去掉这些正样本的关系标签,获得待处理正样本;再从关系标签集合中随机选取关系标签,将随机选取的关系标签添加在所述待处理正样本的句尾,生成第一负样本,其中,关系标签集合由知识库中所有的关系标签所组成。而对于负样本语料,同样从所述关系标签集合中随机选取关系标签,作为负样本语料的标签,在负样本语料的句尾同样添加该负样本语料的标签,生成第二负样本。所有的第一负样本和第二负样本则组成所述句子关系负样本集合。
84.具体的,在步骤s4中,即所述基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签的步骤包括:
85.确定所述实体集合中处于同一句子的任意两个实体是否存在非知识库实体;
86.若是,则将所述非知识库实体的替代实体作为节点实体;
87.若否,则将所述实体集合中处于同一句子的任意两个实体作为节点实体;
88.确定在所述知识库中所述两个节点实体是否具有连接关系;
89.若两个节点实体具有连接关系,则存在所述关系标签。
90.在本实施例中,若否,则确定不存在关系标签。通过判断实体集合中处于同一句子的任意两个实体是否存在非知识库实体。若是,则需要将对应的替代实体作为节点实体,才能实现够在知识库中进行查找。在所述知识库中所述两个节点实体具有边相连时,则确定具有连接关系。
91.进一步的,在步骤s4中,即所述获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合的步骤包括:
92.确定在所述知识库中两个所述节点实体是否直接相连;
93.若是,则将连接两个所述节点实体的实体关系作为所述关系标签;
94.若否,则将从所述一个节点实体出发至所述另一个节点实体,所经过的最后一个实体关系作为所述关系标签;
95.将所述关系标签放置在对应的所述正样本语料的句尾,并添加预设分割函数,生成所述句子关系正样本集合。
96.在本实施例中,将分词集合中处于同一句子的实体,输入到知识库中查询,检查是否存在给定的关系标签;具体分为两种情形。1、若某两个实体有直接边相连接,则存在直接边对应的关系标签;2、若两个实体无直接边相连接,但从某个实体的边出发,能最终到达另一个实体,同样视为存在关系,关系为最后一条边对应的关系标签。在正样本语料的句尾加上关系标签,形成句子+关系的句子关系正样本。例如:“中华人民共和国的首都是北京”这个句子,加上关系标签“首都”后形成的句子关系样本为:《start中华人民共和国的首都是北京sep首都end》,其中,start表示该样本的开头,sep是分割原始句子和关系标签的分隔符,end则表示该样本的结束。其中,start、sep以及sep则为所述分割函数,模型可识别所述分割函数,学习该句子关系正样本的知识。所有句子关系正样本构成句子关系正样本集合,实现构建用于对比学习的样本。
97.s5:基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器。
98.在本实施例中,基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,实现初始特征编码器的对比学习,获得表现较佳的目标特征编码器,以提高后续分类的准确性。对比学习主要思想是通过模型能够尽可能的缩小语义上更相似样本之间距离,拉大正负样本的距离,从而将正负样本区分开来。
99.具体的,在步骤s5中,即所述基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器的步骤包括:
100.所述句子关系正样本集合和所述句子关系负样本集合组成句子关系样本集合,基于预设比例关系,将所述句子关系样本集合划分为训练集和验证集;
101.通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器收敛,获得中间特征编码器;
102.通过所述验证集微调所述中间特征编码器,直至所述中间特征编码器收敛,获得所述目标特征编码器。
103.在本实施例中,将所述句子关系样本集合按照预设比例关系划分为训练集和验证集,训练集和验证集中均包含有部分句子关系正样本集合和部分所述句子关系负样本集合。实践中,该预设比例关系通常为训练集:验证集=8:2。将训练集中的样本输入到特征编码器,特征编码器可以是bert、albert、roberta等预训练语言模型。从验证集中选择样本,进行有监督学习,即微调(fine-tunning),在模型收敛后,得到目标特征编码器。
104.其中,所述通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器收敛,获得中间特征编码器的步骤包括:
105.通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器的损失函数达到预设条件,确定所述初始特征编码器收敛,获得所述中间特征编码器,其中,所述损失
函数的计算公式如下:
106.其中,所述表示所述初始特征编码器输出的所述句子关系正样本集合的正样本的表征向量,所述表示所述初始特征编码器输出的所述句子关系负样本集合的负样本的表征向量,sim表示计算余弦相似度,r为超参数。
107.在本实施例中,在损失函数趋于稳定时,确定损失函数达到预设条件。r为超参数,r通常取值为0-0.1之间的数字。通过此损失函数,获得表现更佳的模型。
108.此外,本技术还包括从验证集中抽取用于测试的正样本和负样本,分别作为正样本测试语料和负样本测试语料。所述通过所述验证集微调所述中间特征编码器,直至所述中间特征编码器收敛,获得所述目标特征编码器的步骤包括:通过所述验证集微调所述中间特征编码器,直至所述中间特征编码器收敛,获得待测试特征编码器,通过正样本测试语料和负样本测试语料测试所述待测试特征编码器,若测试通过,则获得目标特征编码器。若测试失败,则反馈给相关人员客户端,以通知相关人员进行调整。
109.需要说明的是:训练集是用于完成对模型参数的训练。验证集是用于对模型进行有监督微调,实质为进阶版的训练。测试集是用于确定训练好的模型的正确率,
110.s6:接收待分类句子,将待分类句子输入至目标特征编码器,获得输出的表征向量,将表征向量输入至预训练的关系分类器,获得关系分类。
111.在本实施例中,将待分类句子输入至目标特征编码器,获得较为准确的表征向量,将该表征向量输入关系分类器,获得准确的关系分类。只要有了表征向量,通过有监督学习训练过的关系分类器就能够进行分类,其中,本技术的关系分类器可以为传统机器学习模型或深度学习模型。
112.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
113.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
114.通过接收的语料文档集合生成实体集合,进而根据知识库确定该实体集合中的非知识库实体。通过非知识库实体表征向量和知识库实体表征向量确定出非知识库实体的替代实体,便于后续的从知识库中查找关系标签。在实体集合中处于同一句子的实体之间存在关系标签时,则将对应的句子作为正样本语料,并生成句子关系正样本集合。在实体集合中处于同一句子的实体之间不存在关系标签时,则将对应的句子作为负样本语料,生成句子关系负样本集合。实现基于句子关系正样本集合和句子关系负样本集合训练初始特征编码器,实现初始特征编码器对正负样本的表征向量的对比学习,通过对比学习初始特征编
码器能够更快的区分正负样本,无需大量的训练样本,有效减少了在样本标注任务上的任务量。同时,也使得后续关系抽取任务更准确。
115.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
116.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
117.进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种基于对比学习的文档关系抽取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
118.如图3所示,本实施例所述的基于对比学习的文档关系抽取装置300包括:接收模块301、输入模块302、确定模块303、生成模块304、训练模块305以及分类模块306。其中:所述接收模块301,用于接收语料文档集合,基于所述语料文档集合生成实体集合,并基于预设知识库确定所述实体集合的非知识库实体,其中,所述知识库包括知识库实体;所述输入模块302,用于将所述非知识库实体和所述知识库实体分别输入至预训练的向量生成模型中,分别获得非知识库实体表征向量和知识库实体表征向量;所述确定模块303,用于根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体;所述生成模块304,用于基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签,若存在,则获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合,若不存在,则将对应的句子作为负样本语料,基于所述负样本语料生成句子关系负样本集合;所述训练模块305,用于基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器;所述分类模块306,用于接收待分类句子,将待分类句子输入至目标特征编码器,获得输出的表征向量,将表征向量输入至预训练的关系分类器,获得关系分类。
119.在本实施例中,通过接收的语料文档集合生成实体集合,进而根据知识库确定该实体集合中的非知识库实体。通过非知识库实体表征向量和知识库实体表征向量确定出非知识库实体的替代实体,便于后续的从知识库中查找关系标签。在实体集合中处于同一句子的实体之间存在关系标签时,则将对应的句子作为正样本语料,并生成句子关系正样本集合。在实体集合中处于同一句子的实体之间不存在关系标签时,则将对应的句子作为负样本语料,生成句子关系负样本集合。实现基于句子关系正样本集合和句子关系负样本集合训练初始特征编码器,实现初始特征编码器对正负样本的表征向量的对比学习,通过对比学习初始特征编码器能够更快的区分正负样本,无需大量的训练样本,有效减少了在样
本标注任务上的任务量。同时,也使得后续关系抽取任务更准确。
120.所述接收模块301包括分词子模块和实体识别子模块,其中,分词子模块用于对所述语料文档集合中的语料文档进行分词操作,获得分词集合;所述实体识别子模块用于对所述分词集合进行实体识别操作,获得所述实体集合。
121.所述确定模块303包括计算子模块和替代实体确定子模块,其中,所述计算子模块用于基于所述非知识库实体表征向量和所述知识库实体表征向量计算所述非知识库实体和所述知识库实体的余弦相似度;所述替代实体确定子模块用于将最大的所述余弦相似度对应的知识库的实体作为所述非知识库实体的替代实体。
122.所述生成模块304包括第一判断子模块、第一实体节点确定子模块、第二实体节点确定子模块以及连接关系确定子模块,其中,所述第一判断子模块用于确定所述实体集合中处于同一句子的任意两个实体是否存在非知识库实体;所述第一实体节点确定子模块用于在所述实体集合中处于同一句子的任意两个实体存在非知识库实体时,将所述非知识库实体的替代实体作为节点实体;所述第二实体节点确定子模块用于在所述实体集合中处于同一句子的任意两个实体不存在非知识库实体时,将所述实体集合中处于同一句子的任意两个实体作为节点实体;所述连接关系确定子模块用于确定在所述知识库中所述两个节点实体是否具有连接关系,若两个节点实体具有连接关系,则存在所述关系标签。
123.所述生成模块304还包括第二判断子模块、第一关系标签确定子模块、第二关系标签确定子模块以及生成子模块,其中,第二判断子模块用于确定在所述知识库中两个所述节点实体是否直接相连;所述第一关系标签确定子模块用于在所述知识库中两个所述节点实体直接相连时,将连接两个所述节点实体的实体关系作为所述关系标签;所述第二关系标签确定子模块用于在所述知识库中两个所述节点实体不直接相连时,将从所述一个节点实体出发至所述另一个节点实体,所经过的最后一个实体关系作为所述关系标签;所述生成子模块用于将所述关系标签放置在对应的所述正样本语料的句尾,并添加预设分割函数,生成所述句子关系正样本集合。
124.训练模块305包括划分子模块、训练子模块和微调子模块,其中,所述划分子模块用于所述句子关系正样本集合和所述句子关系负样本集合组成句子关系样本集合,基于预设比例关系,将句子关系样本集合划分为训练集和验证集,其中,所述句子关系样本集合由所述句子关系正样本集合和所述句子关系负样本集合组成;所述训练子模块用于通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器收敛,获得中间特征编码器;所述微调子模块用于通过所述验证集微调所述中间特征编码器,直至所述中间特征编码器收敛,获得所述目标特征编码器。
125.在本实施例的一些可选的实现方式中,上述所述训练子模块进一步用于:通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器的损失函数达到预设条件,确定所述初始特征编码器收敛,获得所述中间特征编码器,其中,所述损失函数的计算公式如下:
126.其中,所述表示所述初始特征编码器输出的所述句子关系正样本集合的正样本的表征向量,所述表示所述初始特征编码器输出的所述句子关系负样本集合的负样本的表征向量,sim表示计算余弦相似度,r为超参数。
127.通过接收的语料文档集合生成实体集合,进而根据知识库确定该实体集合中的非知识库实体。通过非知识库实体表征向量和知识库实体表征向量确定出非知识库实体的替代实体,便于后续的从知识库中查找关系标签。在实体集合中处于同一句子的实体之间存在关系标签时,则将对应的句子作为正样本语料,并生成句子关系正样本集合。在实体集合中处于同一句子的实体之间不存在关系标签时,则将对应的句子作为负样本语料,生成句子关系负样本集合。实现基于句子关系正样本集合和句子关系负样本集合训练初始特征编码器,实现初始特征编码器对正负样本的表征向量的对比学习,通过对比学习初始特征编码器能够更快的区分正负样本,无需大量的训练样本,有效减少了在样本标注任务上的任务量。同时,也使得后续关系抽取任务更准确。
128.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
129.所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
130.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
131.所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于对比学习的文档关系抽取方法的计算机可
读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。
132.所述处理器202在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述基于对比学习的文档关系抽取方法的计算机可读指令。
133.所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
134.在本实施例中,基于句子关系正样本集合和句子关系负样本集合训练初始特征编码器,实现初始特征编码器对正负样本的表征向量的对比学习,通过对比学习初始特征编码器能够更快的区分正负样本,无需大量的训练样本,有效减少了在样本标注任务上的任务量。同时,也使得后续关系抽取任务更准确。
135.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于对比学习的文档关系抽取方法的步骤。
136.在本实施例中,基于句子关系正样本集合和句子关系负样本集合训练初始特征编码器,实现初始特征编码器对正负样本的表征向量的对比学习,通过对比学习初始特征编码器能够更快的区分正负样本,无需大量的训练样本,有效减少了在样本标注任务上的任务量。同时,也使得后续关系抽取任务更准确。
137.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
138.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1