本发明涉及信息处理,特别涉及一种财税数据关系抽取方法、装置、设备及存储介质。
背景技术:
1、目前常用的关系抽取算法可分为两大类,第一类为基于文本序列的抽取算法,主要通过将文本输入序列模型中来对文本特征进行建模,并通过注意力机制提取出分类特征,但这类方法难以处理实体长依赖问题,即当文本中实体间距离较远时,实体间的噪声信息会对关系抽取产生不利影响。第二类为基于文本语法的抽取算法,该类方法将文本语法树转化为邻接矩阵,并在序列模型上叠加图卷积网络来引入文本的语法信息,以解决实体长依赖问题。然而,目前常用的方法大多面向通用领域的关系抽取,同时广泛使用的序列模型,如bert(bidirectional encoder representation from transformers,一种预训练的语言表征模型)、roberta(一种预训练的语言表征模型)等也均是在通用领域数据上预训练得到,这些方法由于缺乏财税领域知识,在处理财税数据关系抽取问题时,尤其是在区分语义接近的关系类型时存在较大局限性。
2、由此可见,如何在处理财税数据关系抽取时,更有效区分语义接近的关系类型是本领域要解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种财税数据关系抽取方法、装置、设备及存储介质,考虑文本头尾实体的类型,再进一步训练分类器,可以提高对相近语义关系的区分能力。其具体方案如下:
2、第一方面,本申请提供了一种财税数据关系抽取方法,包括:
3、获取待训练文本集中的当前文本样例;所述待训练文本集为与财税数据相关的文本集;
4、基于头尾实体的类型从所述待训练文本集中确定出与所述当前文本样例对应的正样例和负样例;
5、利用预设文本编码器分别对所述当前文本样例、所述正样例和所述负样例进行编码,以得到第一向量、第二向量和第三向量;
6、根据所述第一向量,并利用所述第二向量和所述第三向量对初始分类器进行训练,以得到目标分类器,以便利用所述目标分类器对相关财税数据进行关系抽取操作。
7、可选的,所述获取待训练文本集中的当前文本样例之前,还包括:
8、利用预设语言表征模型对应的头实体标签和尾实体标签对所述待训练文本集进行处理,得到处理后文本集,以便获取所述处理后文本集中的当前文本样例。
9、可选的,所述利用预设文本编码器分别对所述当前文本样例、所述正样例和所述负样例进行编码,以得到第一向量、第二向量和第三向量,包括:
10、利用所述预设语言表征模型对所述当前文本样例、所述正样例和所述负样例进行编码,以得到第一向量、第二向量和第三向量。
11、可选的,所述基于头尾实体的类型从所述待训练文本集中确定出与所述当前文本样例对应的正样例和负样例,包括:
12、根据预设类型关系表确定所述当前文本样例的头尾实体对应的类型范围;所述预设类型关系表为基于文本的语义关系和头尾实体的类型构建的关系表;
13、基于所述类型范围从所述待训练文本集确定出与所述当前文本样例对应的正样例和负样例。
14、可选的,所述基于所述类型范围从所述待训练文本集确定出与所述当前文本样例对应的正样例和负样例,包括:
15、根据所述类型范围从所述待训练文本集确定出与所述当前文本样例对应的初始样例集;
16、根据预设正样例采样函数从所述初始样例集中确定与所述当前文本样例对应的正样例;
17、根据预设负样例采样函数从所述初始样例集中确定与所述当前文本样例对应的负样例。
18、可选的,所述根据所述第一向量,并利用所述第二向量和所述第三向量对初始分类器进行训练,以得到目标分类器,包括:
19、基于对比学习技术,利用所述第一向量、所述第二向量和所述第三向量对所述初始分类器进行训练,并利用预设对比损失函数计算训练后分类器的对比损失;
20、将所述对比损失最小时对应的训练后分类器确定为目标分类器。
21、可选的,所述利用预设对比损失函数计算训练后分类器的对比损失,包括:
22、利用预设对比损失函数,并根据所述当前文本样例的头尾实体对应的目标类型计算当前训练轮次的训练后分类器的对比损失。
23、第二方面,本申请提供了一种财税数据关系抽取装置,包括:
24、第一样例获取模块,用于获取待训练文本集中的当前文本样例;所述待训练文本集为与财税数据相关的文本集;
25、第二样例获取模块,用于基于头尾实体的类型从所述待训练文本集中确定出与所述当前文本样例对应的正样例和负样例;
26、样例编码模块,用于利用预设文本编码器分别对所述当前文本样例、所述正样例和所述负样例进行编码,以得到第一向量、第二向量和第三向量;
27、分类器训练模块,用于根据所述第一向量,并利用所述第二向量和所述第三向量对初始分类器进行训练,以得到目标分类器,以便利用所述目标分类器对相关财税数据进行关系抽取操作。
28、第三方面,本申请提供了一种电子设备,包括:
29、存储器,用于保存计算机程序;
30、处理器,用于执行所述计算机程序以实现如上述的财税数据关系抽取方法。
31、第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如上述的财税数据关系抽取方法。
32、由此可见,本申请中,先获取待训练文本集中的当前文本样例;所述待训练文本集为与财税数据相关的文本集;然后基于头尾实体的类型从所述待训练文本集中确定出与所述当前文本样例对应的正样例和负样例;再利用预设文本编码器分别对所述当前文本样例、所述正样例和所述负样例进行编码,以得到第一向量、第二向量和第三向量;之后根据所述第一向量,并利用所述第二向量和所述第三向量对初始分类器进行训练,以得到目标分类器,以便利用所述目标分类器对相关财税数据进行关系抽取操作。这样一来,本申请可以基于头尾实体的类型筛选正负样本,之后再训练出目标分类器;这样相较于随机负采样策略,能够采样出更难区分的负样本,从而提升分类器的训练效果;这样训练得到的分类器针对财税数据,提高了相近语义关系的区分能力。
1.一种财税数据关系抽取方法,其特征在于,包括:
2.根据权利要求1所述的财税数据关系抽取方法,其特征在于,所述获取待训练文本集中的当前文本样例之前,还包括:
3.根据权利要求2所述的财税数据关系抽取方法,其特征在于,所述利用预设文本编码器分别对所述当前文本样例、所述正样例和所述负样例进行编码,以得到第一向量、第二向量和第三向量,包括:
4.根据权利要求1所述的财税数据关系抽取方法,其特征在于,所述基于头尾实体的类型从所述待训练文本集中确定出与所述当前文本样例对应的正样例和负样例,包括:
5.根据权利要求4所述的财税数据关系抽取方法,其特征在于,所述基于所述类型范围从所述待训练文本集确定出与所述当前文本样例对应的正样例和负样例,包括:
6.根据权利要求1至5任一项所述的财税数据关系抽取方法,其特征在于,所述根据所述第一向量,并利用所述第二向量和所述第三向量对初始分类器进行训练,以得到目标分类器,包括:
7.根据权利要求6所述的财税数据关系抽取方法,其特征在于,所述利用预设对比损失函数计算训练后分类器的对比损失,包括:
8.一种财税数据关系抽取装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的财税数据关系抽取方法。