基于文本特征的信息抽取方法、装置及电子设备与流程

文档序号:30621833发布日期:2022-07-02 03:34阅读:160来源:国知局
基于文本特征的信息抽取方法、装置及电子设备与流程

1.本发明涉及数据处理技术领域,尤其涉及一种基于文本特征的信息抽取方法、装置及电子设备。


背景技术:

2.文本信息抽取在深度学习领域是一个比较成熟的算法技术;它也成功在各种业务场景应用落地。传统的文本信息抽取模型主要是处理单一语言的文本信息抽取任务,效果很好。但是在金融领域,很多数据经常有多种语言混合的问题。比如在现券成交领域,常见的语料有“231587.ib 2.52 2000 tomorrow a证券to b证券”;在现券询价领域,常见的语料有“1221+0bid102018647主债rate:aa+/aa+”。可见混合语言数据在金融领域是非常常见的。但是现在的文本抽取模型对混合语言数据的语义理解能力很差,对混合语言的实体识别准确率并不高,因此提高混合语言的文本信息抽取能力是一个具有挑战性的任务。
3.传统的文本抽取模型是采用bert等预训练模型作为底层特征抽取模型,对文本信息进行语义抽取,并采用crf作为解码器,对每个词进行解码,判别出每个词的实体类别。或者采用softmax采用解码器,对每个词进行解码,判别出每个词的实体类别。
4.针对中文的文本信息抽取任务,使用传统的文本抽取模型bert+crf会存在实体边界出错的问题。因此针对该问题,研究者提出了graph4ner模型,其采用图神经网络去构建词语之间的关系矩阵,从而解决实体边界问题。除了graph4ner模型,还有研究者提出latticelstm模型,该模型在lstm中引入word信息,增加词的语义信息,进而解决实体边界问题。
5.ernie针对中文,更改了bert模型的mask机制,将mask的幅度从单个字修改为整个实体或者短语,从而解决了模型在文本抽取任务的边界问题,增强了模型对于边界的理解能力。但是上述所有模型的修改都是针对单一语言文本抽取任务的优化。在混合语言的任务,现有的模型还是一筹莫展,无法有效提高文本抽取任务的效果。
6.在金融领域,很多数据都是多种语言混合的。比如在金融现券成交领域,“231587.ib 2.52 2000 tomorrow a证券to b证券”,现有的bert+crf模型或者lstm+crf模型都很难针对混合语言进行有效的文本抽取,实体识别准确率都很低。
7.因此,现有技术还有待于改进和发展。


技术实现要素:

8.鉴于上述现有技术的不足,本发明提供了一种基于文本特征的信息抽取方法、装置及电子设备,旨在解决现有技术中的bert+crf模型或者lstm+crf模型都很难针对混合语言进行有效的文本抽取,实体识别准确率都很低的问题。
9.本发明的技术方案如下:
10.本发明第一实施例提供了一种基于文本特征的信息抽取方法,方法包括:
11.基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;
12.将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;
13.将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。
14.进一步地,所述基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征,包括:
15.基于bert模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量。
16.进一步地,所述基于bert模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量,包括:
17.获取信息文本中语言的种数,提取信息文本中每一种语言,生成单一语言对应的文本数据,所述文本数据数目与语言的种数相同;信息文本包括至少两种语言;
18.将每一种文本数据分别输入bert模型,生成对应的文本特征,所述文本特征为固定维度的字符向量或词向量。
19.进一步地,所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:
20.预先构建通用域特征抽取器,所述通用域特征抽取器包括采用lstm模型的学习器和采用mlp模型的语言判别器。
21.进一步地,所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:
22.预先构建私有域特征抽取器,所述预先构建通用域特征抽取器包括mlp模型。
23.进一步地,所述将通用域特征和私有域特征进行耦合,包括:
24.将通用域特征和私有域特征按照第一预定权重进行拼接,生成耦合结果。
25.进一步地,所述将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作,包括:
26.将耦合结果输入混合专家预测器的mp模型后,按照第二预定权重进行拼接,生成拼接好的特征向量;
27.将特征向量输入crf解码器进行解码,生成对应的信息标签,完成信息抽取操作。
28.本发明的另一实施例提供了一种基于文本特征的信息抽取装置,装置包括:
29.预训练编码模块,用于基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;
30.通用域特征和私有域特征抽取模块,用于将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;
31.解码模块,用于将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。
32.本发明的另一实施例提供了一种电子设备,所述电子设备包括至少一个处理器;以及,
33.与所述至少一个处理器通信连接的存储器;其中,
34.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于文本特征的信息抽取方法。
35.本发明的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于文本特征的信息抽取方法。
36.有益效果:本发明实施例通过通用域和私有域的丰富语义信息,结合crf进行解码,确保实体抽取任务的准确率,提高了金融信息的抽取效率。
附图说明
37.下面将结合附图及实施例对本发明作进一步说明,附图中:
38.图1为本发明一种基于文本特征的信息抽取方法较佳实施例的流程图;
39.图2为本发明一种基于文本特征的信息抽取方法较佳实施例的网络结构示意图;
40.图3为本发明一种基于文本特征的信息抽取方法较佳实施例的通用域特征抽取器的网络结构示意图;
41.图4为本发明一种基于文本特征的信息抽取方法较佳实施例的具体应用实施例的私有域特征抽取器的网络结构示意图;
42.图5为本发明一种基于文本特征的信息抽取方法较佳实施例的具体应用实施例的混合专家预测器的网络结构示意图;
43.图6为本发明一种基于文本特征的信息抽取装置的较佳实施例的功能模块示意图;
44.图7为本发明一种电子设备的较佳实施例的硬件结构示意图。
具体实施方式
45.为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
46.以下结合附图对本发明实施例进行介绍。
47.针对上述问题,本发明实施例提供了一种基于文本特征的信息抽取方法,请参阅图1,图1为本发明一种基于文本特征的信息抽取方法较佳实施例的流程图。如图1所示,其包括:
48.步骤s100、预训练编码模块,用于基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;
49.步骤s200、将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;
50.步骤s300、将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。
51.具体实施时,如图2所示为本发明实施例的模型架构示意图。首先基于已有的预训练模型,采用lstm模型和mlp模型设计了通用域特征抽取器和私有域特征抽取器,从而构建
了一套基于通用域文本特征强化私有域特征的金融信息抽取方法方案。针对任务层,本模型构建了一个基于混合专家语义解码器,利用了通用域和私有域的丰富语义信息,结合crf进行解码,确保实体抽取任务的准确率和召回率。
52.首先是一个bert系列的预训练模型,每次输入一种语言的文本数据,每种语言轮流输入到bert模型中。bert模型对文本数据提取后的embedding信息会分别流入通用域特征抽取器和私有域特征抽取器。共同特征抽取器是由lstm和mlp判别器组成。私有特征抽取器是由lstm和mlp专家网络组成。通用域特征抽取器和私有域特征抽取器的输出会进行耦合然后输入到混合专家预测器中进行解码,从而获得对应实体的标签;完成实体解码任务。
53.在一个实施例中,基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征,包括:
54.基于bert模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量。
55.具体实施时,本发明实施例采用(包括但不限于)bert等比较成熟的预训练模型,对文本进行预训练编码,获得固定维度的字符或词向量。预训练模型包括但不限于roberta、xlm-roberta、xlnet等模型。
56.在一个实施例中,基于bert模型对待处理的信息文本进行预训练编码,生成文本特征,所述文本特征为固定维度的字符向量或词向量,包括:
57.获取信息文本中语言的种数,提取信息文本中每一种语言,生成单一语言对应的文本数据,所述文本数据数目与语言的种数相同;信息文本包括至少两种语言;
58.将每一种文本数据分别输入bert模型,生成对应的文本特征,所述文本特征为固定维度的字符向量或词向量。
59.本实施例中的语言包括但不限于英语、西班牙语、中文作为模型的输入文本。
60.具体实施时,采用了多种语言的金融文本数据作为输入,每次输入只输入一种语言的文本数据。文本数据字符向量化采用文本预训练模块;对文本进行预训练编码,获得固定维度的字符或词向量。
61.在一个实施例中,将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:
62.预先构建通用域特征抽取器,所述通用域特征抽取器包括采用lstm模型的学习器和采用mlp模型的语言判别器。
63.具体实施时,不同语言的同类型金融交易的文本数据具有一定的共性,预先设计了一个通用域特征提取器(shared feature extractor),通用域特征提取器包含了一个通用域特征学习器(shared feature learner)和语言判别器(language discriminator),对文本数据的共同特征进行抽取,如图3所示。通用域特征学习器对bert输出的字词向量进行特征提取,然后输出到语言判别器。通过语言判别器判断当前输入的文本数据属于哪一种语言,采用softmax函数计算当前标签向量与真实标签向量之间的损失loss和梯度,利用损失来更新通用域特征学习器。当语言判别器不能正确判断当前文本的所属语言时,说明通用域特征学习器已经学好了每种语言之间的共性,从而达到了混淆语言判别器的目的。在本方案中,通用域特征学习器采用了lstm模型,语言判别器模型采用mlp模型,但两者不仅限于使用当前使用的模型,还适用于其它模型。
64.通用域特征学习器公式:
65.h
shared
=lstm(h
bert
;θ
f_share
)
ꢀꢀ
(公式1)
66.其中h
bert
是bert输出的隐向量、h
shared
是通用域特征学习器输出的隐向量、θ
f_share
是通用域特征学习器的参数。
67.语言判别器公式:
68.hd=mlp(h
shared
;θd)
ꢀꢀ
(公式2)
69.其中θd是判别器的参数,hd是语言判别器输出的隐向量。
70.通用域特征提取器的损失函数:
71.loss
shared
=softmax(hd,y;θ
shared
)
ꢀꢀ
(公式23)
72.其中θ
shared
是通用域特征提取器的全部参数,y是当前输入的语言类别标签,loss
shared
是通用域特征提取器的损失值。
73.在一些其他的实施例中通用域特征抽取器的学习器还可采用cnn、mlp模型等模型,判别器不仅限于mlp模型,也可以采用lstm、cnn模型等。
74.在一个实施例中,将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前,还包括:
75.预先构建私有域特征抽取器,所述预先构建通用域特征抽取器包括mlp模型。
76.具体实施时,输入的文本数据来自不同语言,不同语言的同类型金融交易的文本数据肯定也具有一定的差异,所以设计了一个私有域特征提取器(private feature extractor),用于提取私有域特征。私有域特征提取器的模型如图3所示。私有域特征提取器对bert输出的字词向量进行特征提取,然后输出到各个语言的多层感知机模型(multi-layer perceptron,mlp)中,每个语言的mlp抽取文本中的专属语言特征,然后按照一定的权重对各语言mlp的输出进行拼接,且c1+c2+c3+...+ck=1。如果当前输入文本数据是英文的,则c1≈1,c2+c3+...+ck≈0,从而实现输出对应语言的私有特征的目的。
77.私有域特征提取器的公式如下:
78.h
lstm
=lstm(h
bert
;θ
lstm
)
ꢀꢀ
(公式4)
[0079][0080]
其中h
bert
表示bert输出的隐向量、h
lstm
表示lstm输出的隐向量、h
private
表示私有域特征学习器输出的隐向量,θ
lstm
表示lstm的参数,θ
i_pmlp
表示第i个私有域特征提取器里的mlp的参数,k表示参与训练的语言的总数。
[0081]
在一些其他的实施例中,各语言的mlp个数根据输入本文的语言类别数量来决定。
[0082]
在一个实施例中,将通用域特征和私有域特征进行耦合,包括:
[0083]
将通用域特征和私有域特征按照第一预定权重进行拼接,生成耦合结果。
[0084]
具体实施时,通用域特征提取器和私有域特征提取器对文本特征的通用域、私有域特征向量按照一定的权重进行拼接,其中b1+b2=1。如果输入文本的每种语言都是同一种语系的,那么预测模型则需要更加关注每个语言文本数据之间的差异,而不是共性,那么此时私有域特征的权重则大于通用域特征的权重。反之,如果输入文本的语言不属于同一种语系的,则更关注语言的差异,通用域特征的权重则大于私有域特征的权重。
[0085]
公式如下所示:
[0086]hattention
=b1h
shared
+(1-b1)h
priavte
ꢀꢀ
(公式6)
[0087]
其中h
attention
表示注意力混合层(attention fusion layer)的输出,b1表示对通用域特征提取器输出的向量的注意力系数。
[0088]
在一个实施例中,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作,包括:
[0089]
将耦合结果输入混合专家预测器的mp模型后,按照第二预定权重进行拼接,生成拼接好的特征向量;
[0090]
将特征向量输入crf解码器进行解码,生成对应的信息标签,完成信息抽取操作。
[0091]
具体实施时,传统的实体识别任务完成特征提取后把特征放到解码器里进行实体识别即可,但是在多语言模型中,模型不清楚当前解码任务是属于哪种语言的。因此本方案设计了一个混合专家预测器,使得模型清楚当前解码任务是属于哪种语言的,这是本方案的第三个创新点。混合专家模型如下图所示。注意力混合层输出的向量作为混合专家模型的输入,然后经过各自语言的mlp模型,然后再按照一定的权重进行拼接,其中d1+d2+d3+...+dk=1。如果当前解码任务是英文实体解码任务,则d1≈1,d2+d3+...+dk≈0,反之则其他对应语言任务的权重系数约等于1。拼接好的任务特征向量通过crf解码器进行解码,得到预测的实体标签,完成实体识别任务。
[0092]
混合专家预测器的公式如下:
[0093][0094]
output=crf(h
moe
)
ꢀꢀ
(公式8)
[0095]
其中h
moe
表示混合专家预测器输出的隐向量、θ
i_mmlp
表示第i个混合专家预测器的mlp的参数,output表示模型的最终输出。
[0096]
混合专家预测器的损失函数:
[0097][0098]
其中p
realpath
表示真实标签的路径,pi表示第i条的标签路径,n表示所有的路径个数。
[0099]
进一步的,结合通用域文本特征和私有域特征的金融信息抽取模型的总体损失函数如下:
[0100]
loss
total
=min(loss
moe-loss
shared
)
ꢀꢀ
(公式10)。
[0101]
本发明实施例提供了一种基于文本特征的信息抽取方法,先通过预训练模型进行编码后,再基于多语言进行共同特征提取及私有特征提取,然后将共同特征和私有特征进行耦合,最后通过混合专家预测器进行解码,生成对应的标签,完成解码任务,实现在金融债券二级成交业务中交易要素提取的准确率提升了2%-5%以上。
[0102]
需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
[0103]
本发明另一实施例提供一种基于文本特征的信息抽取装置,如图6所示,装置1包括:
[0104]
预训练编码模块11,用于基于预训练模型对待处理的信息文本进行预训练编码,生成文本特征;
[0105]
通用域特征和私有域特征抽取模块12,用于将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器;分别得到通用域特征和私有域特征,所述通用域特征为通用域特征抽取器的输出,所述私有域特征为私有域特征抽取器的输出;
[0106]
解码模块13,用于将通用域特征和私有域特征进行耦合,将耦合结果输入混合专家预测器中进行解码,生成对应的信息标签,完成信息抽取操作。
[0107]
具体实施方式见方法实施例,此处不再赘述。
[0108]
本发明另一实施例提供一种电子设备,如图7所示,电子设备10包括:
[0109]
一个或多个处理器110以及存储器120,图7中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图7中以通过总线连接为例。
[0110]
处理器110用于完成电子设备10的各种控件逻辑,其可以为通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、单片机、arm(acorn risc machine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件控件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp核、或任何其它这种配置。
[0111]
存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的基于文本特征的信息抽取方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行设备10的各种功能应用以及数据处理,即实现上述方法实施例中的基于文本特征的信息抽取方法。
[0112]
存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储根据设备10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0113]
一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的基于文本特征的信息抽取方法,例如,执行以上描述的图1中的方法步骤s100至步骤s300。
[0114]
本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤s100至步骤s300。
[0115]
作为示例,非易失性存储介质能够包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦rom(eeprom)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(ram)。通过说明并非限制,ram可以以诸如同步ram(sram)、
动态ram、(dram)、同步dram(sdram)、双数据速率sdram(ddr sdram)、增强型sdram(esdram)、synchlink dram(sldram)以及直接rambus(兰巴斯)ram(drram)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器控件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
[0116]
本发明的另一种实施例提供了一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被处理器执行时,使处理器执行上述方法实施例的基于文本特征的信息抽取方法。例如,执行以上描述的图1中的方法步骤s100至步骤s300。
[0117]
以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0118]
通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分的方法。
[0119]
除了其他之外,诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
[0120]
已经在本文中在本说明书和附图中描述的内容包括能够提供基于文本特征的信息抽取方法及装置的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1