一种文本提取的方法、装置、设备及存储介质与流程

文档序号:32443837发布日期:2022-12-06 23:11阅读:77来源:国知局
一种文本提取的方法、装置、设备及存储介质与流程

1.本技术涉及文本提取技术领域,尤其涉及一种文本提取的方法、装置、设备及存储介质。


背景技术:

2.文本提取是指识别文本中具有特定意义的文本词汇并进行提取,包括但不限于组织名、人名、地名、时间或金额等。文本词汇具有开放性和多样性的特点,对文本词汇进行提取的过程较为困难。
3.目前,文本提取方法主要是基于深度学习进行文本提取,但这种方式在小样本场景下识别提取效果不佳,需要大量的样本才能保证识别提取的准确性。


技术实现要素:

4.有鉴于此,本技术实施例提供了一种文本提取的方法、装置、设备及存储介质,能够实现在小样本场景下提高文本提取结果的准确性。
5.第一方面,本技术实施例提供了一种文本提取的方法,所述方法包括:
6.获取待提取文本和与所述待提取文本对应的提取提示文本,所述提取提示文本为指示提取所述样待提取文本中目标影响因子对应的实体的文本;
7.将所述待提取文本和所述提取提示文本进行拼接,得到第一输入文本;
8.将所述第一输入文本输入文本提取模型中,得到所述文本提取模型输出的第一提取文本,所述文本提取模型是根据样本文本和训练提示文本训练得到的,所述训练提示文本与所述样本文本对应,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。
9.可选的,所述文本提取模型是采用以下方法训练得到的:
10.获取样本文本、所述训练提示文本和所述样本文本的标签,所述样本文本的标签为所述第一影响因子对应的实体的文本,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本;
11.将所述样本文本和所述训练提示文本进行拼接,得到第输入二文本;
12.将所述第二输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第二提取文本;
13.根据所述第二提取文本与所述标签计算第一损失值;
14.根据所述第一损失值对所述待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
15.可选的,所述文本提取模型是采用以下方法训练得到的:
16.获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本,所述训练误导文
本为指示提取所述样本文本中第三影响因子对应的实体的文本,所述样本文本的标签包括第一标签和第二标签,所述第一标签为所述第二影响因子对应的实体的文本,所述第二标签为所述第三影响因子对应的实体文本;
17.将所述样本文本和所述训练提示文本进行拼接,得到第三输入文本;
18.将所述第三输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第三提取文本;
19.根据所述第三提取文本与所述第一标签计算第二损失值;
20.将所述样本文本与所述训练误导文本进行拼接,得到第四输入文本;
21.将所述第四输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第四提取文本;
22.根据所述第四提取文本与所述第二标签计算第三损失值;
23.将所述第二损失值和第三损失值按照权重比例进行计算,得到第四损失值;
24.根据所述第四损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
25.可选的,所述文本提取模型是采用以下方法训练得到的:
26.获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本,所述影响因子提示文本为指示提取所述样本文本中第四影响因子的文本,所述样本文本的标签包括第三标签和第四标签,所述第三标签为所述第二影响因子对应的实体的文本,所述第四标签为所述第四影响因子对应的实体的文本;
27.将所述样本文本和所述训练提示文本进行拼接,得到第五输入文本;
28.将所述第五输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第五提取文本;
29.根据所述第五提取文本与所述第三标签计算第五损失值;
30.将所述样本文本与所述影响因子提示文本进行拼接,得到第六输入文本;
31.将所述第六输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第六提取文本;
32.根据所述第六提取文本与所述第四标签计算第六损失值;
33.将所述第五损失值和第六损失值按照权重比例进行计算,得到第七损失值;
34.根据所述第七损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签,以及后续步骤,直到达到预设条件生成文本提取模型。
35.第二方面,本技术实施例提供了一种文本提取的装置,所述装置包括:
36.获取模块,用于获取待提取文本和与所述待提取文本对应的提取提示文本,所述提取提示文本为指示提取所述样待提取文本中目标影响因子对应的实体的文本;
37.拼接模块,用于将所述待提取文本和所述提取提示文本进行拼接,得到第一输入文本;
38.提取模块,用于将所述第一输入文本输入文本提取模型中,得到所述文本提取模
型输出的第一提取文本,所述文本提取模型是根据样本文本和训练提示文本训练得到的,所述训练提示文本与所述样本文本对应,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。
39.可选的,所述文本提取模型是采用以下方法训练得到的:
40.获取样本文本、所述训练提示文本和所述样本文本的标签,所述样本文本的标签为所述第一影响因子对应的实体的文本,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本;
41.将所述样本文本和所述训练提示文本进行拼接,得到第输入二文本;
42.将所述第二输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第二提取文本;
43.根据所述第二提取文本与所述标签计算第一损失值;
44.根据所述第一损失值对所述待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
45.可选的,所述文本提取模型是采用以下方法训练得到的:
46.获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本,所述训练误导文本为指示提取所述样本文本中第三影响因子对应的实体的文本,所述样本文本的标签包括第一标签和第二标签,所述第一标签为所述第二影响因子对应的实体的文本,所述第二标签为所述第三影响因子对应的实体文本;
47.将所述样本文本和所述训练提示文本进行拼接,得到第三输入文本;
48.将所述第三输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第三提取文本;
49.根据所述第三提取文本与所述第一标签计算第二损失值;
50.将所述样本文本与所述训练误导文本进行拼接,得到第四输入文本;
51.将所述第四输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第四提取文本;
52.根据所述第四提取文本与所述第二标签计算第三损失值;
53.将所述第二损失值和第三损失值按照权重比例进行计算,得到第四损失值;
54.根据所述第四损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
55.可选的,所述文本提取模型是采用以下方法训练得到的:
56.获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本,所述影响因子提示文本为指示提取所述样本文本中第四影响因子的文本,所述样本文本的标签包括第三标签和第四标签,所述第三标签为所述第二影响因子对应的实体的文本,所述第四标签为所述第四影响因子对应的实体的文本;
57.将所述样本文本和所述训练提示文本进行拼接,得到第五输入文本;
58.将所述第五输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第五提取文本;
59.根据所述第五提取文本与所述第三标签计算第五损失值;
60.将所述样本文本与所述影响因子提示文本进行拼接,得到第六输入文本;
61.将所述第六输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第六提取文本;
62.根据所述第六提取文本与所述第四标签计算第六损失值;
63.将所述第五损失值和第六损失值按照权重比例进行计算,得到第七损失值;
64.根据所述第七损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签,以及后续步骤,直到达到预设条件生成文本提取模型。
65.第三方面,本技术实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面中任一项所述的文本提取的方法。
66.第四方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面中任一项所述的文本提取的方法。
67.本技术实施例提供了一种文本提取的方法、装置、设备及存储介质。在执行所述方法时,获取待提取文本和提取提示文本,并将待提取文本和提取提示文本进行拼接,得到第二输入文本。将第二输入文本作为文本提取模型的输入,得到第一提取文本,进而根据第一提取文本生成目标文本,完成文本提取。其中,文本提取模型是根据样本文本和训练提示文本训练得到的,基于训练提示文本进行训练,能够在样本数量较少的条件下训练得到一种可以较为精准提取的文本提取模型。进而基于该文本提取模型完成文本提取。
附图说明
68.为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
69.图1为本技术实施例提供的一种文本提取的方法的流程图;
70.图2为本技术实施例提供的另一种文本提取的方法的流程图;
71.图3为本技术实施例提供的一种文本提取模型训练过程的示意图;
72.图4为本技术实施例提供的一种文本提取的装置的结构示意图。
具体实施方式
73.目前,文本提取方法主要是基于深度学习进行文本提取。但基于深度学习进行文本提取的方法需要大量的样本对模型进行训练。在面对专业性较强的领域时,极有无法提供足够多的样本供模型训练,使用小样本对模型训练得到的模型,无法有效地对文本进行提取,提取结果不准确,提取速度慢。因此,该基于深度学习进行文本提取的方法不适用于
小样本环境,无法满足应用需求。
74.针对上述问题,本技术提供了一种文本提取的方法、装置、设备及存储介质。利用样本文本和训练提示文本对模型进行训练,基于提示学习的训练方法,能够训练得到提取结果较为精准的文本提取模型,进而利用文本提取模型进行文本提取。即使在小样本的条件下,也能有效地对文本进行提取,有效地解决了上述问题。
75.需要说明的是,本技术提供的一种文本提取的方法、装置、设备及存储介质,可以应用于金融、生物或化学等垂直领域。
76.显然,本技术所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
77.参见图1,图1为本技术实施例提供的一种文本提取的方法的流程图,包括:
78.s101:获取待提取文本和与所述待提取文本对应的提取提示文本。
79.待提取文本是指需要进行文本提取的文本,具体例如可以为财务报表文本、产业发展概述文本或企业年度报告文本。提取提示文本为指示提取样待提取文本中目标影响因子对应的实体的文本,并且提取提示文本与待提取文本存在对应关系,提取提示文本用于在文本提取时起提示作用,是帮助文本提取模型进行文本提取的文本。
80.作为一种示例,以待提取文本为产业发展概述文本进行说明。待提取文本为:
81.第三季度,a公司的利润增速下降,b公司的利润增速下降,c公司的利润增速上升。
82.若本次需要提取利润增速下降对应的公司,则提取提示文本为“提取这段文本中利润增速下降的公司,利润增速下降的意思是公司的利润环比下降。”。通过提取提示文本可以提高文本提取模型提取“利润增速下降”的公司的准确性和速度,并且提取提示文本中对“利润增速下降”的解释,也可以帮助模型对“利润增速下降”这一名词的理解,从而提高提取结果的准确性。
83.s102:将所述待提取文本和所述提取提示文本进行拼接,得到第一输入文本。
84.第一输入文本中包括待提取文本和提取提示文本。在获取待提取文本和与待提取文本对应的提取提示文本后,将两者进行拼接,得到第一输入文本。
85.以上文示例中的待提取文本和提取提示文本为基础,将两者拼接得到的第二输入文本可以为“第三季度,a公司的利润增速下降,b公司的利润增速下降,c公司的利润增速上升。找出这段文本中利润增速下降的公司,利润增速下降的意思是公司的利润环比下降。”。
86.s103:将所述第一输入文本输入文本提取模型中,得到所述文本提取模型输出的第一提取文本。
87.其中,文本提取模型是根据样本文本和训练提示文本训练得到的,训练提示文本与样本文本对应。文本提取模型用于对待提取文本进行文本提取,得到提取结果。样本文本的标签为第一影响因子对应的实体的文本,训练提示文本为指示提取样本文本中第二影响因子对应的实体的文本。将第一输入文本输入文本提取模型,文本提取模型可以根据第一输入文本中的提取提示文本进行处理,进而对第一输入文本中的待提取文本进行文本提取,输出第一提取文本。
88.以上文示例为基础,则输出第一提取文本为“a公司、b公司。”。
89.另外,本技术在下文中介绍了三种文本提取模型的训练方法。
90.本技术实施例提供了一种文本提取的方法。通过将待提取文本和提取提示文本拼接得到第二输入文本,将第二输入文本作为文本提取模型的输入,文本提取模型可以基于提取提示文本对待提取文本进行文本提取,并且文本提取模型是根据样本文本和训练提示文本训练得到的。基于训练提示文本进行模型训练,即使样本数量较少,也能够训练得到一种可以较为精准提取文本的文本提取模型。在小样本场景下,也可以有效地对文本进行提取。
91.在上文中详细介绍了本技术实施例提供的文本提取的方法。在上述实施例的基础上,将对三种文本提取模型的训练方式。需要说明的是,下文介绍中给出的实现方式仅作为示例性的说明,并不代表本技术实施例的全部实现方式。
92.第一种:
93.参见图2,图2为本技术实施例提供的一种文本提取模型的训练方法的流程示意图,包括:
94.s201:获取样本文本、所述训练提示文本和所述样本文本的标签。
95.其中,样本文本的标签为所述第一影响因子对应的实体的文本。训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。样本文本的标签为第二影响因子对应的实体的文本,样本文本的标签可以是预先人工标注的。在获取样本文本和训练提示文本的同时,还需获得样本文本的标签。具体的获取途径和方式可根据实际需求进行设置。
96.s202:将所述样本文本和所述训练提示文本进行拼接,得到第二输入文本。
97.第二输入文本中包括样本文本和训练提示文本。在获取样本文本和与样本文本对应的训练提示文本后,将两者进行拼接,得到第二输入文本。
98.s203:将所述第二输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第二提取文本。
99.将第二输入文本作为待训练提取模型的输入,待训练识别模型根据第二输入文本中的训练提示文本进行处理,进而对第二输入文本中的样本文本进行文本提取,输出第二提取文本。
100.s204:根据所述第二提取文本与所述标签计算第一损失值。
101.通过待训练提取模型对第二输入文本提取后得到的结果,与预先标注的标签进行计算,可以得到第一损失值。通过第一损失值能够知悉待训练提取模型的提取误差,进而根据第一损失值对待训练提取模型进行调整。
102.s205:根据所述第一损失值对所述待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
103.根据损失值调整待训练提取模型,提高待训练提取模型对样本文本识别的准确度。
104.重复执行步骤s201-s204,实现对待训练提取模型的多次训练。直到当前待训练提取模型满足预设条件,完成对待训练提取模型的训练。预设条件可以为损失值小于设定阈值,也可以为提取速度小于预设时间。当待训练提取模型满足预设条件时,将待训练提取模型作为最终用于对待提取文本进行提取的模型,生成文本提取模型,完成模型训练。
105.在本技术实施例中,将样本文本和训练提示文本拼接得到第二输入文本,并将第二输入文本作为待训练提取模型的输入,输出第二提取文本。根据第二提取文本与标签计算第一损失值,并基于第一损失值对待训练提取模型进行调整。反复执行上述方法,直到满足预设条件后,生成文本提取模型。通过上述方法,根据训练提示文本对待训练提取模型进行训练,即使文本提取模型是基于小样本训练得到的,也能够较为准确地对文本进行提取。
106.第二种:
107.本技术提供的第二种文本提取模型的训练方法是在第一种训练方法的基础上,增加了训练误导文本,能够降低文本提取模型对错误文本提取的概率,提高文本提取模型对文本提取的准确率。
108.a1:获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签。
109.其中,训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。训练误导文本为指示提取所述样本文本中第三影响因子对应的实体的文本,第二影响因子的含义可以与第三影响因子的含义相反。样本文本的标签包括第一标签和第二标签,第一标签为第二影响因子对应的实体的文本,第二标签为第三影响因子对应的实体文本。
110.基于上文示例:
111.样本文本为:
112.第三季度,a公司的利润增速下降,b公司的利润增速下降,c公司的利润增速上升。
113.第二影响因子为利润增速下降,则训练提示文本用于指示提取这段文本中利润增速下降的公司;第三影响因子为利润增速上升,训练误导样本用于指示提取这段文本中利润增速上升的公司。
114.a2:将所述样本文本和所述训练提示文本进行拼接,得到第三输入文本。
115.第三输入文本中包括样本文本和训练提示文本。在获取样本文本和与样本文本对应的训练提示文本后,将两者进行拼接,得到第三输入文本。
116.a3:将所述第三输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第三提取文本。
117.将第三输入文本作为待训练提取模型的输入,待训练识别模型根据第三输入文本中的训练提示文本进行处理,进而将样本文本中与影响因子对应的实体的文本进行提取,输出第三提取文本。
118.以上文示例为基础,第三提取文本为“a公司、b公司。”。
119.a4:根据所述第三提取文本与所述第一标签计算第二损失值。
120.通过待训练提取模型对第三输入文本提取后得到的结果,与预先标注的第一标签进行计算,可以得到第二损失值。
121.a5:将所述样本文本与所述训练误导文本进行拼接,得到第四输入文本。
122.第四输入文本中包括样本文本和训练误导文本。在获取样本文本和与训练提示文本对应的训练误导文本后,将两者进行拼接,得到第四输入文本。
123.a6:将所述第四输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第四提取文本。
124.将第四输入文本作为待训练提取模型的输入,待训练识别模型根据第四输入文本中的训练误导文本进行处理,进而将样本文本中与影响因子反向对应的实体的文本进行提
取,输出第四提取文本。
125.以上文示例为基础,第四提取文本为“c公司。”。
126.a7:根据所述第四提取文本与所述第二标签计算第三损失值。
127.通过待训练提取模型对第四输入文本提取后得到的结果,与预先标注的第二标签进行计算,可以得到第三损失值。
128.a8:将所述第二损失值和第三损失值按照权重比例进行计算,得到第四损失值。
129.权重比例描述了第二损失值所占百分比和第三损失值所占百分比。作为一种示例,可以将第二损失值和第三损失值按照权重比例进行加权求和,得到第四损失值。第四损失值为第二损失值与第二损失值的权重的乘积,和第三损失值与第三损失值的权重的乘积的和。
130.a9:根据所述第四损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
131.根据第四损失值调整待训练提取模型,提高待训练提取模型对样本文本识别的准确度。
132.重复执行步骤a1-a8,实现对待训练提取模型的多次训练。直到当前待训练提取模型满足预设条件,完成对待训练提取模型的训练。预设条件可以为损失值小于设定阈值,也可以为提取速度小于预设时间。当待训练提取模型满足预设条件时,将待训练提取模型作为最终用于对待提取文本进行提取的模型,生成文本提取模型,完成模型训练。
133.在本技术实施例中,在第一种文本提取模型的训练方法的基础上,引入训练误导文本,将训练误导文本与样本文本拼接得到第四输入文本,利用待训练提取模型对第四输入文本进行提取,得到第四提取文本。并利用第四提取文本与第二标签得到第三损失值。按照权重比例对第三损失值和第二损失值进行计算,得到第四损失值,进而基于第四损失值对待训练提取模型进行调整。反复执行上述方法,直到满足预设条件后,生成文本提取模型。基于训练误导文本进行模型训练,能够降低文本提取模型对错误文本提取的概率,提高文本提取模型对文本提取的准确率。
134.第三种:
135.本技术提供的第三种文本提取模型的训练方法是在第一种训练方法的基础上,增加了影响因子提示文本,可以对训练提示文本中的影响因子进行验证,提高文本提取模型对文本提取的准确率。
136.b1:获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签。
137.训练提示文本为指示提取样本文本中第二影响因子对应的实体的文本,影响因子提示文本为指示提取所述样本文本中第四影响因子的文本,样本文本的标签包括第三标签和第四标签,第三标签为第二影响因子对应的实体的文本,第四标签为第四影响因子对应的实体的文本。
138.作为一种示例,以待提取文本为产业发展概述文本进行说明。待提取文本为:
139.第三季度,a公司的利润增速下降,b公司的利润增速下降,c公司的利润增速上升。
140.则训练提示文本为“提取这段文本中利润增速下降的公司,利润增速下降的意思
是公司的利润环比下降”,影响因子提示文本为“提取这段文本中的影响因子的文本。”。
141.b2:将所述样本文本和所述训练提示文本进行拼接,得到第五输入文本。
142.第五输入文本中包括样本文本和训练提示文本。在获取样本文本和与样本文本对应的训练提示文本后,将两者进行拼接,得到第五输入文本,参见图3,第五输入文本为“第三季度,a公司的利润增速下降,b公司的利润增速下降,c公司的利润增速上升。提取这段文本中利润增速下降的公司,利润增速下降的意思是公司的利润环比下降。”。
143.b3:将所述第五输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第五提取文本。
144.将第五输入文本作为待训练提取模型的输入,待训练识别模型根据第五输入文本中的训练提示文本,进而将样本文本中与影响因子对应的实体的文本进行提取,输出第五提取文本,参见图3,第五提取文本为“a公司、b公司。”。
145.b4:根据所述第五提取文本与所述第三标签计算第五损失值。
146.通过待训练提取模型对第五输入文本提取后得到的结果,与预先标注的第三标签进行计算,可以得到第五损失值。
147.b5:将所述样本文本与所述影响因子提示文本进行拼接,得到第六输入文本。
148.第六输入文本中包括样本文本和影响因子提示文本。在获取样本文本和与样本文本对应的影响因子提示文本后,将两者进行拼接,得到第六输入文本,参见图3,第六输入文本为“第三季度,a公司的利润增速下降,b公司的利润增速下降,c公司的利润增速上升。提取这段文本中的影响因子的文本。”。
149.b6:将所述第六输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第六提取文本。
150.将第六输入文本作为待训练提取模型的输入,待训练识别模型根据第六输入文本中的影响因子提示文本进行文本提取,将样本文本中的影响因子的文本进行提取,输出第六提取文本,参见图3,第六提取文本为“利润增速下降。”。
151.b7:根据所述第六提取文本与所述第四标签计算第六损失值。
152.通过待训练提取模型对第六输入文本提取后得到的结果,与预先标注的第四标签进行计算,可以得到第六损失值。
153.b8:将所述第五损失值和第六损失值按照权重比例进行计算,得到第七损失值。
154.权重比例描述了第五损失值所占百分比和第六损失值所占百分比。作为一种示例,可以将第五损失值和第六损失值按照权重比例进行加权求和,得到第七损失值。用表达式可以表示为:第七损失值为第五损失值与第五损失值的权重的乘积,和第六损失值与第六损失值的权重的乘积的和。
155.b9:根据所述第七损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签,以及后续步骤,直到达到预设条件生成文本提取模型。
156.根据第七损失值调整待训练提取模型,提高待训练提取模型对样本文本识别的准确度。
157.重复执行步骤b1-b9,实现对待训练提取模型的多次训练。直到当前待训练提取模型满足预设条件,完成对待训练提取模型的训练。预设条件可以为损失值小于设定阈值,也
可以为提取速度小于预设时间。当待训练提取模型满足预设条件时,将待训练提取模型作为最终用于对待提取文本进行提取的模型,生成文本提取模型,完成模型训练。
158.在本技术实施例中,在第一种文本提取模型的训练方法的基础上,引入影响因子提示文本,将影响因子提示文本与样本文本拼接得到第六输入文本,利用待训练提取模型对第六输入文本进行提取,得到第六提取文本。并利用第六提取文本与第四标签得到第六损失值。按照权重比例对第五损失值和第六损失值进行计算,得到第七损失值,进而基于第七损失值对待训练提取模型进行调整。反复执行上述方法,直到满足预设条件后,生成文本提取模型。基于影响因子提示文本进行模型训练,能够对训练提示文本汇总的影响因子进行验证,进而提高文本提起模型对文本提取的准确率。
159.以上为本技术实施例提供一种文本提取的方法的一些具体实现方式,基于此,本技术还提供了对应的装置。下面将从功能模块化的角度对本技术实施例提供的装置进行介绍。
160.参见图4,图4为本技术实施例提供的一种文本提取的装置的结构示意图,该装置400包括获取模块401、拼接模块402和提取模块403。
161.获取模块401,用于获取待提取文本和与所述待提取文本对应的提取提示文本,所述提取提示文本为指示提取所述样待提取文本中目标影响因子对应的实体的文本;
162.拼接模块402,用于将所述待提取文本和所述提取提示文本进行拼接,得到第一输入文本;
163.提取模块403,用于将所述第一输入文本输入文本提取模型中,得到所述文本提取模型输出的第一提取文本,所述文本提取模型是根据样本文本和训练提示文本训练得到的,所述训练提示文本与所述样本文本对应,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。
164.在本技术实施例提供的一种可能的实施方式中,所述文本提取模型是采用以下方法训练得到的:
165.获取样本文本、所述训练提示文本和所述样本文本的标签,所述样本文本的标签为所述第一影响因子对应的实体的文本,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本;
166.将所述样本文本和所述训练提示文本进行拼接,得到第输入二文本;
167.将所述第二输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第二提取文本;
168.根据所述第二提取文本与所述标签计算第一损失值;
169.根据所述第一损失值对所述待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
170.在本技术实施例提供的一种可能的实施方式中,所述文本提取模型是采用以下方法训练得到的:
171.获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本,所述训练误导文本为指示提取所述样本文本中第三影响因子对应的实体的文本,所述样本文本的标签包括
第一标签和第二标签,所述第一标签为所述第二影响因子对应的实体的文本,所述第二标签为所述第三影响因子对应的实体文本;
172.将所述样本文本和所述训练提示文本进行拼接,得到第三输入文本;
173.将所述第三输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第三提取文本;
174.根据所述第三提取文本与所述第一标签计算第二损失值;
175.将所述样本文本与所述训练误导文本进行拼接,得到第四输入文本;
176.将所述第四输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第四提取文本;
177.根据所述第四提取文本与所述第二标签计算第三损失值;
178.将所述第二损失值和第三损失值按照权重比例进行计算,得到第四损失值;
179.根据所述第四损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签以及后续步骤,直到达到预设条件生成文本提取模型。
180.在本技术实施例提供的一种可能的实施方式中,所述文本提取模型是采用以下方法训练得到的:
181.获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签,所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本,所述影响因子提示文本为指示提取所述样本文本中第四影响因子的文本,所述样本文本的标签包括第三标签和第四标签,所述第三标签为所述第二影响因子对应的实体的文本,所述第四标签为所述第四影响因子对应的实体的文本;
182.将所述样本文本和所述训练提示文本进行拼接,得到第五输入文本;
183.将所述第五输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第五提取文本;
184.根据所述第五提取文本与所述第三标签计算第五损失值;
185.将所述样本文本与所述影响因子提示文本进行拼接,得到第六输入文本;
186.将所述第六输入文本输入待训练提取模型中,得到所述待训练提取模型输出的第六提取文本;
187.根据所述第六提取文本与所述第四标签计算第六损失值;
188.将所述第五损失值和第六损失值按照权重比例进行计算,得到第七损失值;
189.根据所述第七损失值对待训练提取模型进行调整,返回执行所述获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签,以及后续步骤,直到达到预设条件生成文本提取模型。
190.本技术实施例提供了一种文本提取的装置。通过将待提取文本和提取提示文本拼接得到第二输入文本,将第二输入文本作为文本提取模型的输入,文本提取模型可以基于提取提示文本对待提取文本进行文本提取。并且文本提取模型是根据样本文本和训练提示文本训练得到的,基于训练提示文本进行模型训练,即使样本数量较少,也能够训练得到一种可以较为精准提取文本的文本提取模型。在小样本场景下,也可以有效地对文本进行提取。
191.本技术实施例还提供了对应的设备以及计算机存储介质,用于实现本技术实施例提供的方案。
192.其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本技术任一实施例所述的一种文本提取的方法。
193.所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本技术任一实施例所述的一种文本提取的方法。
194.本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
195.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,rom)/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
196.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
197.以上所述仅是本技术示例性的实施方式,并非用于限定本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1