一种基于句首语义的文本要素抽取方法及系统与流程

文档序号:32386737发布日期:2022-11-30 06:31阅读:58来源:国知局
一种基于句首语义的文本要素抽取方法及系统与流程

1.本发明涉及计算机视觉技术领域,特别是涉及一种基于句首语义的文本要素抽取方法。


背景技术:

2.某公司聚焦钢铁产业金融,为生态圈中小企业提供小额高频的供应链金融业务,智能风控能力是保障业务高质量运行的重中之重。授信贷款业务场景中,对于客户经营及财务情况的分析意见篇幅长,非关键信息夹杂,无法结构化,审批人员需要花费大量的时间逐一阅读。因此,随着计算机视觉技术的发展,发明人发现,通过神经网络模型抽取合同中的文本要素可以节约时间,提高处理效率。但是,现有的要素模型抽取篇章级文本要素信息的方法存在遗漏、抽取错误的问题,导致的原因有:
3.(1)篇章级文本由多个段落文本组成,每个段落文本可能存在过长的情况,使用bert(基于语义理解的深度双向预训练transformer)按单个字符为单位编码全部篇章级文本时,肯定会超过bert编码的最大长度,如果按bert的最大编码长度截取,则会丢失上下文语义信息,显然用bert对单个字符编码的最大长度无法满足篇章级文本编码的需求;
4.(2)需要抽取的要素是段落文本,而传统的要素抽取模型以单个字符作为输入,放入要素抽取模型后会导致抽取的要素字段范围不准确,出现偏差,因为段落文本跨度太大,无法精确抽取所需段落文本的每一个字符,这样也时无法满足实际生成需求。


技术实现要素:

5.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于句首语义的文本要素抽取方法及系统,用于解决现有技术中存在的问题。
6.为实现上述目的及其他相关目的,本发明提供一种基于句首语义的文本要素抽取方法,所述方法包括以下步骤:
7.获取用于训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;
8.基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;
9.利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;
10.对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;
11.利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。
12.可选地,利用预训练模型对分割后的段落文本进行编码的过程包括:
13.判断分割后的段落文本是否超过预设字符数量;
14.如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;
15.如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。
16.可选地,所述预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。
17.可选地,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:
18.将换行符作为所述目标分割符;
19.利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。
20.可选地,所述待进行文本要素抽取的合同文本包括授信贷款审批意见书。
21.可选地,预设字符数量为510个字符。
22.本技术还提供一种基于句首语义的文本要素抽取系统,所述系统包括有:
23.训练文本模块,用于获取进行训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;
24.文本切分模块,用于根据目标分割符对所述合同文本进行篇章级文本切分,得到分割后的段落文本;
25.编码模块,用于利用预训练模型对分割后的段落文本进行编码;
26.池化模块,用于对编码后的段落文本进行池化;
27.模型训练模块,用于对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;
28.文本要素抽取模块,用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。
29.可选地,所述编码模块利用预训练模型对分割后的段落文本进行编码的过程包括:
30.判断分割后的段落文本是否超过预设字符数量;
31.如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;
32.如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。
33.可选地,所述预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。
34.可选地,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:
35.将换行符作为所述目标分割符;
36.利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。
37.如上所述,本发明提供一种基于句首语义的文本要素抽取方法及系统,具有以下有益效果:
38.本技术首先获取用于训练的合同文本,然后基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。由此可知,本技术提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
附图说明
39.图1为一实施例提供的基于句首语义的文本要素抽取方法的流程示意图;
40.图2为另一实施例提供的基于句首语义的文本要素抽取方法的流程示意图;
41.图3为一实施例提供的文本要素抽取系统的硬件结构示意图。
具体实施方式
42.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
43.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
44.请参阅图1所示,本发明提供一种基于句首语义的文本要素抽取方法,包括以下步骤:
45.s110,获取用于训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本。作为示例,本实施例中待进行文本要素抽取的合同文本包括但不限于授信贷款审批意见书。
46.s120,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本。具体地,在本实施例中,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:将换行符作为所述目标分割符;利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。
47.s130,利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化。具体地,利用预训练模型对分割后的段落文本进行编码的过程包括:判断分割后的段落文本是否超过预设字符数量;如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。作为示例,本实施例中的预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。其中,本实施例中预设字符数量可以为510个字符。
48.s140,对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;
49.s150,利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。
50.由此可知,本实施例可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
51.发明人发现,现有技术中的要素抽取模型一般都是一个字符对应一个标签,对于抽取长文本来说,特别是篇章级的段落文本,这就会导致段落文本中的部分字符遗漏、抽取错误等问题。
52.基于上述问题,在本技术另一示例性实施例中,如图2所示,该实施例还提供一种基于句首语义的文本要素抽取方法,包括以下步骤:
53.第一步,对篇章级文本进行切分,这里以换行符进行分割,因为从业务结构来看,同一段落的文本,表达意思相近,并且这样分割后不会得到过长的段落序列数据,影响后续lstm(长短期记忆网络模型)+crf(条件随机场)的训练与运行效率,而且针对授信贷款审批意见书这种类型的篇章级文本,所要抽取的内容正好是以段落文本为基本单元,需要强调一点,这里是给切分后的段落文本打标签,而不是按字符打标签;
54.第二步,对分割后的段落文本使用预训练模型bert(基于语义理解的深度双向预训练transformer)进行编码,如果段落文本过长,超过510个字符,那么就进行截断,这里截断的方式,不是直接截断,而是找到第一次出现句号的地方,以第一个出现的句号为界限进行截断,因为在授信贷款审批意见书中,能否判定该段落是否为所需的特征词或者特征语句基本都会在段落文本的第一句话有所体现,这就是所谓的“句首语义”,比如“前提条件:xxxx”,所以这里我们直接截取段落本文中特征最为明显的第一句话进行编码(段落文本中以句号作为划分),来代表整个段落信息;
55.第三步,接着对第二步编码后的信息进行pooling(池化),因为篇章级中的段落长度各不相同,池化的操作可以统一输入模型前的长度,并且代表了段落文本中最为重要的句子特征,这里采取mean-pooling,取每个token的平均embedding,提取了段落级别的embedding,与第二步合称为paragraph-embedding;
56.第四步,给第一步得到的段落级文本打标签,记为label,以bert+pooling后得到
的段落级的embedding作为input,将input与label放入lstm+crf模型中进行训练,保存最优模型,得到output。
57.第五步:根据得到的最优模型,结构化抽取篇章级段落文本要素信息,以供人工审核。
58.本实施例的流程图以及paragraph-embedding如图2所示。由此可知,基于上述问题,本实施例首先解析篇章级的文本,得到篇章级切分后的段落文本信息,然后经过bert(基于语义理解的深度双向预训练transformer)+pooling,这一过程就是paragraph-embedding,最后放入要素抽取模型,过滤掉许多不重要的信息文本,得到最终所需段落文本,再由人工进行审核,这样可以大大提高审核的效率。相当于本实施例提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,该方法可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling的方式,统一段落文本输入的长度,再通过lstm模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
59.综上所述,本发明提供一种基于句首语义的文本要素抽取方法,首先获取用于训练的合同文本,然后基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。由此可知,本技术提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
60.如图3所示,本技术还提供一种基于句首语义的文本要素抽取系统,所述系统包括有:
61.训练文本模块310,用于获取进行训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;
62.文本切分模块320,用于根据目标分割符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。具体地,在本实施例中,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:将换行符作为所述目标分割符;利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。
63.编码模块330,用于利用预训练模型对分割后的段落文本进行编码。具体地,利用预训练模型对分割后的段落文本进行编码的过程包括:判断分割后的段落文本是否超过预设字符数量;如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;如果分割后的段落文本未超过预设字符数量,则利用预训
练模型对分割后的段落文本进行编码。作为示例,本实施例中的预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。其中,本实施例中预设字符数量可以为510个字符。
64.池化模块340,用于对编码后的段落文本进行池化;
65.模型训练模块350,用于对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;
66.文本要素抽取模块360,用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。
67.由此可知,本实施例可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
68.发明人发现,现有技术中的要素抽取模型一般都是一个字符对应一个标签,对于抽取长文本来说,特别是篇章级的段落文本,这就会导致段落文本中的部分字符遗漏、抽取错误等问题。
69.基于上述问题,在本技术另一示例性实施例中,还提供一种基于句首语义的文本要素抽取系统,用于执行以下步骤:
70.第一步,对篇章级文本进行切分,这里以换行符进行分割,因为从业务结构来看,同一段落的文本,表达意思相近,并且这样分割后不会得到过长的段落序列数据,影响后续lstm(长短期记忆网络模型)+crf(条件随机场)的训练与运行效率,而且针对授信贷款审批意见书这种类型的篇章级文本,所要抽取的内容正好是以段落文本为基本单元,需要强调一点,这里是给切分后的段落文本打标签,而不是按字符打标签;
71.第二步,对分割后的段落文本使用预训练模型bert(基于语义理解的深度双向预训练transformer)进行编码,如果段落文本过长,超过510个字符,那么就进行截断,这里截断的方式,不是直接截断,而是找到第一次出现句号的地方,以第一个出现的句号为界限进行截断,因为在授信贷款审批意见书中,能否判定该段落是否为所需的特征词或者特征语句基本都会在段落文本的第一句话有所体现,这就是所谓的“句首语义”,比如“前提条件:xxxx”,所以这里我们直接截取段落本文中特征最为明显的第一句话进行编码(段落文本中以句号作为划分),来代表整个段落信息;
72.第三步,接着对第二步编码后的信息进行pooling(池化),因为篇章级中的段落长度各不相同,池化的操作可以统一输入模型前的长度,并且代表了段落文本中最为重要的句子特征,这里采取mean-pooling,取每个token的平均embedding,提取了段落级别的embedding,与第二步合称为paragraph-embedding;
73.第四步,给第一步得到的段落级文本打标签,记为label,以bert+pooling后得到的段落级的embedding作为input,将input与label放入lstm+crf模型中进行训练,保存最优模型,得到output。
74.第五步:根据得到的最优模型,结构化抽取篇章级段落文本要素信息,以供人工审
核。
75.本实施例的流程图以及paragraph-embedding如图2所示。由此可知,基于上述问题,本实施例首先解析篇章级的文本,得到篇章级切分后的段落文本信息,然后经过bert(基于语义理解的深度双向预训练transformer)+pooling,这一过程就是paragraph-embedding,最后放入要素抽取模型,过滤掉许多不重要的信息文本,得到最终所需段落文本,再由人工进行审核,这样可以大大提高审核的效率。相当于本实施例提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,该方法可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling的方式,统一段落文本输入的长度,再通过lstm模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
76.综上所述,本发明提供一种基于句首语义的文本要素抽取系统,首先获取用于训练的合同文本,然后基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。由此可知,本技术提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
77.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1