面向长文本自动摘要任务的数据增强系统及其方法与流程

文档序号:32402300发布日期:2022-12-02 19:25阅读:61来源:国知局
面向长文本自动摘要任务的数据增强系统及其方法与流程

1.本发明涉及一种面向长文本自动摘要任务的数据增强系统及其方法。


背景技术:

2.目前,机器学习和深度学习已经在自动文本摘要任务上取得了不错的效果。而模型的好坏也依赖于训练数据的规模和质量,但是训练数据的收集通常都十分消耗人力。数据增强常用于视觉和语音领域,可以训练鲁棒性更高的模型,特别是在使用较少的数据集时,可以取得更好的性能。然而,由于很难构建出通用的语言转化规则,nlp中通用的数据增强技术还没有被探索出来。万莹等人提出利用bert获取句子特征,并结合实体和实体上下文信息送入到简单神经网络中进行分类。在之前的研究中,已经提出了一些用在nlp任务中的数据增强方法,如通过将句子翻译成其他语言,再翻译成目标语言来生成新的数据。即使这些方法很有效,但是由于高额的计算成本,这些方法都很少被应用。wei j等人提出了成本较低的方法,并且在文本分类上具有很好的增益效果,如单词的同义词替换,词序调换等。在短文本上,这些方式通过修改少量的数据可以很好的影响到句子的表征,而对于长文本而言,过多的替换和修改很有可能影响到原有句子的表述。
3.ding m等人提出将文本进行压缩后作为新的语料文本可以出色的完成下游任务,将压缩后的语料文本作为新的数据集在自动问答、文本匹配、文本分类等领域上,取得了不俗的表现。使用深度学习模型对源文本进行压缩,并且在压缩时,根据任务的不同设置了目标文本。在自动问答中,将目标文本设置为问题文本,使得抽取出的新文本尽可能和问题相关;在文本匹配任务中,设置目标文本为匹配的短文本;而在分类任务中,没有预先设置目标文本,在抽取过程中,将抽取出的文本作为目标文本,使得抽取出的文本语义更加集中,这种方式保证了压缩后的文本和下游任务的主题一致性,对计算能力也是一项挑战。但是这一工作没有探讨生成的数据集能否作为一种增强数据来使用。
4.由此,需设计一种面向长文本自动摘要任务的数据增强策略及方法。


技术实现要素:

5.本发明的目的是克服现有技术存在的不足,提供一种面向长文本自动摘要任务的数据增强系统及其方法。
6.本发明的目的通过以下技术方案来实现:
7.面向长文本自动摘要任务的数据增强系统,特点是:包含文本处理模块、文本表示模块、模型构建模块、关键信息评分模块以及解码模块;
8.所述文本处理模块,读取数据进行分词并将其映射到唯一的索引;
9.所述文本表示模块,通过文本表示将非数值型文本编码成数值型数据;
10.所述模型构建模块,根据摘要任务构建模型的框架;
11.所述关键信息评分模块,对通过构建模型的运算且经过特征提取之后的信息进行评分排序并进行分类重组;
12.所述解码模块,将分类重组的文本生成摘要。
13.进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述文本处理模块包含中文词切分模块和数据筛选模块,所述中文词切分词模块,用于摘要源文本中文分词,依赖词表将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述数据筛选模块,对分词后所得的数据进行重新检查数据的一致性,处理无效数据与缺失数据。
14.进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述文本表示模块,将文本处理模块处理后的源文本数据采用lstm模型进行编码,通过拼接前向嵌入与后向嵌入表示出字符级单词向量。
15.进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述模型构建模块包含预训练模块和词信息特征提取模块;所述预训练模块,词向量在进入特征提取前,将文本编码后生成的单词表示向量采用lstm预训练模型训练生成上下文相关的词向量;所述词信息特征提取模块,预训练模型生成的上下文相关的词向量进行运算,从词向量提取关键信息的特征。
16.进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述关键信息评分模块,将经过模型构建模块的预训练模块和词信息特征提取模块后的数据进行关键信息提取,利用lstm将一个序列经过运算映射成一个中间语义向量,并对每个关键信息进行评分排序。
17.进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述解码模块,将生成的中间语义向量解码生成最终的摘要。
18.本发明面向长文本自动摘要任务的数据增强方法,包括以下步骤:
19.首先,将源文本进行文本处理;
20.然后,将文本处理之后的文本数据进行bilstm编码,将生成的字符级词向量序列输入到lstm预训练模型模块进行训练,生成上下文相关的词向量;
21.之后,将词向量输入到模型构建模块的词信息特征提取模块进行关键信息的特征提取,提取到输入文本的关键信息,特征在数学上的表示均是高维向量;
22.继而,将特征向量输入关键信息评分模块,提取的中间语义信息通过softmax映射到对应文本长度的区间长度的0/1向量,这一向量用来表示文本的关键信息;
23.最后,将关键信息输入到解码模块,生成最终的摘要。
24.更进一步地,上述的面向长文本自动摘要任务的数据增强方法,其中,由文本处理模块,对源文本进行中文分词以及去除停用词;由文本表示模块,对文本序列采用bilstm编码;由模型构建模块,将词向量输入预训练模块形成上下文相关的词向量,由词信息特征提取模块进行词向量的特征提取;由关键信息评分模块,将提取的特征进行信息评分;由解码模块,经信息评分排序形成源文本的摘要。
25.更进一步地,上述的面向长文本自动摘要任务的数据增强方法,其中,由文本处理模块的中文词切分模块,对源文本中文本中文分词,采用分词工具将源文本中的词语进行单个字符切分,形成一串中文词汇序列;
26.由文本表示模块将文本数据采用bilstm编码表示为可理解和处理的编码序列;通过记忆门、遗忘门计算词向量,并对文本序列的前后词信息及其特征进行捕捉,充分学习源文本上下文长距离的依赖关系,记忆门和遗忘门的计算如下:
27.计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量h
t-1
,当前时刻的输入词向量为xi,wj为该层权重矩阵用于去除部分冗余信息,bf为该层的偏差矩阵,σ为激活函数,最后输出是遗忘门的值∫
t
,即为遗忘部分信息之后的词向量,将其代入公式(4);
28.f
t
=σ(wf·
[h
t-1
,x
t
+bf])
ꢀꢀ
(1)
[0029]
计算记忆门,除了遗忘门还需要对重要的信息进行保留,输入为前一时刻的词向量h
t-1
,当前时刻的输入词向量h
t-1
,wf为该层权重矩阵,然后输出记忆门的值i
t
,临时状态其存储的是当前时刻的需要保留记忆的词向量,然后将其代入公式(4);
[0030]it
=σ(wf·
[h
t-1
,x
t
+bi])
ꢀꢀ
(2)
[0031][0032]
计算当前时刻临时状态的里存储的词向量,输入为记忆门的词向量i
t
和遗忘门的值∫
t
作为系数,临时状态的词向量上一刻存储的词向量c
t-1
,并作矩阵乘法,输出为当前状态里的词向量为c
t

[0033][0034]
计算输出门和当前时刻的词向量,输入前一时刻的词向量h
t-1
,当前时刻的输入词x
t
,当前时刻的词向量c
t
,wo为该层权重矩阵,bo为该层的偏差矩阵,然后用tanh函数进行运算;则有输出门的词向量值o
t
,隐藏层的词向量为h
t

[0035]ot
=σ(wo·
[h
t-1
,x
t
+bo])
ꢀꢀꢀꢀ
(5)
[0036]ht
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0037]
计算n轮,得到与句子长度相同的词向量序列{h0,h1,h2......h
n-1
};
[0038]
由模型构建模块的预训练模块,将文本表示后所得的单词表示向量采用lstm预训练模型训练生成上下文相关的词向量;模型构建模块的词信息特征提取模块根据预训练模型生成的上下文相关的词向量进行运算,从词向量提取关键信息的特征;
[0039]
模型构建模块中词信息特征提取模块采用global attention,以结合全局信息为目的,在通过lstm计算后,在表征上执行注意力机制;transformer模型中的注意机制是一个函数,从输入句子中映射出重要和相关的单词,并为单词赋予更高的权重;其计算公式为(7);
[0040][0041]
v是表示输入特征的向量,q、k是计算attention权重的特征向量;均是由输入特征得到;attention(q,k,v)是根据关注程度对v乘以相应权重;attention机制中的q,k,v是对当前的query和所有的key计算相似度,相似度值通过softmax层得到一组权重,根据权重与对应value的乘积求和得到attention下的value值;
[0042]
关键信息评分模块,对经过模型构建模块并训练后的数据进行关键信息提取,形成中间语义向量,并对每个关键信息进行评分排序;
[0043]
解码模块,在源文本的基础上形成源文摘要。
[0044]
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
[0045]

将文本进行数据预处理,对文本进行分词,对一些错误和无用的数据进行剔除;通过数据清洗,有效减少模型训练时间成本;将文本的抽取与归并相结合形成数据增强方式;在长文本的短句抽取中,充分保留长文本的局部句子的核心语义;
[0046]

归并环节与抽取环节算法相结合,按照既定顺序合并长文本,形成满足限定条件的长文本数据集;
[0047]

与传统的方法相比,在数据集缺乏的情况下处理文本明显优于传统方法,解决了长文本摘要任务数据集缺乏的问题。
[0048]
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
[0049]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0050]
图1:本发明系统的架构原理示意图;
[0051]
图2:本发明的流程示意图;
[0052]
图3:文本处理模块的架构原理示意图;
[0053]
图4:文本表示模块的架构原理示意图;
[0054]
图5:模型构建模块的架构原理示意图。
具体实施方式
[0055]
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0056]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,方位术语和次序术语等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0057]
如图1所示,面向长文本自动摘要任务的数据增强系统,包含文本处理模块1、文本表示模块2、模型构建模块3、关键信息评分模块4以及解码模块5;
[0058]
文本处理模块1,读取数据进行分词并将其映射到唯一的索引;
[0059]
文本表示模块2,通过文本表示将非数值型文本编码成数值型数据;
[0060]
模型构建模块3,根据摘要任务构建模型的框架;
[0061]
关键信息评分模块4,对通过构建模型的运算且经过特征提取之后的信息进行评
分排序并进行分类重组;
[0062]
解码模块5,将分类重组的文本生成摘要。
[0063]
如图3,文本处理模块1包含中文词切分模块101和数据筛选模块102,中文词切分词模块101,用于摘要源文本中文分词,依赖词表将文本中的词语进行切分,采用分词工具,得到一串词汇序列;数据筛选模块102,对分词后所得的数据进行重新检查数据的一致性,处理无效数据与缺失数据。
[0064]
如图4,文本表示模块2,将文本处理模块1处理后的源文本数据采用lstm模型进行编码,通过拼接前向嵌入与后向嵌入表示出字符级单词向量。
[0065]
如图5,模型构建模块3包含预训练模块301和词信息特征提取模块302;预训练模块301,词向量在进入特征提取前,将文本编码后生成的单词表示向量采用lstm预训练模型训练生成上下文相关的词向量;词信息特征提取模块302,预训练模型生成的上下文相关的词向量进行运算,从词向量提取关键信息的特征。
[0066]
关键信息评分模块4,将经过模型构建模块3的预训练模块301和词信息特征提取模块302后的数据进行关键信息提取,利用lstm将一个序列经过运算映射成一个中间语义向量,并对每个关键信息进行评分排序。
[0067]
解码模块5,将生成的中间语义向量解码生成最终的摘要。
[0068]
本发明面向长文本自动摘要任务的数据增强方法,包括以下步骤:
[0069]
首先,将源文本进行文本处理;
[0070]
然后,将文本处理之后的文本数据进行bilstm编码,将生成的字符级词向量序列输入到lstm预训练模型模块进行训练,生成上下文相关的词向量;
[0071]
之后,将词向量输入到模型构建模块3的词信息特征提取模块进行关键信息的特征提取,提取到输入文本的关键信息,特征在数学上的表示均是高维向量;
[0072]
继而,将特征向量输入关键信息评分模块4,提取的中间语义信息通过softmax映射到对应文本长度的区间长度的0/1向量,这一向量用来表示文本的关键信息;
[0073]
最后,将关键信息输入到解码模块5,生成最终的摘要。
[0074]
由文本处理模块1,对源文本进行中文分词以及去除停用词;由文本表示模块2,对文本序列采用bilstm编码;由模型构建模块3,将词向量输入预训练模块形成上下文相关的词向量,由词信息特征提取模块302进行词向量的特征提取;由关键信息评分模块4,将提取的特征进行信息评分;由解码模块5,经信息评分排序形成源文本的摘要。
[0075]
由文本处理模块1的中文词切分模块101,对源文本中文本中文分词,采用分词工具将源文本中的词语进行单个字符切分,形成一串中文词汇序列;
[0076]
由文本表示模块2将文本数据采用bilstm编码表示为可理解和处理的编码序列;通过记忆门、遗忘门计算词向量,并对文本序列的前后词信息及其特征进行捕捉,充分学习源文本上下文长距离的依赖关系,提高摘要的语义关系,记忆门和遗忘门的计算如下:
[0077]
计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量h
t-1
,当前时刻的输入词向量为xi,wj为该层权重矩阵用于去除部分冗余信息,bf为该层的偏差矩阵,σ为激活函数,最后输出是遗忘门的值f
t
,即为遗忘部分信息之后的词向量,将其代入公式(4);
[0078]ft
=σ(wf·
[h
t-1
,x
t
+bf])
ꢀꢀ
(1)
[0079]
计算记忆门,除了遗忘门还需要对重要的信息进行保留,输入为前一时刻的词向量h
t-1
,当前时刻的输入词向量h
t-1
,wf为该层权重矩阵,然后输出记忆门的值i
t
,临时状态其存储的是当前时刻的需要保留记忆的词向量,然后将其代入公式(4);
[0080]it
=σ(wf·
[h
t-1
,x
t
+bi])
ꢀꢀ
(2)
[0081][0082]
计算当前时刻临时状态的里存储的词向量,输入为记忆门的词向量i
t
和遗忘门的值f
t
作为系数,临时状态的词向量上一刻存储的词向量c
t-1
,并作矩阵乘法,输出为当前状态里的词向量为c
t

[0083][0084]
计算输出门和当前时刻的词向量,输入前一时刻的词向量h
t-1
,当前时刻的输入词x
t
,当前时刻的词向量c
t
,wo为该层权重矩阵,bo为该层的偏差矩阵,然后用tanh函数进行运算;则有输出门的词向量值o
t
,隐藏层的词向量为h
t

[0085]ot
=σ(wo·
[h
t-1
,x
t
+bo])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0086]ht
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0087]
计算n轮,得到与句子长度相同的词向量序列{h0,h1,h2......h
n-1
};
[0088]
由模型构建模块3的预训练模块301,将文本表示后所得的单词表示向量采用lstm预训练模型训练生成上下文相关的词向量;模型构建模块3的词信息特征提取模块302根据预训练模型生成的上下文相关的词向量进行运算,从词向量提取关键信息的特征;
[0089]
模型构建模块3中词信息特征提取模块302采用global attention,以结合全局信息为目的,在通过lstm计算后,在表征上执行注意力机制;transformer模型中的注意机制是一个函数,从输入句子中映射出重要和相关的单词,并为单词赋予更高的权重;其计算公式为(7);
[0090][0091]
v是表示输入特征的向量,q、k是计算attention权重的特征向量;均是由输入特征得到;attention(q,k,v)是根据关注程度对v乘以相应权重;attention机制中的q,k,v是对当前的query和所有的key计算相似度,相似度值通过softmax层得到一组权重,根据权重与对应value的乘积求和得到attention下的value值;
[0092]
关键信息评分模块4,对经过模型构建模块3并训练后的数据进行关键信息提取,形成中间语义向量,并对每个关键信息进行评分排序;
[0093]
解码模块5,在源文本的基础上形成源文摘要。
[0094]
在clts数据集上对数据增强方法进行了验证,首先通过文本处理模块,将数据集中的中文短语进行词语切分,然后将数据集中的无效与缺失的数据进行处理;在文本处理后的clts数据集基础上,运用lstm模型编码,拼接前后向嵌入表示出字符级单词向量;通过词信息特征提取模块对词向量进行运算,从词向量中提取出关键信息的特征;将上述处理所得的结果通过打分排序得出最终的结果。并验证增强方法的有效性,并且在基线模型
seq2seq进行了对比实验,lead compress采用lead压缩的增强文本,presumm-ext为微调bert的提取摘要方法;baseline采用slctdsets为训练数据集的基础模型,baseline_lead采用lead压缩作为训练数据集;baseline_mix采用lead压缩和slctdsets作为训练数据集;如下表:
[0095]
表1 slctdsets上的rouge得分
[0096][0097][0098]
可以看到,在slctdsets上采用lead算法抽取出的数据效果比直接使用原文的结果要好,得益于slctdsets是一个新闻领域的数据集,新闻语料的关键信息和要点大多数都分布在头部,在抽取过程中,容易抽取出更多的信息,可以更好的保留原文本的信息;同时,缩短文本长度后也更加有利于模型的学习;在混合数据后,性能进一步提升。
[0099]
综上所述,本发明面向长文本自动摘要任务的数据增强系统及其方法,将文本进行数据预处理,对文本进行分词,对一些错误和无用的数据进行剔除;通过数据清洗,有效减少模型训练时间成本;另外,与传统的方法相比,在数据集缺乏的情况下处理文本明显优于传统方法,解决了长文本摘要任务数据集缺乏的问题。
[0100]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0101]
上述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
[0102]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1