一种针对司法裁判文书的两阶段混合式自动摘要方法与流程

文档序号:29239249发布日期:2022-03-12 14:45阅读:231来源:国知局
一种针对司法裁判文书的两阶段混合式自动摘要方法与流程

1.本发明属于裁判文书数据处理技术领域,具体设计一种针对司法裁判文书的两阶段混合式自动摘要方法。


背景技术:

2.随着信息时代的快速发展,互联网上的数据量呈指数级增长。文本摘要技术通过对文本信息概括、总结,提炼出文章的主旨,利用文摘代替原文章参与索引,可以有效缩短检索的时间,同时也能减少检索结果中的冗余信息,能让用户从大量数据中高效地获取所需信息。
3.现有的互联网法院等智能系统一般作为法律工作者的辅助工作进行使用,例如,通过语义分析等技术从裁判文书中提取信息,或者通过人工处理的方式构建各个法律要素之间的联系。裁判文书书写规范,然而内容详尽冗长,当前通常通过从裁判文书中抽取权重较大的词语、短语和句子进行组合生成摘要,这种方式生成的摘要语义连贯性较差,缺乏对法律、裁判知识的有效融合,从而导致生成的摘要不连贯、不准确。因此,亟需一种裁判文书摘要生成方法,以确保裁判文书摘要的连贯性、准确性。
4.司法裁判文书是司法审判活动的最终载体,已有的司法裁判文书是辅助量刑决策和规范裁判尺度的重要依据。但现在已经公开的裁判文书数量已经多达1.2亿篇,如何从众多的裁判文书中获取有用信息是一个亟待解决的问题。自动摘要技术能够对长篇幅文本进行浓缩和提炼,用短篇幅的摘要表示冗长原文本,是解决信息过载问题的重要手段。
5.文本自动摘要技术按照摘要生成方式的不同可以分为抽取式摘要跟生成式摘要。抽取式方法是将文本摘要任务看作一个分类问题,判断句子是否是摘要句,这种方法保持了与原文的忠诚度,但由于是直接从原文抽取拼接,所以生成的摘要可读性、连续性较差。与抽取式方法相比,生成式方法更贴近人工摘要的过程,它利用深度学习模型学习大量的文本数据,对文本进行编码、解码,通过转述、替换的方法生成抽取内容的摘要。生成式摘要不是从源文档中直接抽取句子,而是通过生成新句子来替代原文句子。生成式方法虽然能够生成新的句子,但是容易出现生成的句子与原文意识相悖的情况,忠实度得不到保证,而且对于长文本,生成式方法容易出现信息丢失的问题。司法裁判文书作为一种篇幅超长的文本,单一的抽取式或生成式方法应用在司法裁判文书中上述缺点会更加突出。因此,本发明提出一种将抽取式方法跟生成式方法结合起来的两阶段混合式自动摘要方法有效的解决了上述问题。


技术实现要素:

6.针对现有技术的不足,本发明提供了一种针对司法裁判文书的两阶段混合式自动摘要方法。首先采用抽取方式形成关键句子合集,其次将句子合集作为生成方式的输入,通过模型编码、解码生成文本摘要;本发明通过对整篇裁判文书的文本进行浓缩和提炼,减少摘要文本的篇幅,同时确保生成的摘要与原文意思的忠实度、可读性以及连续性,减少了通
过人工所生成摘要的文字数量和可信度低。
7.为了解决上述问题,提供如下技术方案:
8.一种针对司法裁判文书的两阶段混合式自动摘要方法,该方法包括以下几个步骤:
9.1)对裁判文书中关键句子的相似度进行计算,并对关键句子的摘要模型进行编码、分类,最后将摘要关键句抽取。
10.2)从裁判文书中抽取出句子组合成关键句子合集。
11.3)将步骤2)中的关键句子合集作为生成式模型的输入,通过模型编码、解码生成文本摘要。
12.作为优选,步骤1)中关键句子的相似度进行计算包括:
13.步骤1.1)对裁判文书进行分句,然后在裁判文书中找到人工标准的句子,再从原文中寻找出相似度最高的句子,作为抽取式摘要的标签数据集。通过余弦相似度计算人工摘要中的句子与源文档中句子的相似度得分,选择源文档中得分最高的句子,即关键句子。
14.作为优选,步骤1)中还包括:
15.步骤1.2)文本向量化,通过相似度计算后获得的句子与裁判文书中的原文在同一行中,采用jieba对源文本、标签数据、人工摘要进行分词。在分词过程中,爬取法律名词作为词库的补充,然后再使用bert模型进行词向量化。
16.作为优选,步骤1)中对关键句子的摘要模型进行编码包括:
17.抽取式模型编码。在编码层,词嵌入采用目标词嵌入向量,对于一篇有n个句子的文本d={s1,s2,
……
,sn},通过两个特殊标记进行预处理。首先,在每个句子的句首插入[cls]标记、句尾插入[sep]标记组成输入。[cls]标记代表当前句子的向量,[sep]标记代表分句用于切分文本中的句子。在词嵌入的基础上,还设有输入的位置嵌入和分段嵌入。
[0018]
作为优选,所述位置嵌入。将单词的位置信息编码为特征向量,位置向量采用了《attention isallyouneed》中的方案:
[0019]
pe
(pos,2i)
=sin(pos/10000
2i/dmodel
)。
[0020]
pe
(pos,2i+1)
=cos(pos/10000
2i/dmodel
)。
[0021]
式中,pos表示词在句中的位置,取值范围为[0,n]。i指的是词向量的维度。dmodel为bert的输入为128-1024,优选为256-512。
[0022]
作为优选,所述分段嵌入。用于区分两个句子,不同句子之前分别为a和b标记,所以输入的句子表示为(ea,eb,ea,eb,
……
)。将词嵌入、位置嵌入和分段嵌入表示拼接为bert模型输入。经由bert模型预训练层后得到的句向量x=(x1,x2,
……
,xn)=bert(sent1,sent2,sent3,
……
,sentn),其中senti表示为原裁判文书的第i个句子,xi对应的senti经bert编码后的向量,xi需要处理的第i个向量序列。
[0023]
作为优选,步骤1)中对关键句子的摘要模型进行分类包括:
[0024]
分类层,采用膨胀残差门控卷积神经网络结构,即膨胀残差门控卷积神经网络结构为drgcnn。通过堆叠多层drgcnn网络来做摘要关键句抽取,drgcnn的层数为6-10层,优选为7-8层,每层的膨胀系数分别为1、2、4、8、1、1。对于卷积网络的原始输入序列x=(x1,x2,
……
,xn),卷积核为w,任意卷积操作的特征图ci的计算公式为:
[0025]
[0026]
式中,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标识i的距离。n表示句子中词的数量。xi±k表示自第i个词往前或往后数k个词的词向量。得到的特征图可以表示输入xi与上下文之间的关联程度。
[0027]
作为优选,通过加入膨胀系数α扩大卷积宽度。当α=1时,膨胀卷积操作就相当于全卷积操作。α》1,膨胀卷积能够学习到更远距离的上下文信息,特征图ci的计算公式为:
[0028][0029]
式中,α为膨胀系数,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标识i的距离,得到的特征图可以表示输入xi与上下文之间的关联程度。在特征图ci的基础上引入门控机制的卷积神经网络,输出的计算公式为:
[0030][0031]
式中,convd1,convd2表示一维卷积函数。x表示句向量。表示逐点相乘。σ为门控函数。convd1和convd2为两个卷积函数操作且权值不共享。
[0032]
作为优选,在门控机制的基础上引入残差结构,输出的计算公式为:
[0033][0034]
式中,convd1,convd2表示一维卷积函数。x表示句向量。表示逐点相乘。σ为门控函数。
[0035]
作为优选,再通过全连接层对句子进行判断是否为关键句的二分类。训练时选择交叉熵作为损失函数,表示为:
[0036][0037]
式中,表示样本i的标签数据,正类为1,负类为0。y表示样本i预测为正类的概率。loss表示损失函数。
[0038]
作为优选,步骤2)中通过抽取式摘要模型中的编码、分类从裁判文书中抽取出句子组合关键句子合集作为生成模型的输入。
[0039]
作为优选,步骤3)中生成式模型包括:组合关键句子合集作为生成模型的输入,将输入通过模型编码、解码生成文本摘要。所述模型编码采用的是unilm预训练语言模型,模型的输入由词嵌入、段嵌入、位置嵌入组成。
[0040]
作为优选,所述词嵌入为对于一篇有n个句子的文本d={s1,s2,
……
,sn},通过两个特殊标记进行预处理。首先,在每个句子的句首插入[cls]标记、句尾插入[sep]标记组成输入。[cls]标记代表当前句子的向量,[sep]标记代表分句用于切分文本中的句子。
[0041]
作为优选,段嵌入用于区分两个句子,不同句子之前分别为a和b标记,所以输入的句子表示为(ea,eb,ea,eb,
……
)。
[0042]
作为优选,所述的模型输入中的位置嵌入为层次分解的位置编码。先使用bert训练好的位置编码向量为p1,p2,p3,

,pn,通过公式构造一套新的位置编码q1,q2,q3,

,qm,式中,构造公式为:
[0043][0044]
式中,q
(i-1)
×
n+j
为位置编码。为超参数,取值为0.4。q为(i-1)
×
n+j位置的位置编码。i为第i个词。j为第j个词。u为一个向量,表示q向量的基底向量,由训练好的位置p向量
通过变换而来,pos表示词在句中的位置,取值范围为[0,n]。通过公式,将(i-1)
×
n+j的位置编码层次地表示为(i,j)。i,j对应的位置编码分别为和因为q1=p1,q2=p2,
……
,qn=pn,计算出ui,将词嵌入、位置嵌入、分段嵌入拼接为unilm模型的输入,经由unilm模型预训练层后得到的句向量x=(x1,x2,

,xn)=unilm(sent1,sent2,sent3,

,sentn)。
[0045]
作为优选,步骤3)中生成模型中解码生成文本摘要包括:所述摘要生成通过多层注意力机制的transfoemer层来学习文档级别的特征。在模型的解码过程中引入拷贝机制,拷贝机制包含拷贝和生成。对于多层transformer的主干网络,给定输入长度为n的文本序列x=(x1,x2,

,xn)。第一层的transformer层输出h0的计算公式为:h0=transformer0(x)。在经过l层的transformer的输出h
l
计算公式为:
[0046]hl
=transformer1(h
l-1
)。
[0047]
h为transformer的层。最终的输入结果h
l
的计算公式为:
[0048][0049]
式中,l表示层数,l∈[1,l]。l表示transformer的总层数,表示xi输入的上下文。
[0050]
作为优选,在每个transformer模块中,加入多头注意力机制来聚合输出模块,标记输出序列需要关注的部分。对于第l层的transformer自注意力a
l
,计算公式为:
[0051][0052]
式中,a
l
为自注意力权重。softmax函数是归一化指数函数。q、k、v由输入xi线性变换得到。v
l
为第l层的value,m表示一个mask矩阵。dk是是q、k矩阵的列数,即向量的维度,防止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,是上一层到queries、values和keys的线性投影且投影的参数分别是一层到queries、values和keys的线性投影且投影的参数分别是mask矩阵m控制token之间是否允许加入,不同的mask矩阵m用来控制注意到不同的上下文,引入拷贝机制解决生成过程中带来的未登录以及重复词的问题。
[0053]
作为优选,生成文本摘要还包括:在解码时间为t时,根据transformer最后一层h
t
和decoder的输出oj计算相关性权重计算方式为其中wc为初始化矩阵,同时计算第j个词的注意力分布公式为:
[0054][0055]
式中,n为句子中词的数量。exp为以自然常数e为底的指数函数。u为超参数。t为时间。k表示输入的序列标识,取值范围为[1,n]。j表示为第i个词。注意力分布可以解释为在上下文查询时,第i个词的受关注程度,同下面公式对注意力分布进行信息加权平均,得到上下文表示向量h'
t

[0056][0057]
式中,h'
t
也可叫做语境向量,表示根据注意力的分布来获取关注的信息。为t时刻transformer最后一层的输出。为第j个词的注意力分布。i为序列标识的值。n为句子中词的数量。
[0058]
作为优选,将语境向量与decoder的输出oj相连接,并通过两个线性层来产生词汇表分布计算公式如下:
[0059][0060]
式中,v'、v、b、b'是可学习参数,h'
t
为上下文表示向量,oj为decoder的输出,是词汇表中所有单词的概率分布。
[0061]
作为优选,再引入拷贝门控函数g
t
∈[0,1]来决定当前的输出是选择从源文档进行拷贝还是从词汇表中生成新词。g
t
的计算公式为:
[0062][0063]
式中,wg、bg都是可学习参数。为t时刻transformer最后一层的输出。oj为decoder的输出。公式表示在t时刻,根据j词与其他词的注意力权重来决定下一个词是生成新词还是直接进行复制。
[0064]
作为优选,对于每个文档,将词汇表中的词与源文档所有出现的词联合组成一个新的词库,即扩展词库。因此不管是从源文档中选择拷贝还是从词汇表中生成,都是从扩展词库中进行生成,所以最终概率计算公式为:
[0065][0066]
其中,表示的是当前单词w在给定词表生成的概率。表示根据注意力分布选择从源文档中进行拷贝的概率。
[0067]
作为优选,如果w是一个词表外的词,那么如果w没有出现在源文档中,那么拓展词库概率分布的最终损失函数为:
[0068][0069]
式中,t为总时间。p
t
(w)为词汇分布和注意力分布计算生成概率。
[0070]
根据词汇分布和注意力分布计算生成概率p
t
(w),最后根据生成概率和词汇分布自动生成文本摘要。
[0071]
在现有技术中,现有的互联网法院等智能系统一般作为法律工作者的辅助工作进行使用,例如,通过语义分析等技术从裁判文书中提取信息,或者通过人工处理的方式构建各个法律要素之间的联系。裁判文书书写规范,然而内容详尽冗长,当前通常通过从裁判文书中抽取权重较大的词语、短语和句子进行组合生成摘要,这种方式生成的摘要语义连贯性较差,缺乏对法律、裁判知识的有效融合,从而导致生成的摘要不连贯、不准确。因此,亟需一种裁判文书摘要生成方法,以确保裁判文书摘要的连贯性、准确性。
[0072]
在本发明中,首先对裁判文书进行分句,然后通过人工标准的句子在裁判文书中
找出相似度最高的句子,作为抽取式模型的数据;采用余弦相似度计算出人工摘要中的句子与源文档(裁判文书库)中句子的相似度得分,并根据相似度得分,选择源文档中得分最高的句子,作为关键句。
[0073]
在本发明中,文本向量化,通过相似度计算后获得的句子与裁判文书中的原文在同一行中,采用jieba对源文本、标签数据、人工摘要进行分词。在分词过程中,爬取法律名词作为词库的补充,并使用bert模型进行词向量化。即通过相似度计算后获得初步关键句进行文本向量化,采用jieba对源文本、标签数据、人工摘要进行分词确定第一词汇(中心词),在分词过程中,爬取法律名词(中律网中法律名词)作为词库的补充,确定第一词汇之后,则将第一词汇和目标词汇之间的关联关系,增加到初始词嵌入向量中,得到可以体现目标词汇(目标词汇)和第一词汇的关联关系的融合词嵌入向量,并将该融合词嵌入向量确定为目标词汇的目标词嵌入向量。
[0074]
在本发明中,抽取式模式的输入在词嵌入的基础上,还有输入位置嵌入和分段嵌入;对于裁判文书有n个句子d={s1,s2,
……
,sn},通过在每个句子的句首插入[cls]标记、句尾插入[sep]标记组成输入,[cls]标记代表当前句子的向量,[sep]标记代表分句用于切分文本中的句子;[cls]标识和[sep]标识用来分割句子,更好地捕捉各个句子的语义,提升信息抽取的准确性;位置嵌入则将单词的位置信息编码为特征向量,位置向量采用了《attentionis allyouneed》中的方案:
[0075]
pe
(pos,2i)
=sin(pos/10000
2i/dmodel
)。
[0076]
pe
(pos,2i+1)
=cos(pos/10000
2i/dmodel
)。
[0077]
式中,pos表示词在句中的位置,取值范围为[0,n]。i指的是词向量的维度。dmodel为bert的输入为128-1024,优选为256-512。分段嵌入,用于区分两个句子,不同句子之前分别为a和b标记,所以输入的句子表示为(ea,eb,ea,eb,
……
)。
[0078]
在本发明中,将词嵌入、位置嵌入和分段嵌入表示拼接为bert模型的输入,经由bert模型预训练层后得到的句向量x=(x1,x2,
……
,xn)=bert(sent1,sent2,sent3,
……
,sentn),其中senti表示为原裁判文书的第i个句子,xi对应的senti经bert编码后的向量,xi需要处理的第i个向量序列。通过bert预处理模型进行编码处理(通过编码后的句子再由bert+全局平均池化将词嵌入、位置嵌入以及分段嵌入合在一起,输出到dense层,将编码过程中提取的特征,在dense经过非线性变化,提取这些特征之间的关联,最后映射到输出空间上。)。对每个字符进行嵌入,将中文拆成一个个的字来做学习,接全连接、softmax层做分类,得到分类结果。
[0079]
在本发明中,对关键句子通过膨胀残差门控卷积神经网络结构(drgcnn)进行特征学习;drgcnn与更传统的卷积神经网络相比,增强了模型学习远距离上下文语义信息的能力;引入门控机制(dgcnn)来控制信息的流向,同时引入残差机制解决梯度消失问题,并且增大信息的多通道传输;通过堆叠6-10层,优选7-8层的drgcnn网络来做摘要关键句抽取,每层的膨胀系数分别为1、2、4、8、1、1;在采用自注意力机制对编码序列进行处理前,采用残差网络和门控卷积对数据进行处理,得到具有文本关系的编码序列。对于卷积网络的原始输入序列x=(x1,x2,
……
,xn),卷积核为w,任意卷积操作得特征图ci的计算公式为:
[0080][0081]
式中,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标识i的距
离。n表示句子中词的数量。xi±k表示自第i个词往前或往后数k个词的词向量。得到的特征图可以表示输入xi与上下文之间的关联程度。通过加入膨胀系数α扩大卷积宽度,再通过堆叠膨胀卷积神经网络的成熟增加网络深度,解决文本序列的长距离依赖问题和抽取全局有效信息问题;当α=1时,膨胀卷积操作就相当于全卷积操作;当α》1,膨胀卷积能够学习到更远距离的上下文信息,此时特征图ci的计算公式为:
[0082][0083]
式中,α为膨胀系数,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标识i的距离,得到的特征图可以表示输入xi与上下文之间的关联程度。在特征图ci的基础上引入门控机制(dgcnn)的卷积神经网络,输出的计算公式为:
[0084][0085]
式中,convd1和convd2表示一维卷积函数,x表示句向量,表示逐点相乘,σ为门控函数,conv1和conv2为两个卷积操作且权值不共享;对其中一个卷积进行激活操作并计算两者之间的外积,这样可以缓解神经网络的梯度消失;如果采用普通网络(plain network)类似vgg(visual geometry group)网络,没有残差,凭经验会发现随着网络深度的加深,训练错误会先减少,然后增多(并证明的错误的增加并不是由于过拟合产生,而是由于网络变深导致难以训练)。网络深度越深越好,但实际上,如果没有残差网络,对于一个普通网络来说,深度越深意味着用优化算法越难训练。实际上,随着网络深度的增加,训练误差会越来越多,这被描述为网络退化。残差网络有助于解决梯度消失、梯度爆炸和网络退化问题,让我们在训练更深网络的同时,又能保证良好的信息。因此再在门控机制的基础上引入残差网络结构,输出的计算公式为:
[0086][0087]
式中,convd1,convd2表示一维卷积函数。x表示句向量。表示逐点相乘。σ为门控函数。再通过全连接层对句子进行判断是否为关键句的二分类。训练时选择交叉熵(交叉熵为度量两个概率分布间的差异性信息。)作为损失函数,表示为:
[0088][0089]
式中,表示样本i的label,正类为1,负类为0。y表示样本i预测为正类的概率。loss表示损失函数。
[0090]
在本发明中,在抽取式摘要模型中的编码、分类从裁判文书中抽取出句子组合关键句子合集作为生成模型的输入,将输入通过模型编码、解码生成文本摘要;所述模型编码采用的是unilm预训练语言模型,通过unilm构建预训练数据集,使用目标检测的方法对文本进行目标检测,并将结果作为关键文本信息,通过关键词嵌入的方式进行输入,模型的输入由词嵌入、位置嵌入、段嵌入组成;其中词嵌入与段嵌入抽取式模型中词嵌入和段嵌入方式相同;位置嵌入为层次分解的位置编码,先使用bert训练好的位置编码向量为p1,p2,p3,

,pn,通过公式构造一套新的位置编码q1,q2,q3,

,qm,其中m》n;构造公式为:
[0091][0092]
式中,q
(i-1)
×
n+j
为位置编码。为超参数,取值为0.4。q为(i-1)
×
n+j位置的位置编码。i为第i个词。j为第j个词。u为一个向量,表示q向量的基底向量,由训练好的位置p向量
通过变换而来,pos表示词在句中的位置,取值范围为[0,n]。通过公式,将(i-1)
×
n+j的位置编码层次地表示为(i,j)。i,j对应的位置编码分别为和因为q1=p1,q2=p2,
……
,qn=pn,计算出ui,将词嵌入、位置嵌入、分段嵌入拼接为unilm模型的输入,经由unilm模型预训练层后得到的句向量x=(x1,x2,

,xn)=unilm(sent1,sent2,sent3,

,sentn)。将关键段落和关键句子信息输入unilm模型中的编码器进行编码形成综合语义表征;最后通过transformers进行解码,有助于保障形成的句子生成模型最终生成的关键信息具有语言组织方式多样性和知识点覆盖的全面性。
[0093]
在本发明中,生成的文本通过多层注意力机制的transformer层来学习文档级别的特征,在模型的解码过程中引入拷贝机制,拷贝机制包含拷贝和生成;并将位置向量与词向量相加得到包含词序信息的词向量,每一个段落中的所有包含词序信息的词向量形成一个包含上下文信息的上下文已知的词向量集合。对于多层transformer的主干网络,给定输入长度为n的文本序列x=(x1,x2,

,xn);那么第一层的transformer层输出h0的计算公式为:h0=transformer0(x)。在经过l层的transformer的输出h
l
计算公式为:
[0094]hl
=transformer1(h
l-1
)。
[0095]
h为transformer的层。最终的输入结果h
l
的计算公式为:
[0096][0097]
式中,l表示层数,l∈[1,l]。l表示transformer的总层数,表示xi输入的上下文。
[0098]
作为优选,在每个transformer模块中,加入多头注意力机制来聚合输出模块,标记输出序列需要关注的部分。对于第l层的transformer自注意力a
l
,计算公式为:
[0099][0100]
式中,a
l
为自注意力权重。softmax函数是归一化指数函数。q、k、v由输入xi线性变换得到。v
l
为第l层的value,m表示一个mask矩阵。dk是是q、k矩阵的列数,即向量的维度,防止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,是上一层到queries、values和keys的线性投影且投影的参数分别是一层到queries、values和keys的线性投影且投影的参数分别是mask矩阵m控制token之间是否允许加入,不同的mask矩阵m用来控制注意到不同的上下文,引入拷贝机制解决生成过程中带来的未登录以及重复词的问题。
[0101]
在本发明中,解码时间为t时,根据transformer最后一层h
t
和decoder的输出oj计算相关性权重计算方式为其中wc为初始化矩阵,同时计算第j个词的注意力分布公式为:
[0102][0103]
式中,n为句子中词的数量。exp为以自然常数e为底的指数函数。u为超参数。t为时间。k表示输入的序列标识,取值范围为[1,n]。j表示为第i个词。注意力分布可以解释为在
上下文查询时,第i个词的受关注程度,同下面公式对注意力分布进行信息加权平均,得到上下文表示向量h'
t

[0104][0105]
式中,h'
t
也可叫做语境向量,表示根据注意力的分布来获取关注的信息。为t时刻transformer最后一层的输出。为第j个词的注意力分布。i为序列标识的值。n为句子中词的数量。将语境向量与decoder的输出oj相连接,并通过两个线性层来产生词汇表分布计算公式如下:
[0106][0107]
式中,v'、v、b、b'是可学习参数,h'
t
为上下文表示向量,oj为decoder的输出,是词汇表中所有单词的概率分布。再引入拷贝门控函数g
t
∈[0,1]来决定当前的输出是选择从源文档进行拷贝还是从词汇表中生成新词。g
t
的计算公式为:
[0108][0109]
式中,wg、bg都是可学习参数。为t时刻transformer最后一层的输出。oj为decoder的输出。公式表示在t时刻,根据j词与其他词的注意力权重来决定下一个词是生成新词还是直接进行复制。对于每个文档,将词汇表中的词与源文档所有出现的词联合组成一个新的词库,即扩展词库。因此不管是从源文档中选择拷贝还是从词汇表中生成,都是从扩展词库中进行生成,所以最终概率计算公式为:
[0110][0111]
式中,表示的是当前单词w在给定词表生成的概率。表示根据注意力分布选择从源文档中进行拷贝的概率。如果w是一个词表外的词,那么如果w没有出现在源文档中,那么拓展词库概率分布的最终损失函数为:
[0112][0113]
式中,t为总时间。p
t
(w)为词汇分布和注意力分布计算生成概率。根据词汇分布和注意力分布计算生成概率p
t
(w),最后根据生成概率和词汇分布自动生成文本摘要。transformer生成摘要的方法,会先学习每个文本中的依存关系,再对文本间的关系建模,这样做不仅大大缩短了单次输入的序列长度,而且可以很方便地学习跨文本关联,使得生成摘要既快速又精确。
[0114]
采用本发明所述方法,经过微调能够较好的迁移到各种特定领域数据集,如旅游、医学、新闻和自然科学等领域。
[0115]
与现有技术相比,本发明的技术方案具有以下有益技术效果:
[0116]
1、在本发明中,通过抽取模式与生成模式相结合,有效解决单一抽取模式所形成摘要的可读性差以及连续性差,同时也解决了单一生成模式形成的摘要意思与原文意思相悖以及忠实度不高的问题。
[0117]
2、在本发明中,采用两个阶段来形成裁判文书的摘要,第一阶段从裁判文书中抽取句子组合成关键句子,第二阶段将抽取出的关键句子作为生成模式的的输入,通过模型编码、解码形成文本摘要,通过两个阶段能确保文本摘要的准确性、忠实程度。
[0118]
3、在本发明中,在源文档中摘取关键信息组成关键句子,再通过生成模式将关键句子进行编码组合形成与源文档意思相同的摘要,大幅度减少了人工摘要文本的篇幅。
附图说明
[0119]
图1本发明司法裁判文书的两阶段混合式自动摘要方法结构示意图。
[0120]
图2本发明司法裁判文书的两阶段混合式自动摘要方法的抽取式模型结构示意图。
[0121]
图3本发明司法裁判文书的两阶段混合式自动摘要方法的生成式模型结构示意图。
具体实施方式
[0122]
下面对本发明的技术方案进行举例说明,本发明请求保护的范围包括但不限于以下实施例。
[0123]
一种针对司法裁判文书的两阶段混合式自动摘要方法,该方法包括以下几个步骤:
[0124]
1)对裁判文书中关键句子的相似度进行计算,并对关键句子的摘要模型进行编码、分类,最后将摘要关键句抽取。
[0125]
2)从裁判文书中抽取出句子组合成关键句子合集。
[0126]
3)将步骤2)中的关键句子合集作为生成式模型的输入,通过模型编码、解码生成文本摘要。
[0127]
作为优选,步骤1)中关键句子的相似度进行计算包括:
[0128]
步骤1.1)对裁判文书进行分句,然后在裁判文书中找到人工标准的句子,再从原文中寻找出相似度最高的句子,作为抽取式摘要的标签数据集。通过余弦相似度计算人工摘要中的句子与源文档中句子的相似度得分,选择源文档中得分最高的句子,即关键句子。
[0129]
作为优选,步骤1)中还包括:
[0130]
步骤1.2)文本向量化,通过相似度计算后获得的句子与裁判文书中的原文在同一行中,采用jieba对源文本、标签数据、人工摘要进行分词。在分词过程中,爬取法律名词作为词库的补充,然后再使用bert模型进行词向量化。
[0131]
作为优选,步骤1)中对关键句子的摘要模型进行编码包括:
[0132]
抽取式模型编码。在编码层,词嵌入采用目标词嵌入向量,对于一篇有n个句子的文本d={s1,s2,
……
,sn},通过两个特殊标记进行预处理。首先,在每个句子的句首插入[cls]标记、句尾插入[sep]标记组成输入。[cls]标记代表当前句子的向量,[sep]标记代表分句用于切分文本中的句子。在词嵌入的基础上,还设有输入的位置嵌入和分段嵌入。
[0133]
作为优选,所述位置嵌入。将单词的位置信息编码为特征向量,位置向量采用了《attention isallyouneed》中的方案:
[0134]
pe
(pos,2i)
=sin(pos/10000
2i/dmodel
)。
[0135]
pe
(pos,2i+1)
=cos(pos/10000
2i/dmodel
)。
[0136]
式中,pos表示词在句中的位置,取值范围为[0,n]。i指的是词向量的维度。dmodel为bert的输入为128-1024,优选为256-512。
[0137]
作为优选,所述分段嵌入。用于区分两个句子,不同句子之前分别为a和b标记,所以输入的句子表示为(ea,eb,ea,eb,
……
)。将词嵌入、位置嵌入和分段嵌入表示拼接为bert模型输入。经由bert模型预训练层后得到的句向量x=(x1,x2,
……
,xn)=bert(sent1,sent2,sent3,
……
,sentn),其中senti表示为原裁判文书的第i个句子,xi对应的senti经bert编码后的向量,xi需要处理的第i个向量序列。
[0138]
作为优选,步骤1)中对关键句子的摘要模型进行分类包括:
[0139]
分类层,采用膨胀残差门控卷积神经网络结构,即膨胀残差门控卷积神经网络结构为drgcnn。通过堆叠多层drgcnn网络来做摘要关键句抽取,drgcnn的层数为6-10层,优选为7-8层,每层的膨胀系数分别为1、2、4、8、1、1。对于卷积网络的原始输入序列x=(x1,x2,
……
,xn),卷积核为w,任意卷积操作的特征图ci的计算公式为:
[0140][0141]
式中,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标识i的距离。n表示句子中词的数量。xi±k表示自第i个词往前或往后数k个词的词向量。得到的特征图可以表示输入xi与上下文之间的关联程度。
[0142]
作为优选,通过加入膨胀系数α扩大卷积宽度。当α=1时,膨胀卷积操作就相当于全卷积操作。α》1,膨胀卷积能够学习到更远距离的上下文信息,特征图ci的计算公式为:
[0143][0144]
α为膨胀系数,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标识i的距离,得到的特征图可以表示输入xi与上下文之间的关联程度。在特征图ci的基础上引入门控机制的卷积神经网络,输出的计算公式为:
[0145][0146]
式中,convd1,convd2表示一维卷积函数。x表示句向量。表示逐点相乘。σ为门控函数。convd1和convd2为两个卷积函数操作且权值不共享。
[0147]
作为优选,在门控机制的基础上引入残差结构,输出的计算公式为:
[0148][0149]
式中,convd1,convd2表示一维卷积函数。x表示句向量。表示逐点相乘。σ为门控函数。
[0150]
作为优选,再通过全连接层对句子进行判断是否为关键句的二分类。训练时选择交叉熵作为损失函数,表示为:
[0151][0152]
式中,表示样本i的标签数据,正类为1,负类为0。y表示样本i预测为正类的概率。loss表示损失函数。
[0153]
作为优选,步骤2)中通过抽取式摘要模型中的编码、分类从裁判文书中抽取出句子组合关键句子合集作为生成模型的输入。
[0154]
作为优选,步骤3)中生成式模型包括:组合关键句子合集作为生成模型的输入,将输入通过模型编码、解码生成文本摘要。所述模型编码采用的是unilm预训练语言模型,模型的输入由词嵌入、段嵌入、位置嵌入组成。
[0155]
作为优选,所述词嵌入为对于一篇有n个句子的文本d={s1,s2,
……
,sn},通过两个特殊标记进行预处理。首先,在每个句子的句首插入[cls]标记、句尾插入[sep]标记组成输入。[cls]标记代表当前句子的向量,[sep]标记代表分句用于切分文本中的句子。
[0156]
作为优选,段嵌入用于区分两个句子,不同句子之前分别为a和b标记,所以输入的句子表示为(ea,eb,ea,eb,
……
)。
[0157]
作为优选,所述的模型输入中的位置嵌入为层次分解的位置编码。先使用bert训练好的位置编码向量为p1,p2,p3,

,pn,通过公式构造一套新的位置编码q1,q2,q3,

,qm,式中,构造公式为:
[0158][0159]q(i-1)
×
n+j
为位置编码。为超参数,取值为0.4。q为(i-1)
×
n+j位置的位置编码。i为第i个词。j为第j个词。u为一个向量,表示q向量的基底向量,由训练好的位置p向量通过变换而来,pos表示词在句中的位置,取值范围为[0,n]。通过公式,将(i-1)
×
n+j的位置编码层次地表示为(i,j)。i,j对应的位置编码分别为和因为q1=p1,q2=p2,
……
,qn=pn,计算出ui,将词嵌入、位置嵌入、分段嵌入拼接为unilm模型的输入,经由unilm模型预训练层后得到的句向量x=(x1,x2,

,xn)=unilm(sent1,sent2,sent3,

,sentn)。
[0160]
作为优选,步骤3)中生成模型中解码生成文本摘要包括:所述摘要生成通过多层注意力机制的transfoemer层来学习文档级别的特征。在模型的解码过程中引入拷贝机制,拷贝机制包含拷贝和生成。对于多层transformer的主干网络,给定输入长度为n的文本序列x=(x1,x2,

,xn)。第一层的transformer层输出h0的计算公式为:h0=transformer0(x)。在经过l层的transformer的输出h
l
计算公式为:
[0161]hl
=transformer1(h
l-1
)。
[0162]
h为transformer的层。最终的输入结果h
l
的计算公式为:
[0163][0164]
式中,l表示层数,l∈[1,l]。l表示transformer的总层数,表示xi输入的上下文。
[0165]
作为优选,在每个transformer模块中,加入多头注意力机制来聚合输出模块,标记输出序列需要关注的部分。对于第l层的transformer自注意力a
l
,计算公式为:
[0166][0167]
式中,a
l
为自注意力权重。softmax函数是归一化指数函数。q、k、v由输入xi线性变换得到。v
l
为第l层的value,m表示一个mask矩阵。dk是是q、k矩阵的列数,即向量的维度,防
止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,是上一层到queries、values和keys的线性投影且投影的参数分别是keys的线性投影且投影的参数分别是mask矩阵m控制token之间是否允许加入,不同的mask矩阵m用来控制注意到不同的上下文,引入拷贝机制解决生成过程中带来的未登录以及重复词的问题。
[0168]
作为优选,生成文本摘要还包括:在解码时间为t时,根据transformer最后一层h
t
和decoder的输出oj计算相关性权重计算方式为其中wc为初始化矩阵,同时计算第j个词的注意力分布公式为:
[0169][0170]
式中,n为句子中词的数量。exp为以自然常数e为底的指数函数。u为超参数。t为时间。k表示输入的序列标识,取值范围为[1,n]。j表示为第i个词。注意力分布可以解释为在上下文查询时,第i个词的受关注程度,同下面公式对注意力分布进行信息加权平均,得到上下文表示向量h'
t

[0171][0172]
h'
t
也可叫做语境向量,表示根据注意力的分布来获取关注的信息。为t时刻transformer最后一层的输出。为第j个词的注意力分布。i为序列标识的值。n为句子中词的数量。
[0173]
作为优选,将语境向量与decoder的输出oj相连接,并通过两个线性层来产生词汇表分布计算公式如下:
[0174][0175]
式中,v'、v、b、b'是可学习参数,h'
t
为上下文表示向量,oj为decoder的输出,是词汇表中所有单词的概率分布。
[0176]
作为优选,再引入拷贝门控函数g
t
∈[0,1]来决定当前的输出是选择从源文档进行拷贝还是从词汇表中生成新词。g
t
的计算公式为:
[0177][0178]
式中,wg、bg都是可学习参数。为t时刻transformer最后一层的输出。oj为decoder的输出。公式表示在t时刻,根据j词与其他词的注意力权重来决定下一个词是生成新词还是直接进行复制。
[0179]
作为优选,对于每个文档,将词汇表中的词与源文档所有出现的词联合组成一个新的词库,即扩展词库。因此不管是从源文档中选择拷贝还是从词汇表中生成,都是从扩展词库中进行生成,所以最终概率计算公式为:
[0180][0181]
式中,表示的是当前单词w在给定词表生成的概率。表示根据
注意力分布选择从源文档中进行拷贝的概率。
[0182]
作为优选,如果w是一个词表外的词,那么如果w没有出现在源文档中,那么拓展词库概率分布的最终损失函数为:
[0183][0184]
式中,t为总时间。p
t
(w)为词汇分布和注意力分布计算生成概率。
[0185]
根据词汇分布和注意力分布计算生成概率p
t
(w),最后根据生成概率和词汇分布自动生成文本摘要。
[0186]
实施例1
[0187]
如图1所示,一种针对司法裁判文书的两阶段混合式自动摘要方法,该方法包括以下几个步骤:
[0188]
1)对裁判文书中关键句子的相似度进行计算,并对关键句子的摘要模型进行编码、分类,最后将摘要关键句抽取。
[0189]
2)从裁判文书中抽取出句子组合成关键句子合集。
[0190]
3)将步骤2)中的关键句子合集作为生成式模型的输入,通过模型编码、解码生成文本摘要。
[0191]
实施例2
[0192]
重复实施例1,如图2所示,步骤1.1)对裁判文书进行分句,然后在裁判文书中找到人工标准的句子,再从原文中寻找出相似度最高的句子,作为抽取式摘要的标签数据集。通过余弦相似度计算人工摘要中的句子与源文档中句子的相似度得分,选择源文档中得分最高的句子,即关键句子。
[0193]
实施例3
[0194]
重复实施例2,只是步骤1)中将从源文档中选出得分最高的句子进行向量化。通过相似度计算后获得的句子与裁判文书中的原文在同一行中,采用jieba对源文本、标签数据、人工摘要进行分词。在分词过程中,爬取法律名词作为词库的补充,然后再使用bert模型进行词向量化。
[0195]
实施例4
[0196]
重复实施例3,只是步骤1)中对关键句子抽取式模型编码,在编码层,词嵌入采用目标词嵌入向量,在词嵌入的基础上,还有输入位置嵌入和分段嵌入。
[0197]
在句子编码层,首先将句子分词获得词级信息进行词嵌入表示,转换成句子向量,作为输入:
[0198]
对于一篇有n个句子的文本d={s1,s2,
……
,sn},通过两个特殊标记进行预处理。首先,在每个句子的句首插入[cls]标记、句尾插入[sep]标记组成输入。[cls]标记代表当前句子的向量,[sep]标记代表分句用于切分文本中的句子。
[0199]
位置嵌入:将单词的位置信息编码为特征向量,位置向量采用了《attentionisallyouneed》中的方案:
[0200]
pe
(pos,2i)
=sin(pos/10000
2i/dmodel
)。
[0201]
pe
(pos,2i+1)
=cos(pos/10000
2i/dmodel
)。
[0202]
式中,式中,pos表示词在句中的位置,取值范围为[0,n]。i指的是词向量的维度。
dmodel为bert的输入为256。
[0203]
分段嵌入,用于区分两个句子,不同句子之前分别为a和b标记,所以输入的句子表示为(ea,eb,ea,eb,
……
)。将词嵌入、位置嵌入和分段嵌入表示拼接为bert模型输入。经由bert模型预训练层后得到的句向量x=(x1,x2,
……
,xn)=bert(sent1,sent2,sent3,
……
,sentn),其中senti表示为原裁判文书的第i个句子,xi对应的senti经bert编码后的向量,xi需要处理的第i个向量序列。
[0204]
每个句子向量通过词嵌入、位置嵌入、分段嵌入来表示,这样就完成了文本向量化工作。
[0205]
实施例5
[0206]
重复实施例4,dmodel为bert的输入为512。
[0207]
实施例6
[0208]
重复实施例5,dmodel为bert的输入为1024。
[0209]
实施例7
[0210]
重复实施例6,只是步骤1)中通过编码后的句子通过bert+全局平均池化将词嵌入、位置嵌入以及分段嵌入合在一起,输出到dense层,将编码过程中提取的特征,在dense经过非线性变化,提取这些特征之间的关联,最后映射到输出空间上。
[0211]
实施例8
[0212]
重复实施例7,只是步骤1)中还包括分类层,通过第一个dense层后采用膨胀残差门控卷积神经网络结构,即drgcnn。通过堆叠drgcnn网络层数来做摘要关键句抽取,drgcnn的层数为6层,每层的膨胀系数分别为1、2、4、8、1、1。对于卷积网络的原始输入序列x=(x1,x2,
……
,xn),卷积核为w,任意卷积操作得特征图ci的计算公式为:
[0213][0214]
式中,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标识i的距离。n表示句子中词的数量。xi±k表示自第i个词往前或往后数k个词的词向量。得到的特征图可以表示输入xi与上下文之间的关联程度。
[0215]
实施例9
[0216]
重复实施例8,只是步骤1)中堆叠drgcnn网络层数来做摘要关键句抽取,drgcnn的层数为8层,每层的膨胀系数分别为1、2、4、8、1、1。
[0217]
实施例10
[0218]
重复实施例9,堆叠drgcnn网络层数来做摘要关键句抽取,drgcnn的层数为10层,每层的膨胀系数分别为1、2、4、8、1、1。
[0219]
实施例11
[0220]
重复实施例10,只是步骤1)中通过加入膨胀系数α扩大卷积宽度。,再通过堆叠膨胀卷积神经网络的成熟增加网络深度,解决文本序列的长距离依赖问题和抽取全局有效信息。当α=1时,膨胀卷积操作就相当于全卷积操作。α》1,膨胀卷积能够学习到更远距离的上下文信息,特征图ci的计算公式为:
[0221][0222]
α为膨胀系数,wc表示一维卷积核,也叫权重系数,是可学习参数。k表示与输入标
识i的距离,得到的特征图可以表示输入xi与上下文之间的关联程度。在特征图ci的基础上引入门控机制的卷积神经网络,输出的计算公式为:
[0223][0224]
式中,convd1,convd2表示一维卷积函数。x表示句向量。表示逐点相乘。σ为门控函数。convd1和convd2为两个卷积函数操作且权值不共享。
[0225]
在门控机制的基础上引入残差结构,输出的计算公式为:
[0226][0227]
式中,convd1,convd2表示一维卷积函数。x表示句向量。表示逐点相乘。σ为门控函数。
[0228]
再通过全连接层对句子进行判断是否为关键句的二分类。训练时选择交叉熵作为损失函数,表示为:
[0229][0230]
式中,表示样本i的标签数据,正类为1,负类为0。y表示样本i预测为正类的概率。loss表示损失函数。
[0231]
实施例12
[0232]
重复实施例11,如图3所示,将步骤2)中通过抽取式摘要模型中的编码、分类从裁判文书中抽取出句子组合关键句子合集作为生成模型的输入。
[0233]
实施例13
[0234]
重复实施例12,只是步骤3)中组合关键句子合集作为生成模型的输入,将输入通过模型编码、解码生成文本摘要。所述模型编码采用的是unilm预训练语言模型,模型的输入由词嵌入、段嵌入、位置嵌入组成。所述词嵌入为对于一篇有n个句子的文本d={s1,s2,
……
,sn},通过两个特殊标记进行预处理。首先,在每个句子的句首插入[cls]标记、句尾插入[sep]标记组成输入。[cls]标记代表当前句子的向量,[sep]标记代表分句用于切分文本中的句子。段嵌入用于区分两个句子,不同句子之前分别为a和b标记,所以输入的句子表示为(ea,eb,ea,eb,
……
)。所述的模型输入中的位置嵌入为层次分解的位置编码。先使用bert训练好的位置编码向量为p1,p2,p3,

,pn,通过公式构造一套新的位置编码q1,q2,q3,

,qm,式中,构造公式为:
[0235][0236]q(i-1)
×
n+j
为位置编码。为超参数,取值为0.4。q为(i-1)
×
n+j位置的位置编码。i为第i个词。j为第j个词。u为一个向量,表示q向量的基底向量,由训练好的位置p向量通过变换而来,pos表示词在句中的位置,取值范围为[0,n]。通过公式,将(i-1)
×
n+j的位置编码层次地表示为(i,j)。i,j对应的位置编码分别为和因为q1=p1,q2=p2,
……
,qn=pn,计算出ui,将词嵌入、位置嵌入、分段嵌入拼接为unilm模型的输入,经由unilm模型预训练层后得到的句向量x=(x1,x2,

,xn)=unilm(sent1,sent2,sent3,

,sentn)。
[0237]
实施例14
[0238]
重复实施例13,只是步骤3)中生成模型中解码生成文本摘要包括:所述摘要生成通过多层注意力机制的transfoemer层来学习文档级别的特征。在模型的解码过程中引入拷贝机制,拷贝机制包含拷贝和生成。对于多层transformer的主干网络,给定输入长度为n的文本序列x=(x1,x2,

,xn)。第一层的transformer层输出h0的计算公式为:h0=transformer0(x)。在经过l层的transformer的输出h
l
计算公式为:
[0239]hl
=transformer1(h
l-1
)。
[0240]
h为transformer的层。最终的输入结果h
l
的计算公式为:
[0241][0242]
式中,l表示层数,l∈[1,l]。l表示transformer的总层数,表示xi输入的上下文。在每个transformer模块中,加入多头注意力机制来聚合输出模块,标记输出序列需要关注的部分。对于第l层的transformer自注意力a
l
,计算公式为:
[0243][0244]
式中,a
l
为自注意力权重。softmax函数是归一化指数函数。q、k、v由输入xi线性变换得到。v
l
为第l层的value,m表示一个mask矩阵。dk是是q、k矩阵的列数,即向量的维度,防止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,止q、k内积过大,起调节作用。t表示为转置。式中,是上一层到queries、values和keys的线性投影且投影的参数分别是一层到queries、values和keys的线性投影且投影的参数分别是mask矩阵m控制token之间是否允许加入,不同的mask矩阵m用来控制注意到不同的上下文,引入拷贝机制解决生成过程中带来的未登录以及重复词的问题。
[0245]
实施例15
[0246]
重复实施例14,只是步骤3)中生成文本摘要还包括在解码时间为t时,根据transformer最后一层h
t
和decoder的输出oj计算相关性权重计算方式为其中wc为初始化矩阵,同时计算第j个词的注意力分布公式为:
[0247][0248]
式中,n为句子中词的数量。exp为以自然常数e为底的指数函数。u为超参数。t为时间。k表示输入的序列标识,取值范围为[1,n]。j表示为第i个词。注意力分布可以解释为在上下文查询时,第i个词的受关注程度,同下面公式对注意力分布进行信息加权平均,得到上下文表示向量h'
t

[0249][0250]
式中,h'
t
也可叫做语境向量,表示根据注意力的分布来获取关注的信息。为t时刻transformer最后一层的输出。为第j个词的注意力分布。i为序列标识的值。n为句子中词的数量。
[0251]
将语境向量与decoder的输出oj相连接,并通过两个线性层来产生词汇表分布计算公式如下:
[0252][0253]
式中,v'、v、b、b'是可学习参数,h'
t
为上下文表示向量,oj为decoder的输出,是词汇表中所有单词的概率分布。
[0254]
再引入拷贝门控函数g
t
∈[0,1]来决定当前的输出是选择从源文档进行拷贝还是从词汇表中生成新词。g
t
的计算公式为:
[0255][0256]
式中,wg、bg都是可学习参数。为t时刻transformer最后一层的输出。oj为decoder的输出。公式表示在t时刻,根据j词与其他词的注意力权重来决定下一个词是生成新词还是直接进行复制。对于每个文档,将词汇表中的词与源文档所有出现的词联合组成一个新的词库,即扩展词库。因此不管是从源文档中选择拷贝还是从词汇表中生成,都是从扩展词库中进行生成,所以最终概率计算公式为:
[0257][0258]
式中,表示的是当前单词w在给定词表生成的概率。表示根据注意力分布选择从源文档中进行拷贝的概率。如果w是一个词表外的词,那么如果w没有出现在源文档中,那么拓展词库概率分布的最终损失函数为:
[0259][0260]
式中,t为总时间。p
t
(w)为词汇分布和注意力分布计算生成概率。
[0261]
根据词汇分布和注意力分布计算生成概率p
t
(w),最后根据生成概率和词汇分布自动生成文本摘要。
[0262]
实施例16
[0263]
重复实施例15,如图3所示,例如,输入(被告七日内向原告支付工资五千元),预测句子为(被告向原告付工资),在输入的句子子前设置[cls]作为当前句子向量,在输入局句尾输入[sep]标记代表分句用于切分文本中的句子。经由unilm模型预训练层后得到的句向量x=(x1,x2,

,xn)=unilm(sent1,sent2,sent3,

,sentn),输入到transfoemer层,通过最终概率计算公式为:得出(被告向原告付工资[sep])。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1