基于多类型词信息引导的汉越跨语言摘要生成方法

文档序号:30495939发布日期:2022-06-22 04:30阅读:158来源:国知局
基于多类型词信息引导的汉越跨语言摘要生成方法

1.本发明涉及基于多类型词信息引导的汉越跨语言摘要生成方法,属于自然语言处理技术领域。


背景技术:

2.跨语言摘要旨在对中文文本重要信息进行提炼,以生成另一语言的摘要。汉语-越南语的跨语言摘要任务是用于帮助中文或越南语的用户高效、准确地获取对方的文本信息,对促进两国信息和文化交流有着重要意义。当前跨语言摘要任务大多依赖于机器翻译,而越南语这类低资源语种翻译效果不佳,在汉越跨语言摘要面临着数据稀缺下,训练的模型存在生成摘要信息不符合原文事实、双语语义对齐困难的问题。
3.针对以上问题,在零样本低资源的条件下,研究人员提出一种“教师-学生”网络的方式。duan等人将目标语言文本翻译为源语言文本,利用单语摘要数据训练得到的目标语言摘要模型作为“教师”来指导“学生”跨语言摘要模型中摘要词的概率生成,并提出一个新的注意力传播机制来指导“学生”的注意力权重。nguyen等人基于mbert模型,在解码时使用蒸馏损失使两种语言的摘要在向量空间中的表征进一步逼近,在数据规模小的条件下取得了良好的跨语言摘要效果。cao等人提出了一种共同学习跨语言对齐并进行摘要的方法,其中针对低资源场景下无监督训练的情况,采用对抗训练的方式来使两种语言的语义分布在空间上尽可能地相似,从而实现跨语言迁移,但是实验表明在无监督的条件下跨语言摘要的效果并不理想。因而,对于低资源跨语言摘要任务,完全无监督的方式不完全可靠,有必要引入一定的监督信号。跨语言摘要中存在着一定的翻译模式,关键信息的源文本单词得到复制,将其翻译后获得目标语言的部分摘要词,且汉越概率词典在机器翻译这种词对齐要求更高的跨语言文本生成任务中有着广泛的应用,因而能够将汉越双语概率词典作为外部监督信号,引导汉越双语间的词对齐;考虑到dou等人提出关键词、核心句等人显示信号能够引导对源文本重要信息编码,生成符合原文事实的摘要。以上研究为同时利用关键词信息和词对齐信息提供了思路。


技术实现要素:

4.本发明提供了基于多类型词信息引导的汉越跨语言摘要生成方法,用于解决汉越跨语言摘要生成中缺少重要信息及在跨语言摘要生成中双语语义对齐困难的问题。
5.本发明的技术方案是:基于多类型词信息引导的汉越跨语言摘要生成方法,所述基于多类型词信息引导的汉越跨语言摘要生成方法的具体步骤如下:
6.step1、语料数据集构建:获取汉越跨语言摘要数据集、汉越翻译数据集;
7.step2、对汉语-越南语语料预处理:对中文和越南语数据进行分词;
8.step3、获取中文文本中的关键词:对中文文本,使用贪婪算法抽取出rouge值最大的重要句子,此后采用textrank算法抽取关键词;
9.step4、构建汉越双语概率词典:使用构建的汉越翻译数据集,利用fast-align方
法来构建汉越双语概率词典;
10.step5、利用多类词信息引导摘要的生成:模型以transformer作为基本框架,并基于指针生成网络来利用编码出的关键词信息及汉越双语概率词典生成的词对齐信息,利用多类词信息来指导摘要的生成。
11.作为本发明的进一步方案,所述step1中,基于lcsts微博短文本中文摘要数据集,通过对中文单语摘要数据集,使用谷歌翻译并采取往返翻译策略得到汉越跨语言摘要数据集。
12.作为本发明的进一步方案,所述step2中,对所有中文数据使用jieba分词工具进行处理,对越南语使用vncorenlp分词工具进行分词。
13.作为本发明的进一步方案,所述step3中,首先使用贪婪搜索策略,利用oracle抽取出基于中文文本摘要下最大的rouge值的重要句子集g
sen
,其序列表示为:
14.g
sen
={g1,g2,...,g
p
}
15.式中:g
sen
表示抽取的重要句子集序列,p表示句子的序列长度;然后,根据上述抽取的句子,对其使用textrank算法抽取关键词,得到关键词输入序列g
key

16.g
key
={g1,g2,...,gk}
17.ꢀꢀꢀꢀ
=textrank{g1,g2,...,g
p
}
18.式中:k表示对重要句子抽取关键词的个数,k≤p。
19.作为本发明的进一步方案,所述step4的具体步骤如下:
20.基于构建的汉越翻译数据集,在汉-越和越-汉两个方向上使用fast-align工具抽取10个候选对齐词,并保留具有双向对齐概率的词;然后通过最大似然估计计算双向对齐词的平均概率,得到侯选对齐词的翻译概率最后,滤除侯选对齐词中概率分布的词,将剩余的翻译概率重新进行归一化得到汉越双语概率词典;
[0021][0022]
式中:表示某个单词对应10个侯选对齐词中的第j个候选词;
[0023]
基于上述构建的汉越双语概率词典,将源语言文本输入的一个单词对应的越南语候选对齐词的翻译概率进行排序,保留其中的m个最大概率的单词,归一化处理后得到具有m个侯选对齐词的汉越双语概率词典。
[0024]
作为本发明的进一步方案,所述step5的具体步骤如下:
[0025]
step5.1、利用汉越双语概率词典获得关键信息词的翻译概率;
[0026]
基于指针生成网络中的复制机制,将关键词信息引导下具有重要信息的源文本复制词作为关键信息词,源文本中关键信息词的上下文信息对越南语侯选对齐词的最终选择有着重要的作用,为了利用源文本关键信息词的上下文信息,通过翻译注意力模块来利用构建的汉越双语概率词典,模型因而能够动态地生成侯选对齐词的翻译概率:
[0027][0028]
式中:w
src
是每个关键信息词的隐状态表示,作为注意力机制中的q,w
tgt
是在构建
的汉越双语概率词典下每个关键信息词的隐状态表示w
src
对应的候选对齐词表征,作为k和v,表示利用注意力机制,动态地产生每个关键信息词的隐状态表示w
src
对应的候选对齐词的翻译概率,作为关键信息词的翻译概率。
[0029]
step5.2、利用关键词信息引导对源文本重要信息编码,以使生成的摘要词具有源文本重要信息、符合原文事实;利用词对齐信息引导关键信息的双语对齐,将关键信息准确地用于越南语的摘要词生成中;
[0030]
在解码端,相比于传统的transformer架构,每一个解码层包含了自注意力模块、基于关键词信息引导的编解码注意力模块、基于指针生成网络的汉越双语词对齐信息编解码注意力模块及前馈神经网络四个模块;
[0031]
首先,解码端将输入序列y={y1,y2,..,yn}经词嵌入和位置嵌入后得到的表征y输入到自注意力模块,表示为:
[0032]yout1
=ln(y+selfattention(y))
[0033]
然后,依次通过两个编解码注意力模块,在基于关键词信息引导的编解码注意力模块中,将自注意力模块的输出y
out1
和关键词编码器的输出g作为该模块的输入,生成具有关键词信息引导的表征y
out2
;随后,在基于指针生成网络的汉越双语词对齐信息编解码注意力模块中,将上述输出的具有关键词信息引导的表征y
out2
和源文本编码后的表征x作为输入,从而利用关键词信息引导生成具有源文本重要信息的表征y
out3
,这一过程表示为:
[0034]yout2
=ln(y
out1
+crossattention(y
out1
,g))
[0035]yout3
=ln(y
out2
+crossattention(y
out2
,x))
[0036]
对于上述两个编解码注意力模块,采用多头注意力模块来获取多个子空间下不同的信息表征,此时每一个头都利用了点积注意力;其中,将关键词或中文文本序列经编码器编码后,输入到基于关键词信息引导的编解码注意力模块、基于指针生成网络的汉越双语词对齐信息编解码注意力模块作为查询(q)、键(k),自注意力模块或基于关键词信息引导的编解码注意力模块的输出作为值(v),每一个头的编解码注意力计算为:
[0037][0038]
式中:dk表示键的维度;
[0039]
将每个注意力头相连:
[0040]
multihead(q,k,v)=concat(head1,head2,...,headh)
[0041]
式中:式中:是权重参数矩阵,h是注意力头的数量;
[0042]
最后将表征y
out3
输入到前馈神经网络模块:
[0043]yout
=ln(y
out3
+fnn(y
out3
))
[0044]
该模块包含两个线性变换,中间有一个relu激活函数,其对应计算公式为:
[0045]
fnn(x)=max(w1+b1,0)w2+b2[0046]
上述ln表示层归一化;
[0047]
为利用双语概率词典中的词对齐信息,模型从词对齐编解码注意力模块引入指针生成网络,使用p
gate
来选择从解码端生成一个单词,或者从源文本复制一个单词,对复制词
引入关键词翻译概率来动态地用词对齐信息,将h
t
作为解码端t时刻隐状态的表征,得到指针生成网络中的软控门p
gate

[0048]
p
gate
=σ(w2(w1h
t
+e1)+e2)
[0049]
式中:w1,w2表示需要训练的参数,e1,e2表示偏置向量,σ表示sigmoid激活函数,基于指针生成网络,最终汉越跨语言摘要词的生成概率分布为:
[0050][0051]
式中:表示关键信息词的隐状态表示w
src
对应候选对齐词w
tgt
的翻译概率,pn表示神经概率分布。
[0052]
本发明的有益效果是:本发明利用关键词信息引导对源文本重要信息的编码,生成摘要的信息更加符合原文事实;利用双语概率词典中的词对齐信息,使得越南语摘要词的生成更加准确,在构建的汉越跨语言摘要数据集上进行实验,验证了本发明在汉越跨语言摘要上的有效性和优越性。
附图说明
[0053]
图1为本发明方法对应的模型图;
[0054]
图2为本发明中构建的双语概率词典示例图。
具体实施方式
[0055]
实施例1:如图1-图2所示,基于多类型词信息引导的汉越跨语言摘要生成方法,所述基于多类型词信息引导的汉越跨语言摘要生成方法的具体步骤如下:
[0056]
step1、语料数据集构建:获取汉越跨语言摘要数据集、汉越翻译数据集;
[0057]
step2、对汉语-越南语语料预处理:对中文和越南语数据进行分词;
[0058]
step3、获取中文文本中的关键词:对中文文本,使用贪婪算法抽取出rouge值最大的重要句子,此后采用textrank算法抽取关键词;
[0059]
step4、构建汉越双语概率词典:使用构建的汉越翻译数据集,利用fast-align方法来构建汉越双语概率词典;
[0060]
step5、利用多类词信息引导摘要的生成:模型以transformer作为基本框架,并基于指针生成网络来利用编码出的关键词信息及汉越双语概率词典生成的词对齐信息,利用多类词信息来指导摘要的生成。
[0061]
作为本发明的进一步方案,所述step1中,基于lcsts微博短文本中文摘要数据集,通过对中文单语摘要数据集,使用谷歌翻译并采取往返翻译策略得到15万对汉越跨语言摘要数据集。通过爬取多语言维基百科等人网站获取双语平行句对,储存、清洗后得到具有25万汉越翻译句子对的翻译数据集。
[0062]
作为本发明的进一步方案,所述step2中,对所有中文数据使用jieba分词工具进行处理,对越南语使用vncorenlp分词工具进行分词。
[0063]
作为本发明的进一步方案,所述step3中,对于关键词的选取,若是直接对中文文本直接抽取关键词,输入的关键词可能存与最终的生成摘要不相关的信息,这些关键词不能对中重要信息进行引导,甚至产生干扰。因而为减少一定的干扰信息,首先使用贪婪搜索
策略,利用oracle抽取出基于中文文本摘要下最大的rouge值的重要句子集g
sen
,其序列表示为:
[0064]gsen
={g1,g2,...,g
p
}
[0065]
式中:g
sen
表示抽取的重要句子集序列,p表示句子的序列长度;然后,根据上述抽取的句子,对其使用textrank算法抽取关键词,得到关键词输入序列g
key

[0066]gkey
={g1,g2,...,gk}
[0067]
ꢀꢀꢀꢀ
=textrank{g1,g2,...,g
p
}
[0068]
式中:k表示对重要句子抽取关键词的个数,k≤p。
[0069]
作为本发明的进一步方案,所述step4的具体步骤如下:
[0070]
基于构建的汉越翻译数据集,在汉-越和越-汉两个方向上使用fast-align工具抽取10个候选对齐词,并保留具有双向对齐概率的词;然后通过最大似然估计计算双向对齐词的平均概率,得到侯选对齐词的翻译概率最后,滤除侯选对齐词中概率分布的词,将剩余的翻译概率重新进行归一化得到汉越双语概率词典;
[0071][0072]
式中:表示某个单词对应10个侯选对齐词中的第j个候选词;
[0073]
基于上述构建的汉越双语概率词典,将源语言文本输入的一个单词对应的越南语候选对齐词的翻译概率进行排序,保留其中的m个最大概率的单词,归一化处理后得到具有m个侯选对齐词的汉越双语概率词典,以图2示例,其中cn和vn分别表示中文、越南语单词,prob表示对应的翻译概率,m的取值为5。
[0074]
作为本发明的进一步方案,所述step5的具体步骤如下:
[0075]
step5.1、利用汉越双语概率词典获得关键信息词的翻译概率;
[0076]
基于指针生成网络中的复制机制,将关键词信息引导下具有重要信息的源文本复制词作为关键信息词,源文本中关键信息词的上下文信息对越南语侯选对齐词的最终选择有着重要的作用,为了利用源文本关键信息词的上下文信息,通过翻译注意力模块来利用构建的汉越双语概率词典,模型因而能够动态地生成侯选对齐词的翻译概率:
[0077][0078]
式中:w
src
是每个关键信息词的隐状态表示,作为注意力机制中的q,w
tgt
是在构建的汉越双语概率词典下每个关键信息词的隐状态表示w
src
对应的候选对齐词表征,作为k和v,表示利用注意力机制,动态地产生每个关键信息词的隐状态表示w
src
对应的候选对齐词的翻译概率,作为关键信息词的翻译概率。
[0079]
step5.2、利用关键词信息引导对源文本重要信息编码,以使生成的摘要词具有源文本重要信息、符合原文事实;利用词对齐信息引导关键信息的双语对齐,将关键信息准确地用于越南语的摘要词生成中;
[0080]
在解码端,相比于传统的transformer架构,每一个解码层包含了自注意力模块、基于关键词信息引导的编解码注意力模块、基于指针生成网络的汉越双语词对齐信息编解
码注意力模块及前馈神经网络四个模块;
[0081]
首先,解码端将输入序列y={y1,y2,..,yn}经词嵌入和位置嵌入后得到的表征y输入到自注意力模块,表示为:
[0082]yout1
=ln(y+selfattention(y))
[0083]
然后,依次通过两个编解码注意力模块,在基于关键词信息引导的编解码注意力模块中,将自注意力模块的输出y
out1
和关键词编码器的输出g作为该模块的输入,生成具有关键词信息引导的表征y
out2
;随后,在基于指针生成网络的汉越双语词对齐信息编解码注意力模块中,将上述输出的具有关键词信息引导的表征y
out2
和源文本编码后的表征x作为输入,从而利用关键词信息引导生成具有源文本重要信息的表征y
out3
,这一过程表示为:
[0084]yout2
=ln(y
out1
+crossattention(y
out1
,g))
[0085]yout3
=ln(y
out2
+crossattention(y
out2
,x))
[0086]
对于上述两个编解码注意力模块,采用多头注意力模块来获取多个子空间下不同的信息表征,此时每一个头都利用了点积注意力;其中,将关键词或中文文本序列经编码器编码后,输入到基于关键词信息引导的编解码注意力模块、基于指针生成网络的汉越双语词对齐信息编解码注意力模块作为查询(q)、键(k),自注意力模块或基于关键词信息引导的编解码注意力模块的输出作为值(v),每一个头的编解码注意力计算为:
[0087][0088]
式中:dk表示键的维度;
[0089]
将每个注意力头相连:
[0090]
multihead(q,k,v)=concat(head1,head2,...,headh)
[0091]
式中:式中:是权重参数矩阵,h是注意力头的数量;
[0092]
最后将表征y
out3
输入到前馈神经网络模块:
[0093]yout
=ln(y
out3
+fnn(y
out3
))
[0094]
该模块包含两个线性变换,中间有一个relu激活函数,其对应计算公式为:
[0095]
fnn(x)=max(w1+b1,0)w2+b2[0096]
上述ln表示层归一化;
[0097]
为利用双语概率词典中的词对齐信息,模型从词对齐编解码注意力模块引入指针生成网络,使用p
gate
来选择从解码端生成一个单词,或者从源文本复制一个单词,对复制词引入关键词翻译概率来动态地用词对齐信息,将h
t
作为解码端t时刻隐状态的表征,得到指针生成网络中的软控门p
gate

[0098]
p
gate
=σ(w2(w1h
t
+e1)+e2)
[0099]
式中:w1,w2表示需要训练的参数,e1,e2表示偏置向量,σ表示sigmoid激活函数,基于指针生成网络,最终汉越跨语言摘要词的生成概率分布为:
[0100][0101]
式中:表示关键信息词的隐状态表示w
src
对应候选对齐词w
tgt
的翻译
概率,pn表示神经概率分布。
[0102]
本发明采用摘要任务中广泛使用的rouge值作为评估指标,摘要质量将依据模型预测生成的摘要与参考摘要的重叠单元进行量化计算,公式如下:
[0103][0104]
式中:n代表n元组的长度,count
match
(n-gram)表示参考摘要和生成摘要共同包含n元组的个数。通过n元组的百分比来衡量生成摘要参考摘要间的匹配程度。本文使用rouge-1,rouge-2,rouge-l的f1(%)值对生成摘要进行评价。
[0105]
为了验证本发明提出的基于多类型词信息引导的汉越跨语言摘要生成方法的效果,选择3个基准模型作为对比实验。作为实验一
[0106]
表1为不同摘要生成方法对比实验结果
[0107][0108]
从表1可以看出,相较于最好的基准模型,本文模型在rouge-1、rouge-2和rouge-l值上分别取得了1.6、1.0和0.9值的提升,验证了在语料低资源的场景下,本文多类型词信息引导摘要生成方法的有效性。此外,可以看pipeline_st优于pipeline_ts的方法,这是由于谷歌翻译在汉越低资源下翻译效果不佳,对文本翻译产生的错误要高于对摘要句子翻译产生的错误,导致pipeline_ts产生更多的错误信息传播;而ncls模型由于需要更多的数据才能产生良好的效果,在低资源条件下并未产生优于pipeline_st的效果。
[0109]
为了验证翻译侯选词个数对模型的影响,本发明将翻译候选词限制个数m分别设为1,5,10进行实验,作为实验二:
[0110]
表2为翻译候选词个数对模型的影响
[0111][0112][0113]
从表2中可以看出(1)m取值为5时,模型取得最好的效果;(2)当m取值为1或10时,由于存在过少或过多的翻译候选词,包含的噪声对越南语摘要词的生成产生一定的影响。然而,使用双语概率词典的结果都优于基准模型,这进一步证明了本文模型的有效性。
[0114]
为验证基于多类型词信息引导的汉越跨语言摘要生成方法的有效性,采用消融实验验证关键词信息和词对齐信息对模型的影响,设计了实验三:
[0115]
表3为消融实验结果
[0116]
实验设置rouge-1rouge-2rouge-lours23.217.720.2no_keywords_cls22.117.919.3no_vocab_cls21.016.319.0
[0117]
其中,no_vocab_cls表示模型去除双语概率词典的结果;no_keywords_cls本文模型表示不使用关键词编码器。由表3可以看出,本文方法模型优于另外两个方法。其中,no_keywords_cls效果较差,显示低资源下引入词对齐信息对生成摘要有着显著提升,同时关键词编码器对于模型也有一定的提升。实验验证了引入关键词信息和双语概率词典能够有效提升汉越跨语言摘要的性能。
[0118]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1