一种中文文本摘要生成方法、系统、设备及介质

文档序号:32654950发布日期:2022-12-23 21:13阅读:64来源:国知局
一种中文文本摘要生成方法、系统、设备及介质

1.本发明涉及中文文本摘要生成领域,尤其涉及一种中文文本摘要生成方法、系统、设备及介质。


背景技术:

2.事实一致性是评估中文文本摘要(以下均简称摘要)质量的一个重要步骤。当生成的摘要与给定文章真实性不一致,那么这个摘要就不能很好表达原文的意思。bart模型是双向自回归transformer,而大型的预训练transformer生成的摘要往往包含事实不一致的内容。


技术实现要素:

3.为了克服现有bart模型生成的摘要与原文真实性不一致的问题,本发明提供了一种中文文本摘要生成方法、系统、设备及介质。
4.第一方面,为了解决上述技术问题,本发明提供了一种中文文本摘要生成方法,包括以下步骤:
5.获取第一中文文本;
6.将第一中文文本输入bart模型中,通过bart模型输出第一中文文本对应的第一摘要,其中,bart模型是通过以下方式训练得到的:
7.s11,获取多个第二中文文本,以及各个第二中文文本对应的第二摘要,对于每个第二摘要,第二摘要为根据第二中文文本确定的参考摘要;
8.s12,根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的预测摘要;
9.s13,根据各个预测摘要和各个第二摘要,确定初始模型的第一损失值,第一损失值表征了各个预测摘要和各个第二摘要之间的差异;
10.s14,若第一损失值满足预设结束条件,将满足预设结束条件时的初始模型作为bart模型,若第一损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
11.本发明提供的一种中文文本摘要生成方法的有益效果是:通过bart模型输出第一中文文本对应的第一摘要,而对于bart模型,在训练时,考虑了预测结果(预测摘要)与真实结果(第二摘要)之间的差异,使得bart模型生成的第一摘要与真实性更加一致,且第一摘要更能表达原文(第一中文文本)的意思,解决了现有bart模型生成的摘要与原文真实性不一致的问题。
12.在上述技术方案的基础上,本发明的一种中文文本摘要生成方法还可以做如下改进。
13.进一步,该方法还包括:
14.对于每个预测摘要,确定预测摘要中的各个专有名词、各个数字以及末尾词;
15.对于每个预测摘要,根据各个专有名词,确定各个专有名词对应的第一概率值,对于每个第一概率值,若第一概率值小于第一阈值,则将小于第一阈值的第一概率值对应的专有名词作为目标专有名词,并生成目标专有名词对应的第三摘要,对于每个第一概率值,第一概率值表征了专有名词占第二中文文本中词语总数的比重;
16.对于每个预测摘要,根据各个数字,确定各个数字对应的第二概率值,对于每个第二概率值,若第二概率值小于第二阈值,则将小于第二阈值的第二概率值对应的数字作为目标数字,并生成目标数字对应的第四摘要,第二概率值表征了数字占第二中文文本中词语总数的比重;
17.对于每个预测摘要,根据末尾词,确定末尾词对应的第三概率值,若第三概率值小于第三阈值,则生成末尾词对应的第五摘要,第三概率值表征了末尾词占第二中文文本中词语总数的比重;
18.对于每个预测摘要,若预测摘要同时包含第三摘要、第四摘要和第五摘要,则将预测摘要确定为目标预测摘要;
19.根据各个预测摘要和各个第二摘要,确定初始模型的第一损失值,包括:
20.根据各个目标预测摘要和各个第二摘要,确定初始模型的第一损失值。
21.采用上述进一步方案的有益效果是:将预测摘要中的各个专有名词、各个数字以及末尾词提取出来,并确定各个专有名词中目标专有名词对应的第三摘要、各个数字中目标数字对应的第四摘要以及末尾词对应的第五摘要,由于第三摘要、第四摘要和第五摘要都是由第二中文文本中词语比重较低的词语组成,因此,将同时包含第三摘要、第四摘要和第五摘要的预测摘要作为目标预测摘要,并与第二摘要构建第一损失值,相当于在正样本(第二摘要)中添加了负样本(目标预测摘要),通过正样本和负样本对比学习的方式训练初始模型,使得bart模型生成更加准确的摘要。
22.进一步,上述方法中根据各个目标预测摘要和各个第二摘要,确定初始模型的第一损失值,包括:
23.对于每个目标预测摘要,将目标预测摘要与任意一个第二摘要作为样本对,其中,对于每个样本对,样本对中的目标预测摘要与第二摘要为不相同的摘要;
24.对于每个样本对,根据样本对,确定第二损失值,对于每个第二损失值,第二损失值表征了样本对中目标预测摘要与第二摘要之间的差异;
25.根据各个第二损失值,确定第一损失值。
26.采用上述进一步方案的有益效果是:在正样本(第二摘要)中添加了负样本(目标预测摘要)形成样本对,并且正样本和负样本通过对比学习的方式训练初始模型,使得bart模型生成更加准确的摘要。
27.进一步,上述方法中对于每个样本对,根据样本对,确定第二损失值,包括:
28.对于每个样本对,根据样本对,通过第一公式,确定第二损失值,其中,第一公式为:
[0029][0030]
其中,表示第x个样本对的第二损失值,hi表示第x个样本对中的第三摘要,hj表
示第x个样本对中的第四摘要,hk表示第x个样本对中的第五摘要,τ表示初始模型的温度,p表示各个第二摘要,n表示各个目标预测摘要,yi表示专有名词,yj表示数字,yk表示末尾词。
[0031]
采用上述进一步方案的有益效果是:对于各个样本对,通过第一公式,确定每对样本对的第二损失值,从而确定每对样本对中目标预测摘要与第二摘要之间的差异。
[0032]
进一步,上述方法中根据各个第二损失值,确定第一损失值,包括:
[0033]
根据根据各个第二损失值,通过第二公式,确定第一损失值,其中,第二公式为:
[0034][0035][0036]
其中,表示第一损失,表示各个第二损失之和,表示各个目标预测摘要和各个第二摘要之间的交叉熵函数,λ是常量。
[0037]
采用上述进一步方案的有益效果是:对于各个第二损失值,通过第二公式,确定第一损失值,即通过正样本(第二摘要)和负样本(目标预测摘要)之间的交叉熵以及对比学习思维构建第一损失值,使得bart模型生成更加准确的摘要。
[0038]
进一步,该方法还包括:
[0039]
对获取的各个第二中文文本进行预处理,预处理包括;
[0040]
分词处理、向量化处理、添加噪声处理、词语屏蔽处理、词语删除处理、文本填充处理、句子排列处理和句子翻转处理中的至少一种。
[0041]
采用上述进一步方案的有益效果是:对第二中文文本进行预处理,使得根据第二中文文本生成的负样本(目标预测摘要)更具代表性,以此来增强正样本和负样本进行对比学习的效果。
[0042]
第二方面,本发明提供了一种中文文本摘要生成系统,包括:
[0043]
获取模块,用于获取第一中文文本;
[0044]
预测模块,用于将第一中文文本输入bart模型中,通过bart模型输出第一中文文本对应的第一摘要;
[0045]
预测模块通过bart模型确定第一中文文本对应的第一摘要,其中,bart模型是通过第一单元进行训练得到的,第一单元,具体如下:
[0046]
s11,获取多个第二中文文本,以及各个第二中文文本对应的第二摘要,对于每个第二摘要,第二摘要为根据第二中文文本确定的参考摘要;
[0047]
s12,根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的预测摘要;
[0048]
s13,根据各个预测摘要和各个第二摘要,确定初始模型的第一损失值,第一损失值表征了各个预测摘要和各个第二摘要之间的差异;
[0049]
s14,若第一损失值满足预设结束条件,将满足预设结束条件时的初始模型作为bart模型,若第一损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
[0050]
第三方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的程序,处理器执行程序时实现如上述的一种中文文本摘要生成方法的步骤。
[0051]
第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端设备上运行时,使得终端设备执行如上述的一种中文文本摘要生成方法的步骤。
附图说明
[0052]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面结合附图和实施例对本发明作进一步说明。
[0053]
图1为本发明实施例的一种中文文本摘要生成方法的流程示意图;
[0054]
图2为本发明实施例的一种中文文本摘要生成系统的结构示意图。
具体实施方式
[0055]
下列实施例是对本发明的进一步解释和补充,对本发明不构成任何限制。
[0056]
以下结合附图描述本发明实施例的一种中文文本摘要生成方法、系统、设备及介质。
[0057]
如图1所示,本发明实施例的一种中文文本摘要生成方法,包括以下步骤:
[0058]
获取第一中文文本;
[0059]
将第一中文文本输入bart模型中,通过bart模型输出第一中文文本对应的第一摘要。
[0060]
可选的,bart模型是通过以下方式训练得到的:
[0061]
s11,获取多个第二中文文本,以及各个第二中文文本对应的第二摘要,对于每个第二摘要,第二摘要为根据第二中文文本确定的参考摘要。
[0062]
可选的,当获取到第二中文文本时,可以对第二中文文本进行预处理,其中,预处理包括:
[0063]
分词处理、向量化处理、添加噪声处理、词语屏蔽处理、词语删除处理、文本填充处理、句子排列处理和句子翻转处理中的至少一种。
[0064]
本实施例中,第二中文文本经过预处理后,其文本内容必然存在各类问题(例如语句不通顺、词语顺序颠倒等),因此,在初始模型训练时,生成的预测摘要,必然与真实的参考摘要(第二摘要)存在较大差异,此时,将预测摘要作为负样本与第二摘要进行对比学习,以此让初始模型学习区分正确摘要和错误摘要,提高bart模型生成摘要的准确性,其中,正确摘要指的与参考摘要一致的摘要,错误摘要指的与参考摘要具有差异的摘要。
[0065]
s12,根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的预测摘要。
[0066]
可选的,该方法还包括:
[0067]
对于每个预测摘要,确定预测摘要中的各个专有名词、各个数字以及末尾词;
[0068]
对于每个预测摘要,根据各个专有名词,确定各个专有名词对应的第一概率值,对于每个第一概率值,若第一概率值小于第一阈值,则将小于第一阈值的第一概率值对应的专有名词作为目标专有名词,并生成目标专有名词对应的第三摘要,对于每个第一概率值,第一概率值表征了专有名词占第二中文文本中词语总数的比重;
[0069]
对于每个预测摘要,根据各个数字,确定各个数字对应的第二概率值,对于每个第
二概率值,若第二概率值小于第二阈值,则将小于第二阈值的第二概率值对应的数字作为目标数字,并生成目标数字对应的第四摘要,第二概率值表征了数字占第二中文文本中词语总数的比重;
[0070]
对于每个预测摘要,根据末尾词,确定末尾词对应的第三概率值,若第三概率值小于第三阈值,则生成末尾词对应的第五摘要,第三概率值表征了末尾词占第二中文文本中词语总数的比重;
[0071]
对于每个预测摘要,若预测摘要同时包含第三摘要、第四摘要和第五摘要,则将预测摘要确定为目标预测摘要。
[0072]
本实施例中,第一阈值、第二阈值和第三阈值根据实际情况进行设置,保证预测摘要中的专有名词、数字以及末尾词在第二中文文本中保持较低比重即可,构建的负样本(目标预测摘要)引入了模型的内在错误,以此让初始模型学习区分正确摘要和错误摘要,内在错误指由于第二中文文本自身问题(例如第二中文文本存在语序不通顺、词语顺序颠倒等)导致的生成的摘要与实际摘要存在差异。
[0073]
s13,根据各个预测摘要和各个第二摘要,确定初始模型的第一损失值,第一损失值表征了各个预测摘要和各个第二摘要之间的差异。
[0074]
可选的,根据各个目标预测摘要和各个第二摘要,确定初始模型的第一损失值,包括:
[0075]
对于每个目标预测摘要,将目标预测摘要与任意一个第二摘要作为样本对,其中,对于每个样本对,样本对中的目标预测摘要与第二摘要为不相同的摘要;
[0076]
对于每个样本对,根据样本对,确定第二损失值,对于每个第二损失值,第二损失值表征了样本对中目标预测摘要与第二摘要之间的差异;
[0077]
根据各个第二损失值,确定第一损失值。
[0078]
本实施例中,对于每个样本对,样本对中的目标预测摘要与第二摘要为不相同的摘要,例如,各个目标预测摘要分别为目标预测摘要a、目标预测摘要b和目标预测摘要c,第二摘要分别为第二摘要a,第二摘要b和第二摘要c,则样本对1中可为目标预测摘要a和第二摘要a,样本对2中可为目标预测摘要b和第二摘要c,样本对3中可为目标预测摘要c和第二摘要b。
[0079]
可选的,对于每个样本对,根据样本对,确定第二损失值,包括:
[0080]
对于每个样本对,根据样本对,通过第一公式,确定第二损失值,其中,第一公式为:
[0081][0082]
其中,表示第x个样本对的第二损失值,hi表示第x个样本对中的第三摘要,hj表示第x个样本对中的第四摘要,hk表示第x个样本对中的第五摘要,τ表示初始模型的温度,p表示各个第二摘要,n表示各个目标预测摘要,yi表示专有名词,yj表示数字,yk表示末尾词。
[0083]
可选的,根据各个第二损失值,确定第一损失值,包括:
[0084]
根据根据各个第二损失值,通过第二公式,确定第一损失值,其中,第二公式为:
[0085]
[0086][0087]
其中,表示第一损失,表示各个第二损失之和,表示各个目标预测摘要和各个第二摘要之间的交叉熵函数,λ是常量。
[0088]
本实施例中,通过计算正样本(第二摘要)和负样本(目标预测摘要)之间的交叉熵损失,以及通过负样本(目标预测摘要)和正样本(第二摘要)对比学习,使得初始模型学习到生成错误摘要的可能原因,让初始模型学习区分正确摘要和错误摘要,提高了最终的bart模型生成摘要的准确性。
[0089]
s14,若第一损失值满足预设结束条件,将满足预设结束条件时的初始模型作为bart模型,若第一损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
[0090]
可选的,通过bart模型输出第一中文文本对应的第一摘要后,可以经过questeval评估指标和人工评估对第一摘要的质量进行评估,以此确定bart模型的准确性。
[0091]
如图2所示,本发明实施例的一种中文文本摘要生成系统,包括:
[0092]
获取模块202,用于获取第一中文文本;
[0093]
预测模块203,用于将第一中文文本输入bart模型中,通过bart模型输出第一中文文本对应的第一摘要;
[0094]
预测模块通过bart模型确定第一中文文本对应的第一摘要,其中,bart模型是通过第一单元进行训练得到的,第一单元,具体如下:
[0095]
s11,获取多个第二中文文本,以及各个第二中文文本对应的第二摘要,对于每个第二摘要,第二摘要为根据第二中文文本确定的参考摘要;
[0096]
s12,根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的预测摘要;
[0097]
s13,根据各个预测摘要和各个第二摘要,确定初始模型的第一损失值,第一损失值表征了各个预测摘要和各个第二摘要之间的差异;
[0098]
s14,若第一损失值满足预设结束条件,将满足预设结束条件时的初始模型作为bart模型,若第一损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
[0099]
可选的,该系统还包括:
[0100]
目标预测摘要模块,用于对于每个预测摘要,确定预测摘要中的各个专有名词、各个数字以及末尾词;
[0101]
对于每个预测摘要,根据各个专有名词,确定各个专有名词对应的第一概率值,对于每个第一概率值,若第一概率值小于第一阈值,则将小于第一阈值的第一概率值对应的专有名词作为目标专有名词,并生成目标专有名词对应的第三摘要,对于每个第一概率值,第一概率值表征了专有名词占第二中文文本中词语总数的比重;
[0102]
对于每个预测摘要,根据各个数字,确定各个数字对应的第二概率值,对于每个第二概率值,若第二概率值小于第二阈值,则将小于第二阈值的第二概率值对应的数字作为目标数字,并生成目标数字对应的第四摘要,第二概率值表征了数字占第二中文文本中词语总数的比重;
[0103]
对于每个预测摘要,根据末尾词,确定末尾词对应的第三概率值,若第三概率值小于第三阈值,则生成末尾词对应的第五摘要,第三概率值表征了末尾词占第二中文文本中词语总数的比重;
[0104]
对于每个预测摘要,若预测摘要同时包含第三摘要、第四摘要和第五摘要,则将预测摘要确定为目标预测摘要。
[0105]
可选的,当通过目标预测摘要模块生成目标预测摘要后,则预测模块203中,根据各个预测摘要和各个第二摘要,确定初始模型的第一损失值,包括:
[0106]
根据各个目标预测摘要和各个第二摘要,确定初始模型的第一损失值。
[0107]
可选的,预测模块203还包括:
[0108]
样本对模块,用于对于每个目标预测摘要,将目标预测摘要与任意一个第二摘要作为样本对,其中,对于每个样本对,样本对中的目标预测摘要与第二摘要为不相同的摘要;
[0109]
第二损失值模块,用于对于每个样本对,根据样本对,确定第二损失值,对于每个第二损失值,第二损失值表征了样本对中目标预测摘要与第二摘要之间的差异;
[0110]
第一损失值模块,用于根据各个第二损失值,确定第一损失值。
[0111]
可选的,第二损失值模块还用于:
[0112]
对于每个样本对,根据样本对,通过第一公式,确定第二损失值,其中,第一公式为:
[0113][0114]
其中,表示第x个样本对的第二损失值,hi表示第x个样本对中的第三摘要,hj表示第x个样本对中的第四摘要,hk表示第x个样本对中的第五摘要,τ表示初始模型的温度,p表示各个第二摘要,n表示各个目标预测摘要,yi表示专有名词,yi表示数字,yk表示末尾词。
[0115]
可选的,第一损失值模块还用于:
[0116]
根据根据各个第二损失值,通过第二公式,确定第一损失值,其中,第二公式为:
[0117][0118][0119]
其中,表示第一损失,表示各个第二损失之和,表示各个目标预测摘要和各个第二摘要之间的交叉熵函数,λ是常量。
[0120]
可选的,该系统还包括:
[0121]
预处理模块,用于对获取的各个第二中文文本进行预处理,预处理包括;
[0122]
分词处理、向量化处理、添加噪声处理、词语屏蔽处理、词语删除处理、文本填充处理、句子排列处理和句子翻转处理中的至少一种。
[0123]
本发明实施例的一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现上述一种中文文本摘要生成方法的部分或全部步骤。
[0124]
其中,电子设备可以选用电脑,相对应地,其程序为电脑软件,且上述关于本发明
的一种电子设备中的各参数和步骤,可参考上文中一种中文文本摘要生成方法的实施例中的各参数和步骤,在此不做赘述。
[0125]
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
[0126]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0127]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1