一种生成文本摘要的方法、系统、设备和存储介质与流程

文档序号:36996146发布日期:2024-02-09 12:37阅读:17来源:国知局
一种生成文本摘要的方法、系统、设备和存储介质与流程

本发明涉及文本摘要领域,更具体地,特别是指一种生成文本摘要的方法、系统、设备和存储介质。


背景技术:

1、基于序列到序列结构的摘要生成模型在训练过程中采用教师强迫训练机制和最大似然估计损失,使得模型倾向于生成低多样性的摘要,而训练与测试过程存在的曝光偏差问题和缺乏多参考摘要数据集问题更是加重了这一现象。为了能够更加稳定且丰富地生成摘要,目前已经研究并提出了多种解码生成算法,但大多数方法在使用过程中面临着超参数难以调节的窘境。这些解码生成算法中最常用的便是贪心搜索算法与集束搜索算法,其中贪心搜索算法只能求得局部最优解,而集束搜索算法在指定束宽范围内求得的最优摘要往往也不能与原文在语义上达到最高匹配度。此外在采用集束搜索算法返回多条潜在摘要时与原文匹配程度最高的潜在摘要往往隐藏在高概率潜在摘要之后,而与原文语义匹配程度最高的潜在摘要往往也并非是rouge指标最高的潜在摘要。


技术实现思路

1、有鉴于此,本发明实施例的目的在于提出一种生成文本摘要的方法、系统、电子设备及计算机可读存储介质,本发明能够更加准确的生成与源文本语义更加契合的摘要,减少生成摘要中存在的语法和语义错误,增大生成摘要中的语义蕴含丰富度。

2、基于上述目的,本发明实施例的一方面提供了一种生成文本摘要的方法,包括如下步骤:使用集束搜索算法对源文本进行处理以获得潜在摘要集合;对所述潜在摘要集合、所述源文本和参考摘要进行编码处理以分别得到第一句向量、第二句向量和第三句向量;根据所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数对所述第一句向量按照从大到小进行排序,并结合所述第二句向量和所述第三句向量形成潜在摘要句向量集合;以及根据分数选取所述潜在摘要句向量集合中得分最高的潜在摘要作为最终摘要。

3、在一些实施方式中,所述使用集束搜索算法对源文本进行处理以获得潜在摘要集合的步骤包括:获取所述源文本的嵌入向量,并对所述嵌入向量进行编码以得到上下文编码向量;根据参考摘要和所述上下文编码向量得到中间结果,并对所述中间结果使用集束搜索以得到潜在摘要集合。

4、在一些实施方式中,所述对所述嵌入向量进行编码以得到上下文编码向量的步骤包括:通过自注意力模块、残差和层归一化、前馈神经网络对所述嵌入向量进行多次迭代编码。

5、在一些实施方式中,所述对所述潜在摘要集合、所述源文本和参考摘要进行编码处理以分别得到第一句向量、第二句向量和第三句向量的步骤包括:根据潜在摘要总数、潜在摘要的最大序列长度和隐藏层大小确定所述第一句向量、第二句向量和第三句向量。

6、在一些实施方式中,所述根据所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数对所述第一句向量按照从大到小进行排序的步骤包括:设置相似度损失函数,并根据所述相似度损失函数分别计算所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数。

7、在一些实施方式中,所述设置相似度损失函数的步骤包括:计算第一潜在摘要与源文本的第一余弦相似度,计算第一潜在摘要与参考摘要的第二余弦相似度,并调整相似度损失函数的第一参数以使得所述第一余弦相似度小于所述第二余弦相似度;计算第二潜在摘要与源文本的第三余弦相似度,并调整相似度损失函数的第二参数和第三参数以使得所述第三余弦相似度小于所述第一余弦相似度;其中,所述第一参数根据潜在摘要总数与所述第一潜在摘要的序号确定,所述第二参数和所述第三参数根据所述第一潜在摘要的序号和所述第二潜在摘要的序号确定,所述第一参数与所述第一余弦相似度和所述第二余弦相似度配合使用,所述第二参数与所述第一余弦相似度和所述第三余弦相似度配合使用,所述第三参数与所述第一余弦相似度和所述第二余弦相似度配合使用。

8、在一些实施方式中,所述根据所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数对所述第一句向量按照从大到小进行排序的步骤包括:分别统计所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本共有的n-gram个数来计算各自语义匹配相似度分数。

9、本发明实施例的另一方面,提供了一种生成文本摘要的系统,包括:潜在模块,用于使用集束搜索算法对源文本进行处理以获得潜在摘要集合;编码模块,用于对所述潜在摘要集合、所述源文本和参考摘要进行编码处理以分别得到第一句向量、第二句向量和第三句向量;集合模块,用于根据所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数对所述第一句向量按照从大到小进行排序,并结合所述第二句向量和所述第三句向量形成潜在摘要句向量集合;以及选择模块,用于根据分数选取所述潜在摘要句向量集合中得分最高的潜在摘要作为最终摘要。

10、本发明实施例的又一方面,还提供了一种电子设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。

11、本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。

12、本发明具有以下有益技术效果:本发明实施例通过设置潜在摘要生成模型集束搜索算法的不同采样参数因子可以生成指定条潜在摘要,潜在摘要排序模型以潜在摘要生成模型的编码模块结构为基础,使用基于差异化扩大原理的排序损失函数,基于该损失函数能够对每一条潜在摘要根据源文本进行语义相似度的有效计算。将潜在摘要集合从概率分布转换至语义相似度分布。排序模型最后根据每一条潜在摘要的语义相似度分数筛选出与源文本语义最为接近的摘要。本发明实施例能够更加准确的生成与源文本语义更加契合的摘要,减少生成摘要中存在的语法和语义错误,增大生成摘要中的语义蕴含丰富度。



技术特征:

1.一种生成文本摘要的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的生成文本摘要的方法,其特征在于,所述使用集束搜索算法对源文本进行处理以获得潜在摘要集合的步骤包括:

3.根据权利要求2所述的生成文本摘要的方法,其特征在于,所述对所述嵌入向量进行编码以得到上下文编码向量的步骤包括:

4.根据权利要求1所述的生成文本摘要的方法,其特征在于,所述对所述潜在摘要集合、所述源文本和参考摘要进行编码处理以分别得到第一句向量、第二句向量和第三句向量的步骤包括:

5.根据权利要求1所述的生成文本摘要的方法,其特征在于,所述根据所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数对所述第一句向量按照从大到小进行排序的步骤包括:

6.根据权利要求5所述的生成文本摘要的方法,其特征在于,所述设置相似度损失函数的步骤包括:

7.根据权利要求1所述的生成文本摘要的方法,其特征在于,所述根据所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数对所述第一句向量按照从大到小进行排序的步骤包括:

8.一种生成文本摘要的系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。


技术总结
本发明提供一种生成文本摘要的方法、系统、设备和存储介质,方法包括:使用集束搜索算法对源文本进行处理以获得潜在摘要集合;对所述潜在摘要集合、所述源文本和参考摘要进行编码处理以分别得到第一句向量、第二句向量和第三句向量;根据所述潜在摘要集合、所述源文本和所述参考摘要与所述源文本的语义匹配相似度分数对所述第一句向量按照从大到小进行排序,并结合所述第二句向量和所述第三句向量形成潜在摘要句向量集合;以及根据分数选取所述潜在摘要句向量集合中得分最高的潜在摘要作为最终摘要。本发明通过排序筛选集束搜索算法返回的多条潜在摘要中与原文在语义匹配程度最高的潜在摘要,能够更加准确的生成与源文本语义更加契合的摘要。

技术研发人员:周炜杰,牛少平,夏湖培,孙华锦
受保护的技术使用者:山东云海国创云计算装备产业创新中心有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1