一种摘要文本的生成方法及装置与流程

文档序号:33622608发布日期:2023-03-25 13:05阅读:来源:国知局

技术特征:
1.一种摘要文本的生成方法,其特征在于,所述方法包括:获取待处理文本;确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息;将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置,或者,字符对应的映射标识用于反映该字符在预设字典中的序号;根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。2.根据权利要求1所述的方法,其特征在于,所述已训练的摘要文本模型包括编码器和解码器;所述将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列,包括:将所述待处理文本以及所述待处理文本对应的映射标识序列输入所述编码器,得到隐层表征向量;将所述隐层表征向量输入所述解码器,得到摘要文本对应的映射标识序列。3.根据权利要求2所述的方法,其特征在于,所述编码器为自注意力网络,所述解码器为自注意力网络。4.根据权利要求2所述的方法,其特征在于,所述摘要文本模型在模型训练过程中所使用的损失函数为交叉熵损失函数。5.根据权利要求1所述的方法,其特征在于,所述根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本,包括:针对所述摘要文本对应的映射标识序列中的每个映射标识,根据该映射标识和该映射标识的后一个映射标识,确定该映射标识对应的字符或者字符串;根据所述摘要文本对应的映射标识序列中各个映射标识对应的字符或字符串,确定所述待处理文本对应的摘要文本。6.根据权利要求5所述的方法,其特征在于,所述针对所述摘要文本对应的映射标识序列中的每个映射标识,根据该映射标识和该映射标识的后一个映射标识,确定该映射标识对应的字符或者字符串,包括:针对所述摘要文本对应的映射标识序列中的每个映射标识,基于该映射标识的标识类型和该映射标识的后一个映射标识的标识类型,从所述待处理文本或者所述预设字典中确定该映射标识对应的字符或者字符串。7.根据权利要求6所述的方法,其特征在于,所述针对所述摘要文本对应的映射标识序列中的每个映射标识,基于该映射标识的标识类型和该映射标识的后一个映射标识的标识类型,从所述待处理文本或者所述预设字典中确定该映射标识对应的字符或者字符串,包括:针对所述摘要文本对应的映射标识序列中的每个映射标识,若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识为抽取结束位置标识,则根据该映射标识和该
映射标识的后一个映射标识,从所述待处理文本中抽取一字符串,以及,将该字符串作为该映射标识对应的字符串;若该映射标识为抽取开始位置标识,且,该映射标识的后一个映射标识为抽取开始位置标识,则根据该映射标识从所述待处理文本或者所述预设字典中查询一字符,以及,将该字符作为该映射标识对应的字符。8.一种摘要文本的生成装置,其特征在于,所述装置包括:文本获取单元,用于获取待处理文本;第一确定单元,用于确定所述待处理文本对应的映射标识序列;其中,所述待处理文本对应的映射标识序列包括所述待处理文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息;第二确定单元,用于将所述待处理文本以及所述待处理文本对应的映射标识序列输入已训练的摘要文本模型,得到摘要文本对应的映射标识序列;其中,所述摘要文本对应的映射标识序列包括所述摘要文本中每个字符对应的映射标识,且字符对应的映射标识用于反映该字符在所述待处理文本中的位置信息以及该字符在该字符所位于的字符串中的抽取起始位置;摘要确定单元,用于根据所述摘要文本对应的映射标识序列,确定所述待处理文本对应的摘要文本。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

技术总结
本公开提供一种摘要文本的生成方法、装置、计算机设备及计算机可读存储介质。该方法在确定所述待处理文本对应的摘要文本的过程中,先将待处理文本转换为映射标识序列,再利用摘要文本模型生成摘要文本对应的映射标识序列,接着,利用预设字典和待处理文本,将摘要文本对应的映射标识序列还原为摘要文本;这样,可以实现通过抽取控制待处理文本的文本内容,缩减生成摘要文本任务的计算消耗和需要分析的文本长度,同时,通过生成方式改写,避免出现由于对待处理文本进行生硬拼接所导致的语句间连贯性差、灵活性差的问题,从而提升了所生成的摘要文本的语句连贯性和准确性。生成的摘要文本的语句连贯性和准确性。生成的摘要文本的语句连贯性和准确性。


技术研发人员:王芳 暴宇健
受保护的技术使用者:北京龙智数科科技服务有限公司
技术研发日:2022.12.20
技术公布日:2023/3/24
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1