模型训练方法、对话摘要生成方法、系统、设备及介质与流程

文档序号:29568471发布日期:2022-04-09 03:11阅读:来源:国知局

技术特征:
1.一种模型训练方法,其特征在于,所述模型训练方法包括预训练过程、微调过程;所述预训练过程包括:获取预训练对话语料;将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料;在所述预训练对话原文语料以及预训练对话摘要语料的每句话的起点处添加第一身份标识符;对添加所述第一身份标识符的预训练对话原文语料进行拼接,得到预训练对话原文拼接文本;基于所述预训练对话原文拼接文本的词粒度对所述预训练对话原文拼接文本进行分词,得到预训练对话原文分词文本;对添加所述第一身份标识符的预训练对话摘要语料进行拼接,得到预训练对话摘要拼接文本;基于所述预训练对话摘要拼接文本的词粒度对所述预训练对话摘要拼接文本进行分词,得到预训练对话摘要分词文本;以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型;所述微调过程包括:获取微调对话原文语料;对所述微调对话原文语料进行标注;在经过标注的微调对话原文语料的每句话的起点处添加第二身份标识符;对添加所述第二身份标识符的微调对话原文语料进行拼接,得到微调对话原文拼接文本;基于所述微调对话原文拼接文本的词粒度对所述微调对话原文拼接文本进行分词,得到微调对话原文分词文本;计算所述微调对话原文分词文本中每个词的重要性参数,得到第一重要性矩阵;以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。2.如权利要求1所述的模型训练方法,其特征在于,所述以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型的具体步骤包括:以所述预训练对话原文分词文本作为所述初始特征抽取模型的编码器的输入,经过所述初始特征抽取模型的编码器的处理,得到第一编码信息矩阵;以所述第一编码信息矩阵、所述预训练对话摘要分词文本作为所述初始特征抽取模型的解码器的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。3.如权利要求1所述的模型训练方法,其特征在于,所述以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型的具体步骤包括:以所述微调对话原文分词文本作为所述中间特征抽取模型的编码器的输入,经过所述中间特征抽取模型的编码器的处理,得到第二编码信息矩阵;
使用所述第一重要性矩阵乘以所述第二编码信息矩阵,将得到的结果作为第一信息融合矩阵;以所述第一信息融合矩阵作为所述中间特征抽取模型的解码器的输入,对所述中间特征抽取模型进行训练,得到所述对话摘要生成模型。4.如权利要求1所述的模型训练方法,其特征在于,所述将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料的具体步骤包括:获取预训练对话语料,所述预训练对话语料包含的句子总数为n;按照预设规则,依次从所述预训练对话语料中选择n/x个句子作为待定预训练对话原文语料,其中x为大于1且小于n的正整数,当n/x不是整数时,对n/x进行向下取整处理;将所述预训练对话语料中剩下的句子作为待定预训练对话摘要语料;对所述待定预训练对话原文语料进行拼接,得到待定预训练对话原文拼接文本;对所述待定预训练对话摘要语料进行拼接,得到待定预训练对话摘要拼接文本;依次计算每次获得的所述待定预训练对话原文拼接文本、所述待定预训练对话摘要拼接文本的最长公共子序列的值;对所述最长公共子序列的值进行比较,当所述最长公共子序列的值最大时,选取对应的待定预训练对话原文语料作为所述预训练对话原文语料,并选取对应的待定预训练对话摘要语料作为所述预训练对话摘要语料。5.如权利要求1所述的模型训练方法,其特征在于,使用以下公式计算所述微调对话原文分词文本中每个词的重要性参数:k
i
=a
i
+λ*b
i
其中:k
i
表示所述微调对话原文分词文本中第i个单词的重要性参数,a
i
表示所述微调对话原文分词文本中第i个单词通过textrank算法得到的textrank值,b
i
表示所述微调对话原文分词文本中第i个单词利用tf-idf算法得到的tf-idf值,λ表示调和参数。6.一种对话摘要生成方法,其特征在于,所述对话摘要生成方法包括:获取待预测对话原文语料;对所述待预测对话原文语料进行拼接,得到待预测对话原文拼接文本;基于所述待预测对话原文拼接文本的词粒度对所述待预测对话原文拼接文本进行分词,得到待预测对话原文分词文本;计算所述待预测对话原文分词文本中每个词的重要性参数,得到第二重要性矩阵;以所述待预测对话原文分词文本、所述第二重要性矩阵作为利用权利要求1至5中任一项所述的模型训练方法训练出的对话摘要生成模型的输入,经过所述对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要。7.一种模型训练系统,其特征在于,所述模型训练系统包括预训练子系统、微调子系统;所述预训练子系统包括:预训练对话语料获取模块,用于获取预训练对话语料;预训练对话语料拆分模块,用于将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料;第一身份标识符添加模块,用于在所述预训练对话原文语料以及预训练对话摘要语料
的每句话的起点处添加第一身份标识符;预训练对话原文语料拼接模块,用于对添加所述第一身份标识符的预训练对话原文语料进行拼接,得到预训练对话原文拼接文本;预训练对话原文拼接文本分词模块,用于基于所述预训练对话原文拼接文本的词粒度对所述预训练对话原文拼接文本进行分词,得到预训练对话原文分词文本;预训练对话摘要语料拼接模块,用于对添加所述第一身份标识符的预训练对话摘要语料进行拼接,得到预训练对话摘要拼接文本;预训练对话摘要拼接文本分词模块,用于基于所述预训练对话摘要拼接文本的词粒度对所述预训练对话摘要拼接文本进行分词,得到预训练对话摘要分词文本;中间特征抽取模型生成模块,用于以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型;所述微调子系统包括:微调对话原文语料获取模块,用于获取微调对话原文语料;微调对话原文语料标注模块,用于对所述微调对话原文语料进行标注;第二身份标识符添加模块,用于在经过标注的微调对话原文语料的每句话的起点处添加第二身份标识符;微调对话原文语料拼接模块,用于对添加所述第二身份标识符的微调对话原文语料进行拼接,得到微调对话原文拼接文本;微调对话原文拼接文本分词模块,用于基于所述微调对话原文拼接文本的词粒度对所述微调对话原文拼接文本进行分词,得到微调对话原文分词文本;第一重要性矩阵生成模块,用于计算所述微调对话原文分词文本中每个词的重要性参数,得到第一重要性矩阵;对话摘要生成模型生成模块,用于以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。8.如权利要求7所述的模型训练系统,其特征在于,所述中间特征抽取模型生成模块包括:第一编码信息矩阵单元,用于以所述预训练对话原文分词文本作为所述初始特征抽取模型的编码器的输入,经过所述初始特征抽取模型的编码器的处理,得到第一编码信息矩阵;中间特征抽取模型生成单元,用于以所述第一编码信息矩阵、所述预训练对话摘要分词文本作为所述初始特征抽取模型的解码器的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。9.如权利要求7所述的模型训练系统,其特征在于,所述对话摘要生成模型生成模块包括:第二编码信息矩阵生成单元,用于以所述微调对话原文分词文本作为所述中间特征抽取模型的编码器的输入,经过所述中间特征抽取模型的编码器的处理,得到第二编码信息矩阵;
第一信息融合矩阵生成单元,用于使用所述第一重要性矩阵乘以所述第二编码信息矩阵,将得到的结果作为第一信息融合矩阵;对话摘要生成模型生成单元,用于以所述第一信息融合矩阵作为所述中间特征抽取模型的解码器的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。10.如权利要求7所述的模型训练系统,其特征在于,所述预训练对话语料拆分模块包括:预训练对话语料获取单元,用于获取预训练对话语料,所述预训练对话语料包含的句子总数为n;待定预训练对话原文语料获取单元,用于按照预设规则,依次从所述预训练对话语料中选择n/x个句子作为待定预训练对话原文语料,其中x为大于1且小于n的正整数,当n/x不是整数时,对n/x进行向下取整处理;待定预训练对话摘要语料获取单元,用于将所述预训练对话语料中剩下的句子作为待定预训练对话摘要语料;待定预训练对话原文语料拼接单元,用于对所述待定预训练对话原文语料进行拼接,得到待定预训练对话原文拼接文本;待定预训练对话摘要语料拼接单元,用于对所述待定预训练对话摘要语料进行拼接,得到待定预训练对话摘要拼接文本;最长公共子序列计算单元,用于依次计算每次获得的所述待定预训练对话原文拼接文本、所述待定预训练对话摘要拼接文本的最长公共子序列的值;最长公共子序列比较单元,用于比较所述最长公共子序列的值,并在所述最长公共子序列的值最大时,选取对应的待定预训练对话原文语料作为所述预训练对话原文语料,并选取对应的待定预训练对话摘要语料作为所述预训练对话摘要语料。11.如权利要求7所述的模型训练系统,其特征在于,使用以下公式计算所述微调对话原文分词文本中每个词的重要性参数:k
i
=a
i
+λ*b
i
其中:k
i
表示所述微调对话原文分词文本中第i个单词的重要性参数,a
i
表示所述微调对话原文分词文本中第i个单词通过textrank算法得到的textrank值,b
i
表示所述微调对话原文分词文本中第i个单词利用tf-idf算法得到的tf-idf值,λ表示调和参数。12.一种对话摘要生成系统,其特征在于,所述对话摘要生成系统包括:待预测对话原文语料获取模块,用于获取待预测对话原文语料;待预测对话原文语料拼接模块,用于对所述待预测对话原文语料进行拼接,得到待预测对话原文拼接文本;待预测对话原文拼接文本分词模块,用于基于所述待预测对话原文拼接文本的词粒度对所述待预测对话原文拼接文本进行分词,得到待预测对话原文分词文本;第二重要性矩阵生成模块,用于计算所述待预测对话原文分词文本中每个词的重要性参数,得到第二重要性矩阵;对话摘要生成模块,用于以所述待预测对话原文分词文本、所述第二重要性矩阵作为利用权利要求1至5中任一项所述的模型训练方法训练出的对话摘要生成模型的输入,经过所述对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的模型训练方法或权利要求6中所述的对话摘要生成方法。14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的模型训练方法或权利要求6中所述的对话摘要生成方法。

技术总结
本发明公开了一种模型训练方法、对话摘要生成方法、系统、设备及介质,所述模型为特征抽取模型,所述模型训练方法包括预训练、微调;预训练过程以预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对初始特征抽取模型进行训练,得到中间特征抽取模型;微调过程以微调对话原文分词文本、第一重要性矩阵作为中间特征抽取模型的输入,对中间特征抽取模型进行训练,得到对话摘要生成模型。本发明使用重要性矩阵指导模型训练,提高对话摘要与原对话文本的匹配度;使用无标注语料进行预训练,使用带标注语料进行微调,减少对带标注语料的需求;基于词粒度进行分词,提高了模型训练的速度。提高了模型训练的速度。提高了模型训练的速度。


技术研发人员:杨森 罗超 江小林 邹宇 李巍 严丽
受保护的技术使用者:携程旅游信息技术(上海)有限公司
技术研发日:2021.12.30
技术公布日:2022/4/8
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1