模型训练方法、对话摘要生成方法、系统、设备及介质与流程

文档序号:29568471发布日期:2022-04-09 03:11阅读:95来源:国知局
模型训练方法、对话摘要生成方法、系统、设备及介质与流程

1.本发明属于信息处理技术领域,具体涉及一种模型训练方法、对话摘要生成方法、系统、设备及介质。


背景技术:

2.ota(online travel agency,在线旅行社)行业中,客服在每一通电话结束后,需要总结客人来电内容中的重要信息,方便后续其他人快速跟进处理,如果能自动准确的生成电话中的重要信息,就能提高客服工作效率。
3.目前文本摘要方法分为抽取式摘要生成方法与生成式摘要生成方法,相比于抽取式摘要生成方法,生成式摘要生成方法更加灵活,能在保留重要信息的情况下将对话内容压缩到有限长度内。
4.但是目前的生成式摘要生成方法的生成内容不可控,而在ota行业中,对生成内容的准确率要求是很高的,如果生成内容是错误的,那不仅不能提高客服的工作效率,反而会增加额外的时间来进行信息的核实,所以目前的生成式摘要生成方法无法满足ota行业的需求。另外,训练生成式对话摘要生成模型需要大量的高质量的训练样本,这也提高了生成式摘要生成方法的应用门槛。


技术实现要素:

5.本发明要解决的技术问题是为了克服现有技术中摘要生成方法以及模型训练方法的缺陷,提供一种模型训练方法、对话摘要生成方法、系统、设备及介质。
6.本发明是通过下述技术方案来解决上述技术问题:
7.本发明提供了一种模型训练方法,所述模型训练方法包括预训练过程、微调过程;
8.所述预训练过程包括:
9.获取预训练对话语料;
10.将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料;
11.在所述预训练对话原文语料以及预训练对话摘要语料的每句话的起点处添加第一身份标识符;
12.对添加所述第一身份标识符的预训练对话原文语料进行拼接,得到预训练对话原文拼接文本;
13.基于所述预训练对话原文拼接文本的词粒度对所述预训练对话原文拼接文本进行分词,得到预训练对话原文分词文本;
14.对添加所述第一身份标识符的预训练对话摘要语料进行拼接,得到预训练对话摘要拼接文本;
15.基于所述预训练对话摘要拼接文本的词粒度对所述预训练对话摘要拼接文本进行分词,得到预训练对话摘要分词文本;
16.以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模
型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型;
17.所述微调过程包括:
18.获取微调对话原文语料;
19.对所述微调对话原文语料进行标注;
20.在经过标注的微调对话原文语料的每句话的起点处添加第二身份标识符;
21.对添加所述第二身份标识符的微调对话原文语料进行拼接,得到微调对话原文拼接文本;
22.基于所述微调对话原文拼接文本的词粒度对所述微调对话原文拼接文本进行分词,得到微调对话原文分词文本;
23.计算所述微调对话原文分词文本中每个词的重要性参数,得到第一重要性矩阵;
24.以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。
25.优选地,所述以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型的具体步骤包括:
26.以所述预训练对话原文分词文本作为所述初始特征抽取模型的编码器的输入,经过所述初始特征抽取模型的编码器的处理,得到第一编码信息矩阵;
27.以所述第一编码信息矩阵、所述预训练对话摘要分词文本作为所述初始特征抽取模型的解码器的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。
28.优选地,所述以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型的具体步骤包括:
29.以所述微调对话原文分词文本作为所述中间特征抽取模型的编码器的输入,经过所述中间特征抽取模型的编码器的处理,得到第二编码信息矩阵;
30.使用所述第一重要性矩阵乘以所述第二编码信息矩阵,将得到的结果作为第一信息融合矩阵;
31.以所述第一信息融合矩阵作为所述中间特征抽取模型的解码器的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。
32.优选地,所述将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料的具体步骤包括:
33.获取预训练对话语料,所述预训练对话语料包含的句子总数为n;
34.按照预设规则,依次从所述预训练对话语料中选择n/x个句子作为待定预训练对话原文语料,其中x为大于1且小于n的正整数,当n/x不是整数时,对n/x进行向下取整处理;
35.将所述预训练对话语料中剩下的句子作为待定预训练对话摘要语料;
36.对所述待定预训练对话原文语料进行拼接,得到待定预训练对话原文拼接文本;
37.对所述待定预训练对话摘要语料进行拼接,得到待定预训练对话摘要拼接文本;
38.依次计算每次获得的所述待定预训练对话原文拼接文本、所述待定预训练对话摘要拼接文本的最长公共子序列的值;
39.对所述最长公共子序列的值进行比较,当所述最长公共子序列的值最大时,选取
对应的待定预训练对话原文语料作为所述预训练对话原文语料,并选取对应的待定预训练对话摘要语料作为所述预训练对话摘要语料。
40.优选地,使用以下公式计算所述微调对话原文分词文本中每个词的重要性参数:
41.ki=ai+λ*bi42.其中:ki表示所述微调对话原文分词文本中第i个单词的重要性参数,ai表示所述微调对话原文分词文本中第i个单词通过textrank算法得到的textrank值,bi表示所述微调对话原文分词文本中第i个单词利用tf-idf算法得到的tf-idf值,λ表示调和参数。
43.本发明还提供了一种对话摘要生成方法,所述对话摘要生成方法包括:
44.获取待预测对话原文语料;
45.对所述待预测对话原文语料进行拼接,得到待预测对话原文拼接文本;
46.基于所述待预测对话原文拼接文本的词粒度对所述待预测对话原文拼接文本进行分词,得到待预测对话原文分词文本;
47.计算所述待预测对话原文分词文本中每个词的重要性参数,得到第二重要性矩阵;
48.以所述待预测对话原文分词文本、所述第二重要性矩阵作为利用前述的模型训练方法训练出的对话摘要生成模型的输入,经过对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要。
49.本发明还提供了一种模型训练系统,所述模型训练系统包括预训练子系统、微调子系统;
50.所述预训练子系统包括:
51.预训练对话语料获取模块,用于获取预训练对话语料;
52.预训练对话语料拆分模块,用于将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料;
53.第一身份标识符添加模块,用于在所述预训练对话原文语料以及预训练对话摘要语料的每句话的起点处添加第一身份标识符;
54.预训练对话原文语料拼接模块,用于对添加所述第一身份标识符的预训练对话原文语料进行拼接,得到预训练对话原文拼接文本;
55.预训练对话原文拼接文本分词模块,用于基于所述预训练对话原文拼接文本的词粒度对所述预训练对话原文拼接文本进行分词,得到预训练对话原文分词文本;
56.预训练对话摘要语料拼接模块,用于对添加所述第一身份标识符的预训练对话摘要语料进行拼接,得到预训练对话摘要拼接文本;
57.预训练对话摘要拼接文本分词模块,用于基于所述预训练对话摘要拼接文本的词粒度对所述预训练对话摘要拼接文本进行分词,得到预训练对话摘要分词文本;
58.中间特征抽取模型生成模块,用于以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型;
59.所述微调子系统包括:
60.微调对话原文语料获取模块,用于获取微调对话原文语料;
61.微调对话原文语料标注模块,用于对所述微调对话原文语料进行标注;
62.第二身份标识符添加模块,用于在经过标注的微调对话原文语料的每句话的起点处添加第二身份标识符;
63.微调对话原文语料拼接模块,用于对添加所述第二身份标识符的微调对话原文语料进行拼接,得到微调对话原文拼接文本;
64.微调对话原文拼接文本分词模块,用于基于所述微调对话原文拼接文本的词粒度对所述微调对话原文拼接文本进行分词,得到微调对话原文分词文本;
65.第一重要性矩阵生成模块,用于计算所述微调对话原文分词文本中每个词的重要性参数,得到第一重要性矩阵;
66.对话摘要生成模型生成模块,用于以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。
67.优选地,所述中间特征抽取模型生成模块包括:
68.第一编码信息矩阵单元,用于以所述预训练对话原文分词文本作为所述初始特征抽取模型的编码器的输入,经过所述初始特征抽取模型的编码器的处理,得到第一编码信息矩阵;
69.中间特征抽取模型生成单元,用于以所述第一编码信息矩阵、所述预训练对话摘要分词文本作为所述初始特征抽取模型的解码器的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。
70.优选地,所述对话摘要生成模型生成模块包括:
71.第二编码信息矩阵生成单元,用于以所述微调对话原文分词文本作为所述中间特征抽取模型的编码器的输入,经过所述中间特征抽取模型的编码器的处理,得到第二编码信息矩阵;
72.第一信息融合矩阵生成单元,用于使用所述第一重要性矩阵乘以所述第二编码信息矩阵,将得到的结果作为第一信息融合矩阵;
73.对话摘要生成模型生成单元,用于以所述第一信息融合矩阵作为所述中间特征抽取模型的解码器的输入,对所述中间特征抽取模型进行训练,得到所述对话摘要生成模型。
74.优选地,所述预训练对话语料拆分模块包括:
75.预训练对话语料获取单元,用于获取预训练对话语料,所述预训练对话语料包含的句子总数为n;
76.待定预训练对话原文语料获取单元,用于按照预设规则,依次从所述预训练对话语料中选择n/x个句子作为待定预训练对话原文语料,其中x为大于1且小于n的正整数,当n/x不是整数时,对n/x进行向下取整处理;
77.待定预训练对话摘要语料获取单元,用于将所述预训练对话语料中剩下的句子作为待定预训练对话摘要语料;
78.待定预训练对话原文语料拼接单元,用于对所述待定预训练对话原文语料进行拼接,得到待定预训练对话原文拼接文本;
79.待定预训练对话摘要语料拼接单元,用于对所述待定预训练对话摘要语料进行拼接,得到待定预训练对话摘要拼接文本;
80.最长公共子序列计算单元,用于依次计算每次获得的所述待定预训练对话原文拼
接文本、所述待定预训练对话摘要拼接文本的最长公共子序列的值;
81.最长公共子序列比较单元,用于比较所述最长公共子序列的值,并在所述最长公共子序列的值最大时,选取对应的待定预训练对话原文语料作为所述预训练对话原文语料,并选取对应的待定预训练对话摘要语料作为所述预训练对话摘要语料。
82.优选地,使用以下公式计算所述微调对话原文分词文本中每个词的重要性参数:
83.ki=ai+λ*bi84.其中:ki表示所述微调对话原文分词文本中第i个单词的重要性参数,ai表示所述微调对话原文分词文本中第i个单词通过textrank算法得到的textrank值,bi表示所述微调对话原文分词文本中第i个单词利用tf-idf算法得到的tf-idf值,λ表示调和参数。
85.本发明还提供了一种对话摘要生成系统,所述对话摘要生成系统包括:
86.待预测对话原文语料获取模块,用于获取待预测对话原文语料;
87.待预测对话原文语料拼接模块,用于对所述待预测对话原文语料进行拼接,得到待预测对话原文拼接文本;
88.待预测对话原文拼接文本分词模块,用于基于所述待预测对话原文拼接文本的词粒度对所述待预测对话原文拼接文本进行分词,得到待预测对话原文分词文本;
89.第二重要性矩阵生成模块,用于计算所述待预测对话原文分词文本中每个词的重要性参数,得到第二重要性矩阵;
90.对话摘要生成模块,用于以所述待预测对话原文分词文本、所述第二重要性矩阵作为利用前述的模型训练方法训练出的对话摘要生成模型的输入,经过所述对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要。
91.本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的模型训练方法或对话摘要生成方法。
92.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的模型训练方法或对话摘要生成方法。
93.本发明的积极进步效果在于:本发明通过第一重要性矩阵来指导模型训练的过程,生成对话摘要生成模型,通过第二重要性矩阵来指导对话摘要的生成过程,生成对话摘要,提高了生成的对话摘要与原对话文本的内容的匹配度;本发明使用大量的无标注的ota领域的预训练对话语料对初始特征抽取模型进行预训练,得到中间特征抽取模型,使用少量的带标注的微调对话原文语料对中间特征抽取模型进行微调,得到对话摘要生成模型,减少了在模型训练的过程中对带标注语料的需求,降低了模型训练的人力成本;本发明在模型训练的过程中,基于词粒度进行分词,提高了模型训练的速度。
附图说明
94.图1为本发明的实施例1提供的模型训练方法的流程图。
95.图2为本发明的实施例1提供的步骤s12的流程图。
96.图3为本发明的实施例2提供的对话摘要生成方法的流程图。
97.图4为本发明的实施例3提供的模型训练系统的模块示意图。
98.图5为本发明的实施例3提供的预训练对话语料拆分模块12的模块示意图。
99.图6为本发明的实施例4提供的对话摘要生成系统的模块示意图。
100.图7为本发明的实施例5提供的电子设备的结构示意图。
具体实施方式
101.下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
102.实施例1
103.本实施例提供了一种模型训练方法,所述模型为特征抽取模型,该模型训练方法包括预训练过程、微调过程,如图1所示,该预训练过程包括以下步骤:
104.s11、获取预训练对话语料。
105.具体地,在本实施例中,预训练对话语料来自ota领域,对话的双方为客户和客服。
106.s12、将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料。
107.s13、在所述预训练对话原文语料、预训练对话摘要语料每句话的起点处添加第一身份标识符。
108.具体地,在本实施例中,第一身份标识符分为客户标志符、客服标志符,客户标志符被添加在客户说的句子前,客服标志符被添加在客服说的句子前。
109.s14、对添加所述第一身份标识符的预训练对话原文语料进行拼接,得到预训练对话原文拼接文本。
110.s15、基于所述预训练对话原文拼接文本的词粒度对所述预训练对话原文拼接文本进行分词,得到预训练对话原文分词文本。
111.具体地,在本实施例中,可以使用hanlp(一系列模型与算法组成的nlp工具包)作为分词工具,对预训练对话原文拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
112.s16、对添加所述第一身份标识符的预训练对话摘要语料进行拼接,得到预训练对话摘要拼接文本。
113.s17、基于所述预训练对话摘要拼接文本的词粒度对所述预训练对话摘要拼接文本进行分词,得到预训练对话摘要分词文本。
114.具体地,在本实施例中,可以使用hanlp作为分词工具,对预训练对话摘要拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
115.s18、以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。
116.具体地,在本实施例中,特征抽取模型可以是transformer模型。
117.该微调过程包括以下步骤:
118.s19、获取微调对话原文语料。
119.具体地,在本实施例中,微调对话原文语料来自ota领域,对话的双方为客户和客服。
120.s110、对所述微调对话原文语料进行标注。
121.s111、在经过标注的微调对话原文语料的每句话的起点处添加第二身份标识符。
122.具体地,在本实施例中,第二身份标识符分为客户标志符、客服标志符,客户标志符被添加在客户说的句子前,客服标志符被添加在客服说的句子前。
123.s112、对添加所述第二身份标识符的微调对话原文语料进行拼接,得到微调对话原文拼接文本。
124.s113、基于所述微调对话原文拼接文本的词粒度对所述微调对话原文拼接文本进行分词,得到微调对话原文分词文本。
125.具体地,在本实施例中,可以使用hanlp作为分词工具,对微调对话原文拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
126.s114、计算所述微调对话原文分词文本中每个词的重要性参数,得到第一重要性矩阵。
127.具体地,使用以下公式计算所述微调对话原文分词文本中每个词的重要性参数:
128.ki=ai+λ*bi129.其中:ki表示所述微调对话原文分词文本中第i个单词的重要性参数,ai表示所述微调对话原文分词文本中第i个单词通过textrank算法得到的textrank值,bi表示所述微调对话原文分词文本中第i个单词利用tf-idf算法得到的tf-idf值,λ表示调和参数。
130.s115、以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。
131.具体地,如图2所示,s12包括以下具体步骤:
132.s1201、获取预训练对话语料,所述预训练对话语料包含的句子总数为n。
133.s1202、按照预设规则,依次从所述预训练对话语料中选择n/x个句子作为待定预训练对话原文语料,其中x为大于1且小于n的正整数,当n/x不是整数时,对n/x进行向下取整处理。
134.具体地,在本实施例中,x可以取4。
135.s1203、将所述预训练对话语料中剩下的句子作为待定预训练对话摘要语料。
136.s1204、对所述待定预训练对话原文语料进行拼接,得到待定预训练对话原文拼接文本。
137.s1205、对所述待定预训练对话摘要语料进行拼接,得到待定预训练对话摘要拼接文本。
138.s1206、依次计算每次获得的所述待定预训练对话原文拼接文本、所述待定预训练对话摘要拼接文本的最长公共子序列的值。
139.s1207、对所述最长公共子序列的值进行比较,当所述最长公共子序列的值最大时,选取对应的待定预训练对话原文语料作为所述预训练对话原文语料,并选取对应的待定预训练对话摘要语料作为所述预训练对话摘要语料。
140.具体地,s18包括以下具体步骤:
141.以所述预训练对话原文分词文本作为所述初始特征抽取模型的编码器的输入,经过所述初始特征抽取模型的编码器的处理,得到第一编码信息矩阵。
142.以所述第一编码信息矩阵、所述预训练对话摘要分词文本作为所述初始特征抽取模型的解码器的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。
143.具体地,s115包括以下具体步骤:
144.以所述微调对话原文分词文本作为所述中间特征抽取模型的编码器的输入,经过所述中间特征抽取模型的编码器的处理,得到第二编码信息矩阵。
145.使用所述第一重要性矩阵乘以所述第二编码信息矩阵,将得到的结果作为第一信息融合矩阵。
146.以所述第一信息融合矩阵作为所述中间特征抽取模型的解码器的输入,对所述中间特征抽取模型进行训练,得到所述对话摘要生成模型。
147.本实施例提供了一种模型训练方法,以预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对初始特征抽取模型进行训练,得到中间特征抽取模型;以微调对话原文分词文本、第一重要性矩阵作为中间特征抽取模型的输入,对中间特征抽取模型进行训练,得到对话摘要生成模型;使用第一重要性矩阵来指导模型训练的微调过程,生成对话摘要生成模型,提高了生成的对话摘要与原对话文本的内容的匹配度;使用无标注的ota领域的预训练对话语料对初始特征抽取模型进行预训练,得到中间特征抽取模型,使用少量的带标注的微调对话原文语料对中间特征抽取模型进行微调,得到对话摘要生成模型,减少了在模型训练的过程中对带标注语料的需求,降低了模型训练的人力成本;基于词粒度进行分词,提高了模型训练的速度。
148.实施例2
149.本实施例提供了一种对话摘要生成方法,如图3所示,所述对话摘要生成方法包括以下具体步骤:
150.s21、获取待预测对话原文语料。
151.具体地,在本实施例中,待预测对话原文语料来自ota领域,对话的双方为客户和客服。
152.s22、对所述待预测对话原文语料进行拼接,得到待预测对话原文拼接文本。
153.s23、基于所述待预测对话原文拼接文本的词粒度对所述待预测对话原文拼接文本进行分词,得到待预测对话原文分词文本。
154.具体地,在本实施例中,可以使用hanlp作为分词工具,对待预测对话原文拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
155.s24、计算所述待预测对话原文分词文本中每个词的重要性参数,得到第二重要性矩阵。
156.具体地,在本实施例中,使用实施例1中用于计算微调对话原文分词文本中每个词的重要性参数的公式计算待预测对话原文分词文本中每个词的重要性参数。
157.s25、以所述待预测对话原文分词文本、所述第二重要性矩阵作为利用实施例1提供的模型训练方法训练出的对话摘要生成模型的输入,经过所述对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要。
158.具体地,在本实施例中,s25包括的具体步骤与实施例1中s115包括的具体步骤相同。
159.本实施例提供了一种对话摘要生成方法,以待预测对话原文分词文本、第二重要性矩阵作为利用实施例1提供的模型训练方法训练出的对话摘要生成模型的输入,经过所
述对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要,使用第二重要性矩阵指导对话摘要的生成过程,提高了生成的对话摘要与原对话文本的内容的匹配度,基于词粒度进行分词,提高了对话摘要的生成速度。
160.实施例3
161.本实施例提供了一种模型训练系统,所述模型为特征抽取模型,所述模型训练系统包括预训练子系统、微调子系统,如图4所示,所述预训练子系统包括预训练对话语料获取模块11、预训练对话语料拆分模块12、第一身份标识符添加模块13、预训练对话原文语料拼接模块14、预训练对话原文拼接文本分词模块15、预训练对话摘要语料拼接模块16、预训练对话摘要拼接文本分词模块17、中间特征抽取模型生成模块18,所述微调子系统包括微调对话原文语料获取模块19、微调对话原文语料标注模块110、第二身份标识符添加模块111、微调对话原文语料拼接模块112、微调对话原文拼接文本分词模块113、第一重要性矩阵生成模块114、对话摘要生成模型生成模块115。
162.预训练对话语料获取模块11用于获取预训练对话语料。
163.具体地,在本实施例中,待预测对话原文语料来自ota领域,对话的双方为客户和客服。
164.预训练对话语料拆分模块12用于将所述预训练对话语料分为预训练对话原文语料、预训练对话摘要语料。
165.具体地,如图5所示,预训练对话语料拆分模块12包括预训练对话语料获取单元1201、待定预训练对话原文语料获取单元1202、待定预训练对话摘要语料获取单元1203、待定预训练对话原文语料拼接单元1204、待定预训练对话摘要语料拼接单元1205、最长公共子序列计算单元1206、最长公共子序列比较单元1207。
166.预训练对话语料获取单元1201用于获取预训练对话语料,所述预训练对话语料包含的句子总数为n。
167.待定预训练对话原文语料获取单元1202用于按照预设规则,依次从所述预训练对话语料中选择n/x个句子作为待定预训练对话原文语料,其中x为大于1且小于n的正整数,当n/x不是整数时,对n/x进行向下取整处理。
168.具体地,在本实施例中,x可以取4。
169.待定预训练对话摘要语料获取单元1203用于将所述预训练对话语料中剩下的句子作为待定预训练对话摘要语料。
170.待定预训练对话原文语料拼接单元1204用于对所述待定预训练对话原文语料进行拼接,得到待定预训练对话原文拼接文本。
171.待定预训练对话摘要语料拼接单元1205用于对所述待定预训练对话摘要语料进行拼接,得到待定预训练对话摘要拼接文本。
172.最长公共子序列计算单元1206用于依次计算每次获得的所述待定预训练对话原文拼接文本、所述待定预训练对话摘要拼接文本的最长公共子序列的值。
173.最长公共子序列比较单元1207用于比较所述最长公共子序列的值,并在所述最长公共子序列的值最大时,选取对应的待定预训练对话原文语料作为所述预训练对话原文语料,并选取对应的待定预训练对话摘要语料作为所述预训练对话摘要语料。
174.第一身份标识符添加模块13用于在所述预训练对话原文语料、预训练对话摘要语
料每句话的起点处添加第一身份标识符。
175.具体地,在本实施例中,第一身份标识符分为客户标志符、客服标志符,客户标志符被添加在客户说的句子前,客服标志符被添加在客服说的句子前。
176.预训练对话原文语料拼接模块14用于对添加所述第一身份标识符的预训练对话原文语料进行拼接,得到预训练对话原文拼接文本。
177.预训练对话原文拼接文本分词模块15用于基于所述预训练对话原文拼接文本的词粒度对所述预训练对话原文拼接文本进行分词,得到预训练对话原文分词文本。
178.具体地,在本实施例中,预训练对话原文拼接文本分词模块15可以使用hanlp作为分词工具,对预训练对话原文拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
179.预训练对话摘要语料拼接模块16用于对添加所述第一身份标识符的预训练对话摘要语料进行拼接,得到预训练对话摘要拼接文本。
180.预训练对话摘要拼接文本分词模块17用于基于所述预训练对话摘要拼接文本的词粒度对所述预训练对话摘要拼接文本进行分词,得到预训练对话摘要分词文本。
181.具体地,在本实施例中,预训练对话摘要拼接文本分词模块17可以使用hanlp作为分词工具,对预训练对话摘要拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
182.中间特征抽取模型生成模块18用于以所述预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。
183.具体地,在本实施例中,特征抽取模型可以是transformer模型。
184.具体地,中间特征抽取模型生成模块18包括:
185.第一编码信息矩阵单元,用于以所述预训练对话原文分词文本作为所述初始特征抽取模型的编码器的输入,经过所述初始特征抽取模型的编码器的处理,得到第一编码信息矩阵。
186.中间特征抽取模型生成单元,用于以所述第一编码信息矩阵、所述预训练对话摘要分词文本作为所述初始特征抽取模型的解码器的输入,对所述初始特征抽取模型进行训练,得到中间特征抽取模型。
187.微调对话原文语料获取模块19用于获取微调对话原文语料。
188.具体地,在本实施例中,微调对话原文语料来自ota领域,对话的双方为客户和客服。
189.微调对话原文语料标注模块110用于对所述微调对话原文语料进行标注。
190.第二身份标识符添加模块111用于在经过标注的微调对话原文语料的每句话的起点处添加第二身份标识符。
191.具体地,在本实施例中,第二身份标识符分为客户标志符、客服标志符,客户标志符被添加在客户说的句子前,客服标志符被添加在客服说的句子前。
192.微调对话原文语料拼接模块112用于对添加所述第二身份标识符的微调对话原文语料进行拼接,得到微调对话原文拼接文本。
193.微调对话原文拼接文本分词模块113用于基于所述微调对话原文拼接文本的词粒
度对所述微调对话原文拼接文本进行分词,得到微调对话原文分词文本。
194.具体地,在本实施例中,微调对话原文拼接文本分词模块113可以使用hanlp作为分词工具,对微调对话原文拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
195.第一重要性矩阵生成模块114用于计算所述微调对话原文分词文本中每个词的重要性参数,得到第一重要性矩阵。
196.具体地,第一重要性矩阵生成模块114使用以下公式计算所述微调对话原文分词文本中每个词的重要性参数:
197.ki=ai+λ*bi198.其中:ki表示所述微调对话原文分词文本中第i个单词的重要性参数,ai表示所述微调对话原文分词文本中第i个单词通过textrank算法得到的textrank值,bi表示所述微调对话原文分词文本中第i个单词利用tf-idf算法得到的tf-idf值,λ表示调和参数。
199.对话摘要生成模型生成模块115用于以所述微调对话原文分词文本、所述第一重要性矩阵作为所述中间特征抽取模型的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。
200.具体地,对话摘要生成模型生成模块115包括:
201.第二编码信息矩阵生成单元,用于以所述微调对话原文分词文本作为所述中间特征抽取模型的编码器的输入,经过所述中间特征抽取模型的编码器的处理,得到第二编码信息矩阵。
202.第一信息融合矩阵生成单元,用于使用所述第一重要性矩阵乘以所述第二编码信息矩阵,将得到的结果作为第一信息融合矩阵。
203.对话摘要生成模型生成单元,用于以所述第一信息融合矩阵作为所述中间特征抽取模型的解码器的输入,对所述中间特征抽取模型进行训练,得到对话摘要生成模型。
204.本实施例提供了一种模型训练系统,中间特征抽取模型生成模块18以预训练对话原文分词文本、预训练对话摘要分词文本作为初始特征抽取模型的输入,对初始特征抽取模型进行训练,得到中间特征抽取模型;对话摘要生成模型生成模块115以微调对话原文分词文本、第一重要性矩阵作为中间特征抽取模型的输入,对中间特征抽取模型进行训练,得到对话摘要生成模型;使用第一重要性矩阵来指导模型训练的微调过程,生成对话摘要生成模型,提高了生成的对话摘要与原对话文本的内容的匹配度;使用无标注的ota领域的预训练对话语料对初始特征抽取模型进行预训练,得到中间特征抽取模型,使用少量的带标注的微调对话原文语料对中间特征抽取模型进行微调,得到对话摘要生成模型,减少了在模型训练的过程中对带标注语料的需求,降低了模型训练的人力成本;基于词粒度进行分词,提高了模型训练的速度。
205.实施例4
206.本实施例提供了一种对话摘要生成系统,如图6所示,所述对话摘要生成系统包括待预测对话原文语料获取模块21、待预测对话原文语料拼接模块22、待预测对话原文拼接文本分词模块23、第二重要性矩阵生成模块24、对话摘要生成模块25。
207.待预测对话原文语料获取模块21用于获取待预测对话原文语料。
208.具体地,在本实施例中,待预测对话原文语料来自ota领域,对话的双方为客户和
客服。
209.待预测对话原文语料拼接模块22用于对所述待预测对话原文语料进行拼接,得到待预测对话原文拼接文本。
210.待预测对话原文拼接文本分词模块23用于基于所述待预测对话原文拼接文本的词粒度对所述待预测对话原文拼接文本进行分词,得到待预测对话原文分词文本。
211.具体地,在本实施例中,待预测对话原文拼接文本分词模块23可以使用hanlp作为分词工具,对待预测对话原文拼接文本进行分词。在使用hanlp时,可以在hanlp的词典中添加ota领域的专有词汇,所述专有词汇包括大床房、预授权、标间、钟点房。
212.第二重要性矩阵生成模块24用于计算所述待预测对话原文分词文本中每个词的重要性参数,得到第二重要性矩阵。
213.具体地,在本实施例中,使用实施例1中用于计算微调对话原文分词文本中每个词的重要性参数的公式计算待预测对话原文分词文本中每个词的重要性参数。
214.对话摘要生成模块25用于以所述待预测对话原文分词文本、所述第二重要性矩阵作为利用实施例1所述的模型训练方法训练出的对话摘要生成模型的输入,经过所述对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要。
215.具体地,在本实施例中,对话摘要生成模块25包括的单元与实施例1中对话摘要生成模型生成模块115包括的单元相同。
216.本实施例提供了一种对话摘要生成方法,对话摘要生成模块25以待预测对话原文分词文本、第二重要性矩阵作为利用实施例1提供的模型训练方法训练出的对话摘要生成模型的输入,经过所述对话摘要生成模型的处理,得到所述待预测对话原文语料的对话摘要,使用第二重要性矩阵指导对话摘要的生成过程,提高了生成的对话摘要与原对话文本的内容的匹配度,基于词粒度进行分词,提高了对话摘要的生成速度。
217.实施例5
218.图7为本发明实施例5提供的一种电子设备的结构示意图。包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述实施例1的模型训练方法或实施例3的对话摘要生成方法。图7显示的电子设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
219.电子设备50可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备50的组件可以包括但不限于:上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。
220.总线53包括数据总线、地址总线和控制总线。
221.存储器52可以包括易失性存储器,例如随机存取存储器(ram)521和/或高速缓存存储器522,还可以进一步包括只读存储器(rom)523。
222.存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525,这样的程序模块524包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
223.处理器51通过运行存储在存储器52中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的模型训练方法或实施例3的对话摘要生成方法。
224.电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种
通信可以通过输入/输出(i/o)接口55进行。并且,模型生成的设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器56通过总线53与模型生成的设备50的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
225.应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
226.实施例6
227.本发明还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例1的模型训练方法或实施例3的对话摘要生成方法。
228.其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
229.在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的模型训练方法或实施例3的对话摘要生成方法。
230.其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
231.虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1