1.利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述系统包括:
数据采集模块、对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块、摘要生成模块;
所述数据采集模块用于获取samsum数据集、ami数据集;
所述对话预训练模块用于获取对话预训练模型dialogpt;
所述对话预处理模块根据数据采集模块获取的数据集将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;
所述预测损失及对话上下文的表示模块用于将对话预处理模块处理后的对话输入到对话预训练模块获取的对话预训练模型dialogpt中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;
所述标注模块根据预测损失及对话上下文的表示模块得到的单词级别和句子级别的预测损失以及对话上下文的表示形式,将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;
所述摘要生成模块将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的samsum数据集和ami数据集输入摘要生成器生成目标摘要;
当生成的目标摘要符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入摘要生成器,生成待处理数据集的目标摘要;
当生成的目标摘要不符合要求,则重新将samsum数据集和ami数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的目标摘要符合要求。
2.根据权利要求1所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述数据采集模块用于获取samsum数据集、ami数据集;具体过程为:
samsum数据集从https://arxiv.org/abs/1911.12237获取;
ami数据集从https://groups.inf.ed.ac.uk/ami/corpus/获取。
3.根据权利要求1或2所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述samsum数据集和ami数据集中的对话形式化为:
每一段对话d包含|d|个句子[u1,u2,...,ui,...,u|d|];
每一个句子
其中i∈[1,2,3,…,|d|],eosi代表该句的结束符号,ui,1代表第i个句子的第一个词语;
对于每一个对话d有一个对应的摘要s=[s1,s2,…,s|s|],s1代表摘要s中第一个词语,s|s|代表摘要s中第|s|个词语;
在一段对话中,每个句子ui都对应一个说话人pi;
因此最终对话d=[p1,u1,1,...,eos1,...,p|d|,u|d|,1,...,eos|d|]。
4.根据权利要求3所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述对话预训练模块用于获取对话预训练模型dialogpt;具体过程为:
对话预训练模型dialogpt是一种预训练对话回复生成模型,对话预训练模型dialogpt获取的链接为:
https://huggingface.co/transformers/model_doc/dialogpt.html?highlight=dialogpt;
利用reddit评论链中的对话数据对dialogpt进行训练,得到训练好的对话预训练模型dialogpt。
5.根据权利要求4所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述对话预处理模块根据数据采集模块获取的数据集将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;具体过程为:
步骤三一、将对话d=[p1,u1,1,...,eos1,...,p|d|,u|d|,1,...,eos|d|]处理为上下文回复对;具体为:
给定一个对话d=[p1,u1,1,...,eos1,...,p|d|,u|d|,1,...,eos|d|],两个相邻的句子(ui-1,ui)被组合成一个上下文回复对,其中i∈[2,3,…,|d|];
步骤三二、将对话d=[p1,u1,1,...,eos1,...,p|d|,u|d|,1,…,eos|d|]处理为对话序列;具体为:
将对话d=[p1,u1,1,...,eos1,...,p|d|,u|d|,1,...,eos|d|]中的所有对话都序列化为对话序列d=[u1,1,...,eos1,...,u|d|,1,...,eos|d|]。
6.根据权利要求5所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述预测损失及对话上下文的表示模块用于将对话预处理模块预处理后的对话输入到对话预训练模块获取的对话预训练模型dialogpt中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;具体过程为:
步骤四一、对于步骤三一的每个上下文回复对,获得单词级别和句子级别的预测损失;过程为:
给定一个标准上下文回复对(ui-1,ui),
其中i∈[2,3,…,|d|];
将句子ui-1输入到对话预训练模块获取的对话预训练模型dialogpt中,计算dialogpt模型输出的预测概率分布与给定的标准回复ui之间的负对数似然:
lossi,t=-logp(ui,t|ui,<t,ui-1)
其中ui,<t代表已经预测出来的部分词语序列;ui,t代表当前要预测的词语;lossi,t代表每个词语ui,t的预测损失;lossi代表每个句子ui的预测损失;t代表第t个解码步骤;
步骤四二、基于步骤三二的对话序列,获取对话上下文的表示形式;具体过程为:
利用对话预训练模块获取的对话预训练模型dialogpt模型对对话序列d=[u1,1,...,eos1,...,u|d|,1,...,eos|d|]进行一次前向传递之后,获得每个词语的表示形式h;
然后,基于每个词语的表示形式h获取对话上下文的表示形式;
其中,
7.根据权利要求6所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述标注模块根据预测损失及对话上下文的表示模块得到的单词级别和句子级别的预测损失以及对话上下文的表示形式,将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;具体过程为:
步骤五一、关键词提取:
步骤五一一、给定一个对话d,根据步骤四一每个单词ui,t都有预测损失lossi,t;按照百分比rke提取lossi,t较高的单词作为关键字;
步骤五一二、将对话中提到的所有说话人p的姓名添加到关键字集中;
步骤五一三、基于步骤五一二,在步骤五一一给定对话d的末尾附加一个特定的标记#key#,得到带有关键字注释的新对话dke;
带有关键字注释的新对话dke为:
其中key1为抽取出来的第一个关键词,key2为抽取出来的第二个关键词;
步骤五二、冗余句检测:
从最后的两个对话上下文表示开始,即
在每个冗余的句子之前插入一个特定的标签[rd];
若句子u1是冗余的,则带有冗余话语注释的新对话
步骤五三、主题分割:
给定一个对话d,根据步骤四一每个句子ui都有预测损失lossi,按照百分比rts提取lossi较高的句子作为预测的回复,并在选定的句子之前插入主题分割点[ts];
如果在句子u2之前有一个主题分割点,则带有主题标注的新对话为
8.根据权利要求7所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述步骤五一一中rke值的确定过程为:
给定samsum数据集的训练集或ami数据集的训练集,计算训练集中删除停用词后所有摘要的长度除以训练集中所有对话的长度,得到rke。
9.根据权利要求8所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述步骤五三中rts值的确定过程为:
给定samsum数据集的训练集或ami数据集的训练集,计算训练集中删除停用词后所有摘要的长度除以训练集中所有对话的长度,得到rts。
10.根据权利要求9所述利用dialogpt作为特征标注器的对话摘要生成系统,其特征在于:所述摘要生成模块将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的samsum数据集和ami数据集输入摘要生成器生成目标摘要;
当生成的目标摘要符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入摘要生成器,生成待处理数据集的目标摘要;
当生成的目标摘要不符合要求,则重新将samsum数据集和ami数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的目标摘要符合要求;
具体过程为:
将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的samsum数据集输入bart摘要生成器,生成目标摘要;
将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的ami数据集输入pgn摘要生成器,生成目标摘要;
当生成的两个目标摘要都符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入bart摘要生成器或pgn摘要生成器,生成待处理数据集的目标摘要;
当生成的两个目标摘要不符合要求,则重新将samsum数据集和ami数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的两个目标摘要都符合要求。