1.一种自动回复对话方法,其特征在于,包括如下步骤:
s1,提供一对话语料数据集,对所述对话语料数据集进行关键词提取,得到对话集合;
s2,依据tbert模型对所述对话集合进行编码处理,生成主题向量,所述主题向量经函数处理得到主题词;
s3,将所述主题词引入到开放域对话系统模型中,生成回复信息。
2.根据权利要求1所述的自动回复对话方法,其特征在于,所述s1中所述关键词提取为剔除介词、冠词及修饰词。
3.根据权利要求1所述的自动回复对话方法,其特征在于,所述s2具体包括以下步骤:
s21,依据tbert模型对所述对话集合进行向量化处理,得到字符向量;
s22,依据tbert模型的自注意力机制及多头注意力机制对所述字符向量进行编码处理,得到所述字符向量的隐藏状态;
s23,将所述字符向量的隐藏状态的第一个字符作为问句向量,所述问句向量通过主题输入矩阵和主题输出矩阵处理得到主题向量;
s24,将所述主题向量通过函数处理来预测对话集合中的每个词,得到对话集合对应的主题词。
4.根据权利要求1所述的自动回复对话方法,其特征在于,所述s3中的所述开放域对话系统模型包括编码器及解码器,所述编码器与所述解码器由两个带门控循环单元的循环神经网络组成。
5.根据权利要求4所述的自动回复对话方法,其特征在于,所述s3具体包括以下步骤:
s31,将所述主题词引入到开放域对话系统模型中,所述编码器通过双向gru将所述对话集合编码呈隐藏状态;
s32,所述门控单元将所述主题向量引入所述隐藏状态的对话集合中生成语料词汇表;
s33,所述语料词汇表与所述主题词组成的主题词表在联合生成单元中提供回复词,所述回复词经解码器解码生成回复。
6.根据权利要求3所述的自动回复对话方法,其特征在于,所述s22中将字符向量编码为隐藏状态的公式为:
multihead(q,k,v)=concat(head1,head2,...,headh)wo
headi=attention(qwiq,kwik,vwiv)(2)
其中,q、k和v分别表示为查询、键和值,softmax表示逻辑回归函数,concat表示连接操作,
7.根据权利要求3所述的自动回复对话方法,其特征在于,所述s23中所述问句向量转化为所述主题向量的公式为:
va=softmax(ivq)(3)
vt=otva(4)
其中,va∈rk,
8.根据权利要求5所述的自动回复对话方法,其特征在于,所述s32中所述门控单元将所述主题向量引入到隐藏状态的所述对话集合中的公式为:
gi=σ(wgtvt+wghhi-1+wgxxi+bg)
vti=gi⊙vt
hi=rnn(vti,hi-1,xi)(5)
其中,wgt、wgh、wgx和bg为模型的参数,σ表示sigmoid非线性激活函数,⊙表示点积操作,vti表示隐藏状态的主题向量,gi表示门控单元,hi表示隐藏状态,hi-1表示前一隐藏状态。
9.一种自动回复对话系统,其特征在于,包括处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的自动回复对话方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任意一项所述的自动回复对话方法中的步骤。