智能化情感问答方法、装置及计算机可读存储介质与流程

文档序号:18739895发布日期:2019-09-21 01:39阅读:来源:国知局

技术特征:

1.一种智能化情感问答方法,其特征在于,所述方法包括:

通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集;

对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集;

将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练;

当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练;

接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。

2.如权利要求1所述的智能化情感问答方法,其特征在于,通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,包括:

根据所述网络爬虫技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集;

遍历所述问题数据集内的问题,使用所述网络爬虫技术从所述URL页面内爬取与所述问题对应的多种答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集。

3.如权利要求2所述的智能化情感问答方法,其特征在于,所述分词操作包括:

根据所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:

其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;

所述关键字抽取操作包括:

构建所述词的相关度,并基于所述相关度提取关键字,所述相关度为:

其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离。

4.如权利要求3中的智能化情感问答方法,其特征在于,所述Word2Vec算法为CBOW模型;

所述CBOW模型包括输入层、投影层和输出层;

所述投影层ζ(ω,j)为:

其中,表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。

5.如权利要求4所述的智能化情感问答方法,其特征在于,所述循环神经网络为长短期记忆网络,所述长短期记忆网络包括遗忘门、输入门、输出门;

所述遗忘门为:

ft=σ(wt[ht-1,xt]+bt)

其中,ft为所述遗忘门的输出数据,xt为所述遗忘门的输入数据,t为所述问答词向量集的当前时间,t-1为所述问答词向量集当前时间的前一个时间,ht-1为所述输出门在所述问答词向量集当前时间的前一个时间的输出数据,wt为所述当前时间的权重,bt为所述当前时间的偏置,[]为矩阵乘法操作,σ表示所述sigmoid函数。

6.一种智能化的情感问答装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的智能化的情感问答程序,所述智能化的情感问答程序被所述处理器执行时实现如下步骤:

通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,将所述问题数据集与所述多种答案数据集组成问答数据集,并对所述问答数据集进行情感属性标注,得到与所述问答数据集对应的情感属性标注集;

对所述问答数据集进行包括分词和关键字抽取的预处理操作,并根据Word2Vec算法对所述预处理操作完成的问答数据集进行词向量化操作,得到问答词向量集,所述问答词向量集包括问题词向量集和答案词向量集;

将所述情感属性标注集输入至损失函数中,将所述问题词向量集输入至卷积神经网络模型中,利用所述卷积神经网络模型训练得到训练值,并将所述训练值输入至损失函数,利用所述损失函数并根据所述情感属性标注集与所述训练值计算得到损失值,判断所述损失值与预设阈值的大小关系,直至所述损失值小于预设阈值时,所述卷积神经网络退出训练;

当所述卷积神经网络退出训练后,所述卷积神经网络将所述问题词向量集输入至循环神经网络,同时提示所述循环神经网络接受所述答案词向量集进行训练,直至所述循环神经网络满足预设阈值要求时,退出训练;

接收用户问题,对所述用户问题进行所述预处理操作和所述词向量化操作后,输入至所述卷积神经网络判断情感属性类别,所述循环神经网络根据所述情感属性类别输出所述用户问题的答案。

7.如权利要求6所述的智能化的情感问答装置,其特征在于,通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的多种答案数据集,包括:

根据所述网络爬虫技术从URL页面内爬取以文本形式提问的问题,将所述以文本形式提问的问题组成问题数据集;

遍历所述问题数据集内的问题,使用所述网络爬虫技术从所述URL页面内爬取与所述问题对应的多种答案,直至所述问题数据集遍历结束,得到与所述问题数据集对应的多种答案数据集。

8.如权利要求7所述的智能化的情感问答装置,其特征在于,所述分词操作包括:

根据所述所述问答数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:

其中,W1,W2,...,Wm为所述问答数据集内数据的词,m为所述问答数据集的数量;

所述关键字抽取操作包括:

构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:

其中,f(Wi,Wj)为词Wi和词Wj的相关度,tfidf(Wi)为词Wi的词频与逆向频率值,tfidf(Wj)为词Wj的词频与逆向频率值,d为词Wi和词Wj关于词向量的欧式距离。

9.如权利要求8所述的智能化的情感问答装置,其特征在于,所述Word2Vec算法为CBOW模型;

所述CBOW模型包括输入层、投影层和输出层;

所述投影层ζ(ω,j)为:

其中,表示在路径ω内,第j个结点对应的霍夫曼编码,θ为所述CBOW模型的迭代因子,σ表示sigmoid函数,Xω为所述预处理操作完成的问答数据集。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有智能化的情感问答程序,所述智能化的情感问答程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的智能化情感问答方法的步骤。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1