一种基于情感分析的问答上下文切换与强化选择方法与流程

文档序号:13072822阅读:166来源:国知局

本发明属于计算机程序领域,更具体地说,涉及一一种基于情感分析的问答上下文切换与强化选择方法。



背景技术:

当今社会,信息技术飞速发展。随着人们在信息社会中对信息检索的迫切需求的增加,普通的信息检索系统己经无法满足用户的需要,而发展在信息检索技术之上的智能问答系统可以满足人们的这一需求。智能问答系统允许用户以自然语言的形式输入一个问句,最终返回给用户的也是自然语言形式的简短而准确的答案。

智能问答系统一个最重要的指标就是问答交互的可持续性,即问答不会进入死循环以及问答不会因为用户的交互体验较差而提前结束。

目前的智能问答多关注于针对问题的一问一答,缺乏对问答交互中的情感分析以及相应的问答上下文切换机制。



技术实现要素:

针对现有技术存在的不足,本发明的目的在于提供了一种基于情感分析的问答上下文切换与强化选择方法,设计合理,引入基于情感分析的问答上下文切换机制,解决了问答系统在回答质量不太高的情况下的恶性循环问题,提高了用户的问答交互体验;引入情感分析,对问答质量进行评估,从而实施强化学习,优化系统性能。

为实现上述目的,本发明提供了如下技术方案:

一种基于情感分析的问答上下文切换与强化选择方法,其特征在于:选择方法的原理是引入情感分析,进一步通过问答上下文切换机制,主动引导用户,从而将问答交互引入良性轨道,保持问答交互的可持续性,进而提高用户的交互体验;

具体选择方法的步骤如下:

1)、历史问答输入;智能问答交互中,最近的问答交互会被记录下来;

2)、情感分析:实时分析用户的情感状态;

3)、情感判断:当判定用户的情感为负时,认为当前的问答交互质量较低,用户的体验较差,这时会将保存的用户历史问题合成一个长文本,进行关键词提取,进一步通过知识库匹配,进行问题推荐,完成问答切换,从而保证持续、良性的问答交互。

作为一种优化的技术方案,所述主题提取采取设置阈值的方法;当问答交互过程中情感分析连续为负的次数超过阈值,则该问答交互的情感判定为负;情感判定为负的问答被认定为质量较差的问答,答非所问的可能性较大,因此,从用户历史的问题中过滤掉情感判定为负的问题,得到问答切换的上下文信息;基于这些上下文信息,就可以准确地开展知识库匹配及问答切换。

作为一种优化的技术方案,所述关键词提取包括分词、停用词去除、冗余词过滤以及同义词映射;

所述分词将一个汉字序列切分成一个一个单独的词;

所述停用词是处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词;停用词去除是通过对问答所属领域的大量文本样本做特征分析,计算度量词重要性的值,如tf-idf、信息增益等,生成问答所属领域停用词集合,结合通用领域停用词,得到最终的停用词集合;是对分词后的词序列删除属于停用词集合中的词;

冗余词过滤是指将语义上重复冗余的词去掉;将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语,进一步滤除;

同义词映射是通过构建同义词库来解决的;在同义词库中,语义相同但表述不同的词会聚类在一起,每个聚类会选取一个词作为该类的中心词;同义词映射就是将分词后的每个词映射为其所属聚类的中心词;

经分词、停用词去除、冗余词过滤以及同义词映射后,可以提取出问答上下文信息中的关键词,表示为:

w={w1,w2,...,wm}。

作为一种优化的技术方案,所述知识库匹配及问答切换包括:

不同时间段的问答对于理解用户当前的意图贡献度不同,时间上越近的问答与用户当前的意图有越高的语义相似度,对于后续的知识库匹配算法来说则越重要;因此,根据距离当前的时间长短为不同的关键词赋予不同的权值,假设关键词wi所在问答距离最后问答的问答轮数为ti,则wi的权值为:

可见,关键词所在问答距离当前的时间越短,权值越大,反之则越小,表示为:

θ={θ1,θ2,…,θm};

知识库中的知识是以问答的形式保存的;情感判定为负表明知识库匹配存在一定的问题,有可能是知识库中并不存在该问题,也有可能是基于用户输入与知识库中问题的语义相似度计算出现偏差;这时,就需要问答系统根据上下文信息,通过问答切换,引导用户,保持问答交互的可持续性;

由于知识库中答案部分一般具有较长的文本长度,对于上下文信息中的关键词,统计其在知识库中答案部分出现的次数;出现的次数越多,表明该答案与上下文信息有越高的语义相似度:

count(wi)=logn(n(wi))

其中,n(wi)为关键词wi在所匹配知识库答案中出现的次数,n为对数的底数,n>1;对其取对数是为了避免某个关键词在知识库答案中出现的过于频繁,从而影响最终的匹配准确率;

为了更加有效的进行加权计算,需要对count(wi)做归一化处理,

其中,count′(wi)为count(wi)归一化后的指标,countmax为集合w中所有关键词的logn(n(wi))的最大值,countmin为w中所有关键词的logn(n(wi))的最小值;

基于加权多关键词的语义相似度计算如下,

最终,将匹配到的相似度最大的知识库答案所对应的问题返回给用户;对于过滤掉的情感为负的回答,计算奖惩因子,引入强化学习,优化智能问答系统。

由于采用了上述技术方案,与现有技术相比,本发明设计合理,引入基于情感分析的问答上下文切换机制,解决了问答系统在回答质量不太高的情况下的恶性循环问题,提高了用户的问答交互体验;引入情感分析,对问答质量进行评估,从而实施强化学习,优化系统性能。

参照附图和实施例对本发明做进一步说明。

附图说明

图1为本发明一种实施例的工作流程图。

具体实施方式

实施例

一种基于情感分析的问答上下文切换与强化选择方法,选择方法的原理是引入情感分析,进一步通过问答上下文切换机制,主动引导用户,从而将问答交互引入良性轨道,保持问答交互的可持续性,进而提高用户的交互体验。

如图1所示,具体选择方法的步骤如下:

1)、历史问答输入;智能问答交互中,最近的问答交互会被记录下来。

2)、情感分析:实时分析用户的情感状态。

3)、情感判断:当判定用户的情感为负时,认为当前的问答交互质量较低,用户的体验较差,这时会将保存的用户历史问题合成一个长文本,进行关键词提取,进一步通过知识库匹配,进行问题推荐,完成问答切换,从而保证持续、良性的问答交互。

上述步骤中几个关键点包括主题提取、关键词提取和知识库匹配及问答切换。

1、主题提取

所述主题提取采取设置阈值的方法;当问答交互过程中情感分析连续为负的次数超过阈值,则该问答交互的情感判定为负;情感判定为负的问答被认定为质量较差的问答,答非所问的可能性较大,因此,从用户历史的问题中过滤掉情感判定为负的问题,得到问答切换的上下文信息;基于这些上下文信息,就可以准确地开展知识库匹配及问答切换。正常的问答交互必定存在一定的语义连续性,即一段时间内的问答是围绕着一个或几个特定的主题开展的。因此,本发明基于最近的历史问答,通过主题生成算法(如lda,latentdirichletallocation),可以提取出用户当前问答交互的主题,从而开展下一步有针对性的知识库匹配,提高匹配的效率及问答切换的准确性。

2、关键词提取

所述关键词提取包括分词、停用词去除、冗余词过滤以及同义词映射。在信息检索中,为提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词就被称为停用词。停用词大致可分为如下两类:一类是使用十分广泛,甚至是过于频繁的一些单词,如“我”、“是”等;另一类是文本中实际意义不大的词,这类词包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,如常见的“的”、“在”、“和”、“接着”之类。

所述分词将一个汉字序列切分成一个一个单独的词。

所述停用词是处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词;停用词去除是通过对问答所属领域的大量文本样本做特征分析,计算度量词重要性的值,如tf-idf、信息增益等,生成问答所属领域停用词集合,结合通用领域停用词,得到最终的停用词集合;是对分词后的词序列删除属于停用词集合中的词;

冗余词过滤是指将语义上重复冗余的词去掉;将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语,进一步滤除;

同义词映射是通过构建同义词库来解决的;在同义词库中,语义相同但表述不同的词会聚类在一起,每个聚类会选取一个词作为该类的中心词;同义词映射就是将分词后的每个词映射为其所属聚类的中心词;

经分词、停用词去除、冗余词过滤以及同义词映射后,可以提取出问答上下文信息中的关键词,表示为:

w={w1,w2,...,wm}。

3、知识库匹配及问答切换

所述知识库匹配及问答切换包括:

不同时间段的问答对于理解用户当前的意图贡献度不同,时间上越近的问答与用户当前的意图有越高的语义相似度,对于后续的知识库匹配算法来说则越重要;因此,根据距离当前的时间长短为不同的关键词赋予不同的权值,假设关键词wi所在问答距离最后问答的问答轮数为ti,则wi的权值为:

可见,关键词所在问答距离当前的时间越短,权值越大,反之则越小,表示为:

θ={θ1,θ2,...,θm};

知识库中的知识是以问答的形式保存的;情感判定为负表明知识库匹配存在一定的问题,有可能是知识库中并不存在该问题,也有可能是基于用户输入与知识库中问题的语义相似度计算出现偏差;这时,就需要问答系统根据上下文信息,通过问答切换,引导用户,保持问答交互的可持续性;

由于知识库中答案部分一般具有较长的文本长度,对于上下文信息中的关键词,统计其在知识库中答案部分出现的次数;出现的次数越多,表明该答案与上下文信息有越高的语义相似度:

count(wi)=logn(n(wi))

其中,n(wi)为关键词wi在所匹配知识库答案中出现的次数,n为对数的底数,n>1;对其取对数是为了避免某个关键词在知识库答案中出现的过于频繁,从而影响最终的匹配准确率;

为了更加有效的进行加权计算,需要对count(wi)做归一化处理,

其中,count′(wi)为count(wi)归一化后的指标,countmax为集合w中所有关键词的logn(n(wi))的最大值,countmin为w中所有关键词的logn(n(wi))的最小值;

基于加权多关键词的语义相似度计算如下,

最终,将匹配到的相似度最大的知识库答案所对应的问题返回给用户;对于过滤掉的情感为负的回答,计算奖惩因子,引入强化学习,优化智能问答系统。

本发明设计合理,引入基于情感分析的问答上下文切换机制,解决了问答系统在回答质量不太高的情况下的恶性循环问题,提高了用户的问答交互体验;引入情感分析,对问答质量进行评估,从而实施强化学习,优化系统性能。

本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1