一种用于问答系统中的自动答案摘要方法及系统与流程

文档序号:13672245阅读:357来源:国知局
技术领域本发明涉及计算机信息检索及自然语言处理领域,尤其是一种用于问答系统中的,基于概念网络与整数规划的自动答案摘要方法及系统。

背景技术:
随着互联网的普及,人们越来越多地在互联网上寻求帮助,面对不断丰富的海量互联网知识,以百度知道为首的各种问答系统为其在网上寻求信息提供了极大的便利。但是以百度知道为例,其答案长度都较短,口语化等噪声比较严重,由此造成了答案可能包含的信息不全,甚至答非所问。答案摘要技术是解决上述问题的一种有效技术手段,将候选答案中的信息进行聚合、去冗余等,从而得到精练而全面的答案信息,从而辅助用户快速理解。目前已有的答案摘要方法大多是沿用多文档摘要方法:基于图的方法,如TextRank、Lexrank,这类方法将句子视作节点,不光考虑了句子节点自身的权重,也将各个句子间的关系(边)作为考虑因素,缺点是对于较长答案摘要构建图时间较长,摘要冗余度较高。基于有监督学习的方法,该类方法利用如SVM等机器学习方法,对数据进行训练,学习答案句子和问题间的相关程度,从而对句子进行排序的方式进行摘要,缺点则是需要进行大量的标注,容易过拟合同时对数据要求较高,不适应实际的问答检索系统的场景。基于整数规划的方法,全局寻找质量最高的句子组成摘要,但是没有考虑答案句子和问题间的联系,虽然减少了冗余但是选出的句子会与问题无关。因此,传统的文档摘要技术难以很好的应用到实际的问答系统场景中。因此,有必要提出一种新的测试方案。

技术实现要素:
为克服现有问答系统针对用户查询返回的结果存在的信息不全、噪声较多的问题,本发明提供一种用于问答系统中的自动答案摘要方法,其从问题和答案中的概念角度出发,利用概念网络中各个概念在现实世界中的实际关系,构建句子等权重,克服句子可能与问题无关的问题,然后通过整数规划的方法,选出答案中和问题最为相关的句子,构成最终的答案摘要。本发明提供一种用于问答系统中的自动答案摘要方法,其包括如下步骤:S1、获得用户查询问题与问答系统返回的候选答案集;S2、从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集,从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集,对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵;S3、对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,所述问题扩展概念集与答案概念集取交集获得命中概念集;S4、根据命中概念集中包含的概念进行句子质量计算,建立优化函数,利用整数规划方法得到答案摘要。进一步的,所述步骤S2中概念映射方法包括:利用词性标注结果,抽取出对于问题和答案具有表义信息的概念,具体包括如下步骤:S21、输入候选答案集中的句子,通过分词、词性标注、去停用词,得到词序列;S22、若所述词序列中的任一词在概念网络中,则将该词加入概念集中;S23、根据词序列产生二元词序列,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1和词2的词性为名词或动词,则将词3加入概念集中,否则跳过词3,继续循环,直至二元词序列中所有二元词被遍历,返回概念集;S24、重复上述步骤,处理所有候选答案集中的句子,得到答案中每个句子的概念集,对每个句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵。进一步的,对于问题和答案具有表义信息的概念包括名词、动词、名词短语、动词短语。进一步的,步骤S3中,概念扩展包括同义层扩展和关联层扩展,所述概念扩展的方法包括:利用概念网络中的概念间的同义关系对概念先进行同义层扩展,再利用概念网络中的概念间的关联关系对概念进一步扩展,得到概念扩展后的扩展概念集;概念约减方法包括:对于同义层扩展结果,利用PageRank算法得到同义层概念权重,其中,PageRank算法的阻尼系数d=0.85;对于关联层扩展结果,采用启发式概念权重计算方法得到关联层概念权重,其中,启发式概念权重计算公式如下:wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。进一步的,步骤S4中句子质量计算方法包括如下步骤:S41、在步骤S3中概念约减得到的权重基础上,增加概念在答案中的频次权重,定义概念c权重wc如下:wc=log(owc+β)+α×log(freqD)]]>其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数;S42、定义句子质量tj:tj=b1×count(aj)+b2×Σc∈ajwc]]>其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。根据本发明的另一方面,本发明还提供一种自动答案摘要系统,其包括:输入模块、输出模块、概念映射模块、概念扩展及约减模块、句子质量计算模块及整体规划答案摘要模块,所述输入模块,用于接受问答系统输出的问题和候选答案集;所述概念映射模块,用于从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集,从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集,对所有句子的概念集取并集得到答案概念集;所述概念扩展及约减模块,用于对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,所述问题扩展概念集与答案概念集取交集获得命中概念集;所述句子质量计算模块,用于对命中概念集中包含的概念进行句子质量计算;所述整体规划答案摘要模块,利用整数规划方法得到答案摘要;所述输出模块,用于将得到的答案摘要返回给用户。进一步的,所述概念映射模块进行概念映射的方法包括如下步骤:步骤一、输入候选答案集中的句子,通过分词、词性标注、去停用词,得到词序列;步骤二、若所述词序列中的任一词在概念网络中,则将该词加入概念集中;步骤三、根据词序列产生二元词序列,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1和词2的词性为名词或动词,则将词3加入概念集中,否则跳过词3,继续循环,直至二元词序列中所有二元词被遍历,返回概念集;步骤四、重复上述步骤,处理所有候选答案集中的句子,得到答案中每个句子的概念集,对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵。进一步的,采用所述概念扩展及约减模块对问题概念集进行概念扩展、概念约减的方法包括:概念扩展方法包括:采用概念扩展算法对概念先进行同义层扩展,然后利用关联关系进一步扩展,得到概念扩展后的概念集;概念约减方法包括:对于同义层扩展的结果利用PageRank算法得到同义层概念权重,其中,PageRank算法的阻尼系数d=0.85;对于关联层扩展结果,采用启发式概念权重计算方法得到关联层概念权重其中,启发式概念权重计算公式如下:wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。进一步的,采用所述句子质量计算模块进行句子质量计算的方法包括:步骤(一)、在概念约减得到的权重基础上,增加概念在答案中的频次权重,定义概念c权重wc如下:wc=log(owc+β)+α×log(freqD)]]>其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数;步骤(二)、定义句子质量tj:tj=b1×count(aj)+b2×Σc∈ajwc]]>其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。进一步的,采用所述整体规划答案摘要模块获得答案摘要的方法如下:建立如下优化函数,通过整数规划的求解选择符合问题的句子集合作为摘要,具体如下:Objective:maxΣiwi·xi+tj·yj]]>s.t.Σjlj·yj≤L]]>ΣjOCCij·yj=xi,∀i]]>wi=log(owi+β)+α·log(freqD)]]>tj=b1·count(aj)+b2·Σc∈ajwc]]>xi∈N,yi,OCCij∈{0,1
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1