一种基于问答系统的信息匹配方法及系统的制作方法

文档序号:6601960阅读:629来源:国知局
专利名称:一种基于问答系统的信息匹配方法及系统的制作方法
技术领域
本发明涉及搜索引擎技术,具体的说,涉及一种基于问答系统的信息匹配方法及系统。
背景技术
有研究表明,面对互联网的海量用户信息,大多数用户都将搜索引擎作为访问互联网以获取信息的起点。传统搜索引擎以网页搜索为主,大多采用关键字匹配的方式返回包含所搜索关键词的网页列表,由用户点击网页后查看。随着科技的不断发展,手机、 PDA(个人数据助理)等手持设备逐渐普及,越来越多的用户通过手持设备访问互联网,传统搜索引擎的弊端也开始显现。手持设备的屏幕大小和通信效率对信息容量的限制,使得传统搜索引擎所返回的网页列表不适用于展示给用户。问答系统是解决这一矛盾的方案之
ο问答系统和传统网页搜索的区别在于,用户可以以自然语言形式的句子向系统提问,系统分析用户问题后,精确的返回用户问题的答案。例如,用户希望搜索问题“中国最长的河是哪条?”传统网页搜索返回的可能是包含“中国”、“最长”、“河”、“哪里”等关键字的网页地址,用户需要点击网页后自己查找答案。而利用问答系统,将直接返回用户答案“长江”。避免了二次浏览,提高了用户体验。目前的问答系统不管采用何种方法进行答案检索,大都会配备问答知识库,该知识库往往存储一些常用问题,问题的答案采用自动爬取或专家维护的方式得到。在用户提问的时候,如果问题和知识库中的问题匹配成功,则直接返回知识库中的答案。知识库的结构多为一对一的问答对形式,即例如问题是“中国最长的河是哪条”,答案是“长江”,这样的一组问答作为知识库中的一组问答对,知识库中存储有多组这样的常问问题的问答对。 问答系统根据用户的提问在知识库中搜索与用户提问最匹配的知识库中的问题形式,进而给出该问题的答案。在基于知识库的问句匹配方法里,从排序上来说,已有的方法集中在语义、语法及传统信息论排序方法等三个方面。传统的信息论排序方法,如在网页搜索中常用的TF-IDF 值排序方法在问句匹配中作用有限。由于问答系统的问句往往比较短,词频信息在问句中比较集中也比较少,多是1-2次,因此很难体现出TF-IDF在词频信息上所包含的意义。利用语义匹配度的排序方法(包括利用语义信息计算距离的向量空间方法)一般需要遍历候选集,存在时间复杂度高的问题。且语义距离信息目前为止质量并不高,可靠性和覆盖性限制了适用范围。基于语法信息匹配度的排序方法,由于汉语的灵活性和语法不严格性,往往是对前两种方法的补充,提取1-2个明显的语法特征用于计算排序,并不能单独用于排序方法, 且同样存在计算复杂和精度不高的问题,会直接影响排序结果。综上,现有技术中,问答系统中的信息匹配,具体说,问句信息的匹配方法仍然存在不少的缺陷,匹配精度和匹配效率都有待提高。

发明内容
本发明所要解决的技术问题是,提供一种基于问答系统的信息匹配方法及系统, 能够高效准确的实现基于问答系统的信息匹配。为解决上述技术问题,本发明采用了以下技术方案一种基于问答系统的信息匹配方法,包括为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。在本发明的一种实施例中,按照如下方式更新所述用户交互行为表征参数如果用户交互行为反馈信息为正反馈,提高用户交互行为表征参数;如果用户交互行为反馈信息为负反馈,降低用户交互行为表征参数。在本发明的一种实施例中,还包括设置惩罚因子,以加权用户交互行为反馈信息对用户交互行为表征参数的降低程度。在本发明的一种实施例中,根据用户输入的提问信息在问答系统知识库中获取问题候选集通过如下方式进行利用自然语言技术对用户提问信息进行语法分析,按照语法分析从用户提问信息中提取出关键词;在问答系统知识库中检索包含所述关键词的问题信息,按照预设的关键词覆盖率阈值,将达到或超过所述关键词覆盖率阈值的问题信息选出形成所述问题候选集。在本发明的一种实施例中,所述用户交互行为表征参数为全局频率与关键词覆盖率的乘积。在本发明的一种实施例中,所述用户交互行为表征参数通过网页、WAP网页、或手机短信传递。本发明还提供了一种基于问答系统的信息匹配系统,包括表征参数设置模块,用于为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;信息匹配模块,用于根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。本发明的有益效果在于通过为问答系统知识库中的问答对配置用户交互行为表征参数,根据用户输入的提问信息在问答系统知识库中获取问题候选集,并以用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息, 由于用户交互行为表征参数根据用户交互行为反馈信息进行动态更新,可不断实时修正匹配信息,保证向用户返回的匹配信息的准确性,且仅返回问题候选集中的排序在前的预定
5数量的信息,从而能够高效地实现基于问答系统的信息匹配。


图1为本发明一种实施例的方法流程图;图2为本发明一种实施例的系统工作原理图。
具体实施例方式下面通过具体实施方式
结合附图对本发明作进一步详细说明。如图1所示,本发明的基于问答系统的信息匹配方法,主要包括为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。为了提高信息搜索及匹配的精确性,一般的,可以根据用户输入的提问信息在问答系统知识库中获取问题候选集。问题候选集,即系统针对用户的提问行为而从知识库中搜索到的多个相似问题。将“所检索的问题和问答系统知识库中的问题是同一问题的概率”定义为匹配度,从而问题候选中的多个相似问题都有其各自匹配度,匹配度判断方法例如可以采用 TF-IDF (term frequency-inverse documentfrequency,用于资讯检索与资讯探勘的力口权技术)方法,或者通过计算关键词覆盖率进行判断。对于问题的关键词覆盖率,通常是对用户提问行为的问句进行语法分析,例如对于“中国最长的河流是哪条? ”的问句,通过语法分析,提取出关键词例如包括中国、最长、 河,再寻找知识库中包含有这些关键词的问题。知识库中的问题,覆盖的关键词越多,则表明匹配度越高。由于用户提问行为的问句不一定与知识库中存储的问题形式完全一致,通过获取问题候选集的方式,可以避免漏检,即保证了知识库中有相关答案却因为问题形式与用户提问句不同而在匹配过程中被排除。从而能够保证信息匹配的有效性和准确性。可以将候选集中预定数量(可以由系统设定,例如为1)的问题信息(由于问答系统中的问答对形式,也可以是答案信息)返回给用户。一般的,为提高效率(通过减少向用户返回的数据量以提高传输效率以及节约系统开销),也可能受用户使用手持设备所限,向用户返回的问题信息仅是问题候选集中的一条或部分条信息。为此,需要决定向用户返回哪一条或哪几条信息,这可以通过对问题候选集中的问题信息排序并返回排序在前的预定数量的问题信息予以解决。排序的索引,可以采用匹配度从高到低的顺序,然而,这一顺序并不一定真正反映了信息的匹配。为提高信息的匹配精度,本发明实施例的信息匹配方法, 采用了为问答系统知识库中的问答对配置用户交互行为表征参数的方式,该用户交互行为可以根据用户交互行为反馈信息进行动态更新,例如,动态更新可以按照如下方式进行如果用户交互行为反馈信息为正反馈,提高用户交互行为表征参数;如果用户交互行为反馈信息为负反馈,降低用户交互行为表征参数。可以设置惩罚因子,以加权用户交互行为反馈信息对用户交互行为表征参数的降低程度。惩罚因子主要是基于用户实际使用模式考虑,在本发明的实施中,用户交互行为主要包括两种,一种是用户对问答系统的提问行为,一种是用户对问答系统的提问信息响应的评价行为,即问答系统针对用户的提问行为进行响应,产生问题候选集并最终向用户返回预定数量的问题或答案信息,用户可以对问答系统返回的问题或答案信息进行评价, 如果认为匹配,可以评价“满意”,如果认为不匹配,可以评价“不满意”。对于用户的提问行为,则视为用户交互行为的反馈信息为正反馈,则相应提高用户交互行为表征参数;对于用户的评价行为,“满意”的评价行为,也视为正反馈;而“不满意”的评价行为,则视为负反馈, 则要相应降低用户交互行为表征参数,然而,考虑到用户并不总是对问答系统返回的问题或答案信息进行评价,而正反馈在用户提问行为中已经产生,因而需要通过惩罚因子在一定程度放大负反馈的影响。在本发明的实施例中,根据用户输入的提问信息在问答系统知识库中获取问题候选集可以通过如下方式进行利用自然语言技术对用户提问信息进行语法分析,按照语法分析从用户提问信息中提取出关键词;本系统涉及的自然语言处理技术,包括分词和词性标注等技术。自然语言技术广泛应用于问答系统的问题匹配和答案排序当中,在此不再详述。在问答系统知识库中检索包含所述关键词的问题信息,按照预设的关键词覆盖率阈值,将达到或超过所述关键词覆盖率阈值的问题信息选出形成所述问题候选集。关键词覆盖率阈值的高低,决定了漏检率和匹配效率间的平衡,该值越高,则问题候选集范围越小,漏检的可能性则越大;该值越低,则问题候选集范围越大,匹配效率相应降低。因而可以通过实验、仿真、或实际运行结果设定一个较为合适的阈值。用户交互行为表征参数可以通过网页、WAP网页、或手机短信传递。即用户可以通过手持设备登录网页或WAP网页,在网页或WAP网页进行提问或评价行为,或者通过短信的方式进行提问或者评价行为,问答系统相应得到用户交互行为表征参数。本发明实施例的基于问答系统的信息匹配系统,包括表征参数设置模块,用于为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;信息匹配模块,用于根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。该信息匹配系统,适宜的,可以采用软件、硬件或者软件加硬件的方式实现,例如, 在应用服务器中执行实现上述信息匹配功能的计算机可执行程序等。本发明通过用户交互行为表征参数的设置和动态更新,能够保证信息匹配的精度和速度,实现基于问答系统的信息匹配的高效性和准确性。如图2所示,在本发明的一个应用例中,基于问答系统的信息匹配系统包括频率收集单元、知识库维护单元、排序单元、检索单元,用于在终端用户和问答系统知识库之间实现信息匹配,其中,上文的信息匹配模块的功能主要由排序单元和检索单元实现;上文中的表征参数设置模块的功能主要由频率收集单元和知识库维护单元实现。也就是说,在该应用例中,用户交互行为表征参数为频率信息。频率收集单元为与用户交互的单元,可以网页、WAP网页或手机短信的形式与用户进行交互。在用户对问答系统提出问题时,收集正频率,当用户对所匹配的问题发送不满意信息时,收集负频率。知识库维护单元根据用户问题(用户提问行为的问题形式)和知识库问题(知识库中存储的问题形式)的匹配程度,将频率收集单元收集到的正频率或负频率信息按比例更新到知识库中。检索问题排序过程中利用匹配度和频率两个因素对问题进行综合排序。上述系统的工作原理为在终端用户与问答系统交互时,频率收集单元根据用户的交互行为,选择收集正频率或负频率,如果是提问行为,则向检索单元发送检索请求获取问题候选集。如果用户交互行为是对系统返回的问题给出满意与否的评价行为,则针对该被评价的单个问题,通过频率维护单元将问题候选集的频率改变信息更新到知识库中,同时,对检索单元检索到的问题候选集按匹配度和频率共同排序,并抽取排序在前一位或几位的问题或答案,返回给用户。频率收集单元对用户输入的处理步骤如下步骤Si):开始;步骤S2)接收用户输入;步骤S3)判断用户输入,如果输入的是检索问题,收集正频率,如果是对问答系统返回的匹配信息的否定输入,收集该特定信息的负频率。其中,步骤S3中的收集正频率的步骤包括步骤S311)将用户问题发送到问答系统的检索单元;步骤S312)利用检索单元从知识库中返回一个问题候选集;步骤S313)将问题候选集按问题匹配程度排序,选取问题候选集中匹配度在N(N >0)以上的问题,按比例赋予正整数频率。N的大小和频率赋予比例都为一常数,并可以根据系统使用情况进行调整。例如, 设定N = 90%,即问题候选集中包括匹配度在90%以上的问题。对于频率赋予比例,例如可以将匹配度达到90%以上的问题赋予正频率9 ;将匹配度在80-90%的问题赋予正频率 8。上述步骤S312中,检索单元可以采用以下步骤对知识库进行检索步骤Jl)利用自然语言技术对用户问题进行分词和词性标注;步骤J2):按照词性和语法结构从问题中选出关键词;步骤J3)在知识库的倒排文件中依次查找包含关键词的问题;步骤J4)返回关键词覆盖百分比至少在M以上的问题。如前文所述,步骤S313中所述的候选集问题匹配度可以用问题内容的关键词覆盖率(即关键词覆盖百分比)来判断。为了方便用户,可以在问答系统向用户返回的结果展示中设置点击按钮,用来进行步骤S3中所述的用户的否定输入,如果用户认为此结果不是自己希望的结果,可以点击此按钮。
步骤S3中所述的收集负频率的方法是指针对该特定问题,首先按与用户问题的匹配度赋予正整数频率f。例如用户提问句是“中国最长的河流是哪条? ”,而知识库中存储的问题是“中国最长的河是哪条?”,匹配度达到90%以上,此时例如赋予知识库存储的问题的正频率是9。假设在问题候选集中,该问题匹配度最高,因而向用户返回该问题或者该问题的对应答案,但用户反馈对该返回的问题或者答案不满意,则例如乘以惩罚因子-1,得到负频率-9。此处惩罚因子在系统中是一个常数。由于在用户检索问题(用户的提问行为)的时候,已经将频率f更新到了知识库中,如果用户认为问题不匹配,那么应当取消这次更新的频率,但基于用户使用模式,用户可能不一定每次都点击“不满意”,也就是说,不恰当的正频率在一些时候被用户的“不满意”反馈减去;在一些时候则因为用户没有反馈而未被消除。因此应该有一个惩罚因子用于放大“不满意”的影响,即全局来看,如果认为用户每次都会对不满意的问题回应“不满意”的点击,则惩罚因子为-1 ;而如果假设只有10%的不满意会被点击,那么惩罚因子应该是-10。故此,惩罚因子的实际数字应该根据系统实际运行状况调整,用按与用户问题的匹配度赋予的正整数频率f乘以惩罚因子Κ(Κ<0),得到一个负数频率。其中,K的大小以及f的赋予比例根据系统使用情况可以有所调整。频率维护单元将收集到的不同问题的正或负频率更新到知识库中。如果知识库本身不含频率信息且内容不可更改,则可以建立与知识库问题一一对应的频率记录库,记录知识库中的各个问答对及其频率信息的对应关系,将频率信息更新到频率记录库中。可以利用数据库来存储知识库的内容和频率信息,则频率维护单元将是与该数据库进行连接的更新处理单元。图2示例中的排序单元的工作步骤如下步骤Pl):开始;步骤P2)接收问答系统返回的问题候选集;步骤P3)从知识库或频率记录库中获取问题候选集的频率信息;步骤P4)利用问题候选集中各个问题的匹配度和频率信息对问题排序;步骤P5)对排序在首位的问题,从知识库中获取相应答案;步骤P6):将答案展示给用户。问答系统可以使用WAP网站作为展示方式,用户通过手机终端访问站点,输入希望查找的问题。问答系统对问题进行分词后,利用语法和词性信息提取关键词后到倒排索引库中查找包含这些关键词的问题,查找出来的信息包括问答对、问题在知识库中的已有全局频率信息F,同时,每个问题可以有一个关键词覆盖率C。挑选关键词覆盖率为60%的问题作为候选集,频率收集单元获取本次提问的正频率信息f,方法是,将这些问题按比例赋予0-10之间正整数,覆盖度60%的为1,覆盖度100%的为10。将正频率信息f通过频率维护单元更新到知识库中。即新全局频率信息F =已有全局频率信息F+本次提问的正频率信息f,也就是说,需要对用户交互行为表征参数进行动态更新。 排序单元对问题候选集中的问题信息按照新全局频率F和覆盖率C的乘积为索引进行排序,将排在首位的问题通过WAP站点返回给用户。 此时,如果用户认为匹配的问题是错误匹配,可以点击WAP页面上的报错按钮,系统自动返回候选集中的下一个问题给用户。同时频率收集单元对前述被报错的问题的覆盖度乘以一个惩罚因子后,通过频率维护单元更新到知识库中。依此类推,如果候选集全部为空都未找到答案,则系统自动记录用户提问至待处理列表。 以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
权利要求
1.一种基于问答系统的信息匹配方法,其特征在于,包括为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。
2.如权利要求1所述的方法,其特征在于,按照如下方式更新所述用户交互行为表征参数如果用户交互行为反馈信息为正反馈,提高用户交互行为表征参数;如果用户交互行为反馈信息为负反馈,降低用户交互行为表征参数。
3.如权利要求2所述的方法,其特征在于,还包括设置惩罚因子,以加权用户交互行为反馈信息对用户交互行为表征参数的降低程度。
4.如权利要求1所述的方法,其特征在于,根据用户输入的提问信息在问答系统知识库中获取问题候选集通过如下方式进行利用自然语言技术对用户提问信息进行语法分析,按照语法分析从用户提问信息中提取出关键词;在问答系统知识库中检索包含所述关键词的问题信息,按照预设的关键词覆盖率阈值,将达到或超过所述关键词覆盖率阈值的问题信息选出形成所述问题候选集。
5.如权利要求4所述的方法,其特征在于,所述用户交互行为表征参数为全局频率与关键词覆盖率的乘积。
6.如权利要求1-5任一所述的方法,其特征在于,所述用户交互行为表征参数通过网页、WAP网页、或手机短信传递。
7.一种基于问答系统的信息匹配系统,其特征在于,包括表征参数设置模块,用于为问答系统知识库中的问答对配置用户交互行为表征参数, 并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;信息匹配模块,用于根据用户输入的提问信息在问答系统知识库中获取问题候选集, 以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。
8.如权利要求7所述的系统,其特征在于,所述表征参数设置模块按照如下方式更新所述用户交互行为表征参数如果用户交互行为反馈信息为正反馈,提高用户交互行为表征参数;如果用户交互行为反馈信息为负反馈,降低用户交互行为表征参数。
9.如权利要求8所述的系统,其特征在于,还包括设置惩罚因子,以加权用户交互行为反馈信息对用户交互行为表征参数的降低程度。
10.如权利要求7所述的系统,其特征在于,所述信息匹配模块根据用户输入的提问信息在问答系统知识库中获取问题候选集通过如下方式进行利用自然语言技术对用户提问信息进行语法分析,按照语法分析从用户提问信息中提取出关键词;在问答系统知识库中检索包含所述关键词的问题信息,按照预设的关键词覆盖率阈值,将达到或超过所述关键词覆盖率阈值的问题信息选出形成所述问题候选集。
全文摘要
本发明公开了一种基于问答系统的信息匹配方法及系统,所述方法包括为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。本发明能够提高问答系统的信息匹配速度和精度。
文档编号G06F17/30GK102236677SQ20101016627
公开日2011年11月9日 申请日期2010年4月28日 优先权日2010年4月28日
发明者丛鹏飞, 于雅洁, 卢佳, 徐伯星, 杭诚方 申请人:北京大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1