基于多层流程图组织对话语料的自然语言问答方法

文档序号:6472646阅读:392来源:国知局
专利名称:基于多层流程图组织对话语料的自然语言问答方法
技术领域
本发明涉及信息检索、自然语言问答系统,自然语言处理领域,特别是涉及一种基
于问答库的自然语言问答系统。本发明是对通常的问答系统的改进,用以提高上下文的关联效果。
背景技术
问答系统(QuestionAnswering System)是指能够对计算机用户输入的使用自然语言描述的问句做出回答的计算机程序。问答系统集自然语言处理、信息检索、知识表示为一体,正日益成为国际上研究的热点。它既能够让用户用自然语言提问,又能够为用户返回一个简洁、准确的答案。自然语言问答系统中的人机界面、精确性和实时性是自然语言问答系统的三大研发目标,其中,精确性是自然语言问答系统的首要目标。为了提高问答精确性,上下文的连贯是非常必要的。目前,问答系统为了让用户与系统之间的对话具有连贯性,主要采用的是脚本预设的方法。以下代码给出了一种典型设置问答系统上下文关联的方法。
〈pattern>你的名字是《/pattern>〈condition>
knowname" value = 〃 true"〉你已经知道我的名字了。干吗还
问?〈
n咖6
guessco皿t〃 value =〃 〃 >不对,不对。〈think>knowname" >didguess〈/set>〈set name = 〃 guessco皿t〃 >2〈/
〈1:li〉
〈li name =〈set namesetX/think>
〈/li>
〈li name =
不对
〈/li>
〈/condition> 从以上代码可以看到通过标签和变量可以实现让问答系统具有上下文的连贯性,这种方法可以准确的定义上下文逻辑关系,不足之处是实现成本较高,在知识库较大情况下定义上下文关系需要设计人员做很多工作。因此,有必要设计一种较为方便的让问答系统对话上下文具有连贯性的方法。
guessco皿t" value.〈thinkXset name =
2'
guessco皿t" >3〈/setX/think>

发明内容
本发明的目的在于提供一种让问答系统对话上下文具有连贯性的方法,这个方法
叫做基于多层流程图组织对话语料的自然语言问答方法,包括两个部分,语料采集系统和
问题分析系统。 1、语料采集系统
3
本方法所设计的语料采集系统采用多层流程图组织对话语料。本发明的目的是让
问答系统的对话上下文具有连贯性,显然要实现这个目的必然要求对话语料之间具有逻辑
关系,在背景技术中我们已经介绍过,最常用的方法是通过脚本和变量设置对话语料之间
的逻辑关系,本发明使用多层流程图来保存语料之间的逻辑关系,流程图中包括但不限于
开始、结束、条件判断、并行分支、合并分支、循环、暂定、跳转等流程,使用上述流程表达对
话语料中存在的逻辑关系。为了叙述简洁,这里用两层流程图来进行说明。 上下文的相关程度是人的感觉,没有唯一的标准,在本方法中我们约定了两个概
念叫做分类距离和语料距离,作为计算上下文相关程度的因子,在问题分析系统中会用到
这两个因子用来优选问答系统的对话。 (1)第一层流程图是语料的分类树,见图l,所有语料都在分类树中有对应的位置,分类树的每一个分类节点都对应一组语料,在本方法中,我们约定任意两个分类节点之间的最短路径长度叫做分类距离,分类距离越小相关程度也就越大。 (2)第二层流程图用来表示一组语料之间的上下文逻辑关系,见图2,对应到第一层流程中的一个节点。第二层流程图中的中的语料都应该围绕同一主题,并具有上下文逻辑关系,在问答系统的对话中,第二层流程图中的内容应当优先筛选出。在本方法中,我们约定在同一组语料两个语料之间的最短路径长度叫做语料距离,语料距离越小,相关程度也就越大。 2、问题分析系统 经过采集系统的工作,语料已经有规则的保存在语料采集系统的数据库中,问题分析系统对这些数据进行计算,本方法要兼顾语句相似程度和上下文的相关度,用这两项指标拟合,最终选择最优的对话语句。 (1)语句相似度表示两个语料之间的相似程度,在很多论文、资料中均有论述,不是本方法讨论主题,但是本方法必须要有语句相似度参与计算,理论上任何一种语句相似度算法均可使用。 (2)位置相关度表示两个语料之间的相关程度,任意语料都存在分类中,所以分类距离和语料距离都有意义,位置相关度K 1/(分类距离),同时,位置相关度K 1/(语料距离)。 (3)整体相似度由语句相似度和位置相关度拟合而成。问题分析系统需要根据用户输入内容计算分析取得最优结果反馈给用户,最优的标准是在结果集中选择整体相似度最大的一项。在整体相似度中语句相似度和位置相关度各自占有一定权重,在不同情况下权重数值是可变的,如在具体的侧重内容检索的问答系统中,语句相似度的权重会占有较大比重,起到决定性因素;而在普通日常对话的问答环境中,则位置相关度占有的权重较大。


图1是第一层流程图示例 图2是第二层流程图示例 图3是具体实施方式
中实例用的资料一 图4是具体实施方式
中实例用的资料二
具体实施例方式
为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附图和一个 具体实例对本发明做详细的说明。实例内容用户向问答系统,提问"你喜欢什么",在不同 上下文条件下,问答系统给出不同的回答。步骤一 语料采集附图2、附图3、附图4是通过语料采集系统录入的数据,其存储格式如下表。节点ID父节点ID分类ID数据140 1 112你喜欢什么141 140 112吃零食,看电视142 140 112边吃零食边看电视。404 1 101中餐地方菜八大菜系405 404 101川粤鲁苏,闽浙徽湘。419 1 103鲁菜427 405 101你喜欢什么428 427 101好吃的我都爱吃。434 419 103鲁菜又名山东菜,形成和发展与由山东地区的文化历史、地理环境、
经济条件和习俗尚好有关。山东是我国古文化发祥地之一,地处黄河下游,气候温和,境内
山川纵横,河湖交错,沃野千里,物产丰富,文化发达。特色选料精细、刀法细腻,注重实惠, 花色多样,善用葱姜。代表菜品糖醋鱼
434 419 103就是山东菜
436 434 103你喜欢什么
437 436 103糖醋鱼 糖醋鱼 438 435 103糖醋鱼、锅烧肘子、葱爆羊肉、葱扒海参、锅塌豆腐、红烧海螺、炸蛎黄。 441 141 112你喜欢看什么电视
442 441 112当然是肥皂剧了
步骤二问题分析 在步骤一的表格中我们可以看到,节点140、427、436的数据都是"你喜欢什么",
下面介绍通过本发明的方法在不同上下文额环境下问答系统给出不同的回答。 1、用户输入"你喜欢什么",在数据库中匹配此字符串,匹配到140、427、436节点。 2、没有上下文的时候140节点序号最小,被筛选出,问答系统输出140节点的下级
节点,输出内容是"边吃零食边看电视。" 3、假设上下文关联到关于地方菜的语料组,分类ID是IOI,用户输入"中餐地方菜 有什么",通过语句相似度分析,会筛选到404节点。问答系统输出405节点"川粤鲁苏,闽 浙徽湘。"。之后用户再次输入"你喜欢什么",此时语句相似度依然会筛选出140,427,436。 而此时,427节点"好吃的我都喜欢吃",与上文的系统输出节点405节点在同一个语料组, 分类距离为O,语料距离为1,显然可知道位置相似度一定大于140节点和436节点,所以 427节点被筛选出,输出"好吃的我都喜欢吃"。
5
4、和上文相似,如果用户输入与鲁菜相关的内容,比如"鲁菜是什么"这样问答系 统定位到,然后再问"你喜欢什么?",系统选择位置相关度较大的437节点,系统则输出"糖 醋鱼 糖醋鱼 "。 这个实例说明了如何利用本方法提高问答系统上下文的关联程度。对具体实施方 案的描述仅仅是为帮助理解本发明,而不是用来限制本发明的。任何本领域技术人员均可 以利用本发明的思想进行改动和变化,只要其技术手段没有脱离本发明的思想和要点,仍 然在本发明的保护范围之内。
权利要求
一种让问答系统对话上下文具有连贯性的方法,叫做基于多层流程图组织对话语料的自然语言问答方法,包括两个部分,语料采集系统和问题分析系统。语料采集系统的特征在于使用多层流程图来保存语料之间的逻辑关系,流程图中包括但不限于开始、结束、条件判断、并行分支、合并分支、循环、暂定、跳转等流程,使用上述流程表达对话语料中存在的逻辑关系。
2. 问题分析系统需要根据位置相关度和语句相关度计算最终相关度,位置相关度的特征在于利用权力要求1中所保存的数据,因为权力要求1中保存的是流程图的数据,所以其中包含有数据的逻辑关系,并约定2个语料之间的路径越短,这2个语料的位置相关度越大。位置相关度K 1/语料之间的路径。
3. 整体相关度的特征在于根据权力要求2所得到的位置相关度和语句相似度拟合而成。语句相似度的算法不在本专利涉及的范围之内。在整体相似度中语句相似度和位置相关度各自占有一定权重,在不同情况下权重数值是可变的,如在具体的侧重内容检索的问答系统中,语句相似度的权重会占有较大比重,起到决定性因素;而在普通日常对话的问答环境中,则位置相关度占有的权重较大。
全文摘要
本发明涉及信息检索、自然语言问答系统,自然语言处理领域,特别是涉及一种基于问答库的自然语言问答系统。本发明的目的在于提供一种让问答系统对话上下文具有连贯性的方法,叫做基于多层流程图组织对话语料的自然语言问答方法,其特点是使用多层流程度用来保存语料之间的逻辑关系。流程图中距离越短的两个节点相关程度越大,以此作为依据,在对话用来选择相关程度较大的节点,通过此方法可以有效提高问答系统对话的上下文连贯性。
文档编号G06F17/30GK101739434SQ20081030564
公开日2010年6月16日 申请日期2008年11月20日 优先权日2008年11月20日
发明者张曦 申请人:张曦
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1