一种面向智能机器人的问答数据处理方法及装置的制造方法

文档序号:10489001阅读:175来源:国知局
一种面向智能机器人的问答数据处理方法及装置的制造方法
【专利摘要】一种面向智能机器人的问答数据处理方法及装置,该方法包括:条件判断步骤,对用户输入的查询语句进行句法分析,判断查询语句是否属于知识图谱的查询范畴,如果属于,则执行知识图谱处理步骤;知识图谱处理步骤,利用预设知识图谱对查询语句进行处理,得到知识图谱处理结果;结果输出步骤,将知识图谱处理结果作为查询语句的答案输出至问答系统。该方法不仅能够大大减少用户获取答案所耗费的时间,还能够提高所得到的查询问题的答案的准确性,从而提高了智能机器人的用户体验。
【专利说明】
一种面向智能机器人的问答数据处理方法及装置
技术领域
[0001 ]本发明涉及人机交互技术领域,具体地说,涉及一种面向智能机器人的问答数据处理方法及装置。
【背景技术】
[0002]对于问答交互系统来说,用户经常会提出一些特别复杂的查询,例如用户向问答交互系统输入诸如“姚明的身高是多少”或“姚明的老婆是干什么的”等问题。对于这类问题,传统的问答交互系统通常仅对用户输入的问题进行简单的处理转换并根据得到的关键字来从预先定义后的知识库中检索出相应数据,这种处理方式非常类似现有的搜索引擎。
[0003]然而,传统的问答交互系统存在着诸多缺陷。一方面,传统的问答交互系统通常并不会去做语义理解,而这也就导致了其检索出的答案与问题本身的相关度很差,其返回的结果很可能完全不是用户所需要的;另一方面,传统的问答交互系统检索出的答案通常均比较长,这也就需要用户自己从问答交互系统给出的回答中提取出其所需要的信息,这也就耗费了大量的时间。

【发明内容】

[0004]为解决上述问题,本发明提供了一种面向智能机器人的问答数据处理方法,所述方法包括:
[0005]条件判断步骤,对用户输入的查询语句进行句法分析,判断所述查询语句是否属于知识图谱的查询范畴,如果属于,则执行知识图谱处理步骤;
[0006]知识图谱处理步骤,利用预设知识图谱对所述查询语句进行处理,得到知识图谱处理结果;
[0007]结果输出步骤,将所述知识图谱处理结果作为所述查询语句的答案输出至问答系统。
[0008]根据本发明的一个实施例,判断所述查询语句是否属于预设句式或包含预设关键词,如果是,则判定所述查询语句属于知识图谱的查询范畴。
[0009]根据本发明的一个实施例,在所述条件判断步骤中,对所述查询语句进行预处理,以去除所述查询语句中的预设符号,并根据预处理结果判断所述查询语句是否属于知识图谱的查询范畴。
[0010]根据本发明的一个实施例,所述知识图谱处理步骤包括:
[0011]对所述查询语句进行语义解析来从所述查询语句中抽取出查询语句语义链;
[0012]利用所述预设知识图谱对所述查询语句语义链进行检索,得到知识图谱处理结果O
[0013]根据本发明的一个实施例,在所述知识图谱处理步骤中,还对所述查询语句语义链中的词语进行转换,以实现属性和关系信息的归一化。
[0014]根据本发明的一个实施例,在所述知识图谱处理步骤中,对所述知识图谱中所包含的针对查询语句语义链中词语的节点进行优先级排序,根据优先级最高的节点来对所述查询语句语义链进行检索。
[0015]本发明还提供了一种面向智能机器人的问答数据处理装置,所述装置包括:
[0016]条件判断模块,用于对用户输入的查询语句进行句法分析,判断所述查询语句是否属于知识图谱的查询范畴,如果属于,则将所述查询语句传输到知识图谱处理模块;
[0017]知识图谱处理模块,用于利用预设知识图谱对所述查询语句进行处理,得到知识图谱处理结果;
[0018]结果输出模块,用于将所述知识图谱处理结果作为所述查询语句的答案输出至问答系统。
[0019]根据本发明的一个实施例,所述条件判断模块配置为判断所述查询语句是否属于预设句式或包含预设关键词,如果是,则判定所述查询语句属于知识图谱的查询范畴。
[0020]根据本发明的一个实施例,所述条件判断模块配置为对所述查询语句进行预处理,以去除所述查询语句中的预设符号,并根据预处理结果判断所述查询语句是否属于知识图谱的查询范畴。
[0021]根据本发明的一个实施例,所述知识图谱处理模块配置为对所述查询语句进行语义解析来从所述查询语句中抽取出查询语句语义链,并利用所述预设知识图谱对所述查询语句语义链进行检索,得到知识图谱处理结果。
[0022]根据本发明的一个实施例,所述知识图谱处理模块配置为还对所述查询语句语义链中的词语进行转换,以实现属性和关系信息的归一化。
[0023]根据本发明的一个实施例,所述知识图谱处理模块配置为对所述知识图谱中所包含的针对查询语句语义链中词语的节点进行优先级排序,根据优先级最高的节点来对所述查询语句语义链进行检索。
[0024]本发明所提供的面向智能机器人的问答数据处理方法及装置利用知识图谱来查询用户输入的查询问题的答案,该方法首先根据预先定义好的规则进行判断后利用知识图谱来处理符合规则的查询问题,随后通过知识图谱对查询问题进行语义理解和推理后可以得到准确的查询结果。该方法及装置不仅能够大大减少用户获取答案所耗费的时间,还能够提高所得到的查询问题的答案的准确性,从而提高了智能机器人的用户体验。
[0025]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
【附图说明】
[0026]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
[0027]图1是根据本发明一个实施例的面向智能机器人的问答数据处理方法的流程图;
[0028]图2是根据本发明一个实施例的知识图谱处理步骤的实现流程图;
[0029]图3是根据本发明一个实施例的在知识图谱处理步骤中对查询语句进行处理的流程图;
[0030]图4是根据本发明一个实施例的面向智能机器人的问答数据处理装置的结构示意图。
【具体实施方式】
[0031]以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
[0032]同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。
[0033]另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0034]针对现有技术中所存在的问题,本发明提供了一种基于知识图谱的面向智能机器人的问答数据处理方法。知识图谱本质上是语义网络,是一种基于图的数据结构,其由节点(point)和边(edge)组成。在知识图谱中,每个节点表示现实世界中存在的“实体”,每条边表示实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
[0035]图1示出了本实施例所提供的基于知识图谱的面向智能机器人的问答数据处理方法的流程图。
[0036]如图1所示,本实施例所提供的面向智能机器人的问答数据处理方法首先在步骤SlOl中对用户输入的查询语句进行句法分析,并在步骤S102中根据句法分析结果来判断步骤SI OI中所获取到的查询语句是否属于知识图谱的查询范畴。
[0037]本实施例中,该方法在步骤SlOl中对用户输入的查询语句进行句法分析包括对查询语句进行预处理,以此去除查询语句中的预设符号。本实施例中,在步骤SlOl中所去除的预设符号优选地包括查询语句中的特殊字符和部分标点符号等。需要指出的是,在本发明的其他实施例中,还可以采用其他方法来对用户输入的查询语句进行句法分析,本发明不限于此。
[0038]当完成对查询语句的预处理后,该方法在步骤S102中根据预处理后的结果判断查询语句是否属于知识图谱的查询范畴。具体地,本实施例中,在步骤S102中优选地通过判断预处理后的查询语句中是否属于预设句式或包含预设关键词来确定查询语句是否数据知识图谱的查询范畴。
[0039]需要指出的是,在本发明的其他实施例中,在步骤S102中还可以采用其他合理的方式来判断查询语句是否属于知识图谱的查询范畴,本发明同样不限于此。
[0040]如图1所示,如果用户输入的查询语句属于知识图谱的查询范畴,那么该方法则在知识图谱处理步骤S103中利用预设知识谱图对查询语句进行处理,从而得到知识图谱处理结果。
[0041]在得到知识图谱处理结果后,该方法在步骤S104中将知识图谱处理结果作为该查询语句的答案输出给问答系统,以由问答系统通过相应决策确定出最终的答案来输出给用户。
[0042]具体地,图2示出了本实施例中利用预设指数图谱对查询语句进行处理的具体流程。
[0043]如图2所示,本实施例所提供的方法在步骤S201中对查询语句进行语义解析来从查询语句中抽取出查询语句语义链。
[0044]信息抽取是直接从自然语言文本(即根据查询语句形成的语言文本)中抽取事实信息,并以结构化的形式描述信息。具体地,如图3所示,本实施例中,从查询语句中抽取查询语句语义链时,首先在步骤S301中对查询语句进行命名实体识别。命名实体是文本中的基本元素信息,是正确理解文本的基础。而命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。
[0045]本实施例中,在进行命名实体识别时所采用的方法优选地包括基于统计的方法。基于统计的方法是利用预先标注的语料进行训练,标注语料时不需要广博的计算语言知识,并且可以在短时间内完成。
[0046]需要指出的是,在本发明的其它实施例中,还可以采用其他合理的方式来进行命名实体识别,本发明不限于此。例如在本发明的一个实施例中,还可以采用基于规则的方法来对查询语句进行命名实体识别。
[0047]当提取出查询语句中的命名实体后,该方法便可以在步骤S301中根据所提取出的命名实体形成相应的查询语句语义链。
[0048]假设用户输入的查询语句为“姚明的老婆的职业”,那么通过语义链提取过程可以得到“姚明_>老婆”和“姚明_>老婆_>职业”这样的语义链。这样用户的查询请求也就被分解成两个相互关联的问题,解决了第一个问题之后就能够很好地解决第二个问题。
[0049]众所周知,一个实体的指称项可以对应多个实体概念。在包含这样有歧义的命名实体的文本中,需要确定出指称项具体指向的实体概念。因此,本实施例所提供的方法还在步骤S302中对查询语句语义链中的命名实体进行命名实体消岐处理。
[0050]命名实体消岐实质上是构建一个分类算法。假设给定一个数据集合D,其中的命名实体均以指称项存在,所有的指称项构成集合R,而包含所有实体概念的集合为E,则命名实体消岐的过程就是利用数据集合D中的上下文和/或外界的知识库来将集合R中的所有元素划分到E中的实体概念上去。
[0051]例如,对于“姚明的老婆”这个查询问题,通过语义链提取可以提取出查询语句语义链“姚明_>老婆”,然而,知识图谱中可以包含很多个姚明,比如有打篮球的姚明,也有作曲家的姚明。为了找到查询问题的答案,本实施例所提供的方法优选地采用结合上下文语境的方式来确定出查询语句语义链中的命名实体“姚明”具体是指代的知识图谱中的哪一个。
[0052]通过命名实体消岐在大部分情况下能够确定出查询语句语义链中的命名实体所具体指代的实体,然而在某些情况下单单靠命名实体消岐仍无法确定出命名实体所具体指代的实体。针对这一问题,本实施例所提供的方法还在步骤S303中根据预设规则对所使用的知识图谱中所包含的针对查询语句语义链中词语(即命名实体)的节点进行优先级排序,并在步骤S304中将优先级排序最高的节点来作为与查询语句语义链中词语相对应的节点。
[0053]例如对于“姚明的老婆”这个查询问题,通过语义链提取可以提取出查询语句语义链“姚明_>老婆”,由于命名实体“姚明”在知识图谱中存在多个对应节点,因此为了准确地确定出命名实体“姚明”所对应的节点,本实施例所提供的方法按照预设的规则对知识谱图中存在的对应于“姚明”的多个节点进行排序(例如查询热度将“篮球运动员姚明”的优先级排在最高,这样也就确定出了查询语句语义链中的命名实体“姚明”的具体指代内容。
[0054]需要指出的是,在本发明的其他实施例中,还可以采用其他合理的方式来确定出查询语句语义链中的命名实体在知识谱图中的对应内容,本发明不限于此。
[0055]为了得到更加准确地查询结果,本实施例所提供的方法还在步骤S305中对查询语句语义链中的属性和关系信息进行归一化。例如,“姚明的老婆”和“姚明的妻子”应该返回同一查询结果,同样,“姚明的工作”和“姚明的职业”也应该返回同一查询结果,而本实施例所提供的方法通过对属性和关系信息进行一定的转换而得到归一化后的信息,这样不仅可以简化查询过程,还可以提高查询结果的准确性。例如,通过信息的归一化处理,本实施例中将“工作”转换为“职业”,将“老婆”以及“夫人”等转换为“妻子” O
[0056]需要指出的是在,本实施例所提供的图3中的处理步骤并不作为对各个处理步骤先后顺序的限定,在本发明的不同实施例中,根据实际需要,图3所示的各个步骤可以进行合理地调整,本发明不限于此。
[0057]通过上述过程,本方法将查询语句“姚明的老婆的职业”简化为“姚明(篮球运动员)_>妻子->?_>职业_>?”。再次如图2所示,该方法便可以在步骤S202中利用预设知识图谱来对查询语句语义链进行检索,这样可以检索得到“姚明(篮球运动员)_>妻子_>?”这个问题的答案是“叶莉”,而“叶莉_>职业_>?”这个问题的答案则是“篮球运动员”,这样也就可以得到整个查询语句的答案是“篮球运动员这个结果”。
[0058]为了提高知识图谱的搜索质量,本方法不仅要求知识图谱包含大量高质量的常识性知识,还要能够及时发现并添加新的知识。因此本方法优选地通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。对于这些数据来说,其数据质量普遍较高,更新频率较低。
[0059]需要指出的是,在本发明的其他实施例中,还可以利用其他合理方法来丰富知识图谱,本发明不限于此。例如在本发明的一个实施例中,还可以利用各种半结构化数据(例如HTML表格)来丰富知识图谱。具体地,该方法通过从各种半结构化数据中抽取关于实体的属性-值对来丰富实体的描述。此外,该方法还可以通过搜索日志来发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。
[0060]相比高质量的常识性知识,通过数据挖掘所取得的知识数据更加庞大,其更能反应当前用户的查询需求并能及时发现最新的实体或事实。
[0061]从上述描述中可以看出,本实施例所提供的面向智能机器人的问答数据处理方法利用知识图谱来查询用户输入的查询问题的答案,该方法首先根据预先定义好的规则进行判断后利用知识图谱来处理符合规则的查询问题,随后通过知识图谱对查询问题进行语义理解和推理后可以得到准确的查询结果。该方法不仅能够大大减少用户获取答案所耗费的时间,还能够提高所得到的查询问题的答案的准确性,从而提高了智能机器人的用户体验。
[0062]本发明还提供了一种面向智能机器人的问答数据处理装置,图4示出了本实施例中该装置的结构示意图。
[0063]如图4所示,本实施例所提供的面向智能机器人的问答数据处理装置包括:条件判断模块401、知识图谱处理模块402和结果输出模块403。其中,条件判断模块401用于对所获取到的用户输入的查询语句进行句法分析,并根据句法分析结果来判断所获取到的查询语句是否属于知识图谱的查询范畴。
[0064I本实施例中,条件判断模块401对查询语句进行句法分析主要是对查询语句进行预处理,以此去除查询语句中的预设符号。其中,条件判断模块401所去除的预设符号优选地包括查询语句中的特殊字符和部分标点符号等。需要指出的是,在本发明的其他实施例中,条件判断模块401还可以采用其他方法来对用户输入的查询语句进行句法分析,本发明不限于此。
[0065]当完成对查询语句的预处理后,条件判断模块401将根据预处理后的结果判断查询语句是否属于知识图谱的查询范畴。具体地,本实施例中,条件判断模块401优选地通过判断预处理后的查询语句中是否属于预设句式或包含预设关键词来确定查询语句是否数据知识图谱的查询范畴。
[0066]需要指出的是,在本发明的其他实施例中,条件判断模块401还可以采用其他合理的方式来判断查询语句是否属于知识图谱的查询范畴,本发明同样不限于此。
[0067]如果条件判断模块401判断出用户输入的查询语句属于知识图谱的查询范畴,那么条件判断模块401则将查询语句传输给知识图谱处理模块402,以由知识图谱处理模块402利用预设知识图谱确定出查询语句的答案,即知识图谱处理结果。
[0068]本实施例中,知识图谱处理模块402首先对查询语句进行语义解析来从查询语句中抽取出查询语句语义链,随后利用预设知识图谱对查询语句语义链进行检索,从而得到对应于查询语句的知识图谱处理结果。
[0069]需要指出的是,本实施例中所提供的知识图谱处理模块402对查询语句的处理过程与图2和图3所涉及的原理以及实现过程相同,为了描述的简便,故在此不再赘述。
[0070]知识图谱处理模块402确定出对应于查询语句的知识图谱处理结果后,会将该知识图谱处理结果传输给结果输出模块403,以由结果输出模块403将该知识图谱处理结果作为查询语句的答案输出给问答系统,并由问答系统进行相应的决策来形成最终的答案并输出给用户。
[0071]应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构或处理步骤,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
[0072]说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
[0073]虽然上述示例用于说明本发明在一个或多个应用中的原理,但对于本领域的技术人员来说,在不背离本发明的原理和思想的情况下,明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此,本发明由所附的权利要求书来限定。
【主权项】
1.一种面向智能机器人的问答数据处理方法,其特征在于,所述方法包括: 条件判断步骤,对用户输入的查询语句进行句法分析,判断所述查询语句是否属于知识图谱的查询范畴,如果属于,则执行知识图谱处理步骤; 知识图谱处理步骤,利用预设知识图谱对所述查询语句进行处理,得到知识图谱处理结果; 结果输出步骤,将所述知识图谱处理结果作为所述查询语句的答案输出至问答系统。2.如权利要求1所述的方法,其特征在于,判断所述查询语句是否属于预设句式或包含预设关键词,如果是,则判定所述查询语句属于知识图谱的查询范畴。3.如权利要求1或2所述的方法,其特征在于,在所述条件判断步骤中,对所述查询语句进行预处理,以去除所述查询语句中的预设符号,并根据预处理结果判断所述查询语句是否属于知识图谱的查询范畴。4.如权利要求1?3中任一项所述的方法,其特征在于,所述知识图谱处理步骤包括: 对所述查询语句进行语义解析来从所述查询语句中抽取出查询语句语义链; 利用所述预设知识图谱对所述查询语句语义链进行检索,得到知识图谱处理结果。5.如权利要求4所述的方法,其特征在于,在所述知识图谱处理步骤中,还对所述查询语句语义链中的词语进行转换,以实现属性和关系信息的归一化。6.如权利要求4或5所述的方法,其特征在于,在所述知识图谱处理步骤中,对所述知识图谱中所包含的针对查询语句语义链中词语的节点进行优先级排序,根据优先级最高的节点来对所述查询语句语义链进行检索。7.一种面向智能机器人的问答数据处理装置,其特征在于,所述装置包括: 条件判断模块,用于对用户输入的查询语句进行句法分析,判断所述查询语句是否属于知识图谱的查询范畴,如果属于,则将所述查询语句传输到知识图谱处理模块; 知识图谱处理模块,用于利用预设知识图谱对所述查询语句进行处理,得到知识图谱处理结果; 结果输出模块,用于将所述知识图谱处理结果作为所述查询语句的答案输出至问答系统。8.如权利要求7所述的装置,其特征在于,所述条件判断模块配置为判断所述查询语句是否属于预设句式或包含预设关键词,如果是,则判定所述查询语句属于知识图谱的查询范畴。9.如权利要求7或8所述的装置,其特征在于,所述条件判断模块配置为对所述查询语句进行预处理,以去除所述查询语句中的预设符号,并根据预处理结果判断所述查询语句是否属于知识图谱的查询范畴。10.如权利要求7?9中任一项所述的装置,其特征在于,所述知识图谱处理模块配置为对所述查询语句进行语义解析来从所述查询语句中抽取出查询语句语义链,并利用所述预设知识图谱对所述查询语句语义链进行检索,得到知识图谱处理结果。11.如权利要求10所述的装置,其特征在于,所述知识图谱处理模块配置为还对所述查询语句语义链中的词语进行转换,以实现属性和关系信息的归一化。12.如权利要求10或11所述的装置,其特征在于,所述知识图谱处理模块配置为对所述知识图谱中所包含的针对查询语句语义链中词语的节点进行优先级排序,根据优先级最高的节点来对所述查询语句语义链进行检索。
【文档编号】G06F17/30GK105843875SQ201610158166
【公开日】2016年8月10日
【申请日】2016年3月18日
【发明人】孔德乾
【申请人】北京光年无限科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1