知识库中问句解析的方法及设备的制造方法

文档序号：9765947阅读：301来源：国知局

知识库中问句解析的方法及设备的制造方法
【技术领域】
[0001] 本发明实施例涉及通信领域，并且更具体地，涉及一种知识库中问句解析的方法及设备。
【背景技术】
[0002] 知识库（Knowledge Base,邸）是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对某一个或某一些领域问题求解的需要，采用某一种或某几种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
[0003] 目前互联网上已经出现了大量的知识资源和知识社区，例如维基百科 (W化ipedia)、百度百科、互动百科等。从送些知识资源中，已有研究已经挖掘出W实体、实体关系为核必的大规模知识库。除此之外，还存在一些领域知识库，如天气知识库、餐饮知识库等。
[0004] 知识库的建设经历了由人工和群体智能添加到面向整个互联网利用机器学习和信息抽取技术自动获取的过程。早期的知识库是由专家人工构建。例如WordNet、CYC、CCD、化wNet、中国大百科全书等。但是随着信息技术的发展，传统人工构建的知识库逐渐暴露出规模小、知识少、更新慢的缺点；同时由专家构建的确定性知识框架也无法满足互联网有噪环境下大规模计算的需求。送也是CYC项目最终失败的原因之一。随着Web 2.0的飞速厕起，出现了大量基于群体智慧的网络知识库，包括Wikipedia、互动百科、百度百科等。W送些网络资源为基础，大量的自动半自动知识库构建方法被用来构建大型可用的知识库，比如 YAGO, DBpedia, Rreebase 等。
[0005] 基于送些知识库，可W构建起知识库问答系统（Knowledge-base-based如estion Answering)。与基于检索技术的问答系统相比，基于知识库的问答系统由于知识库规模的限制，对问题的覆盖率可能会较低，但其具备一定的推理能力。另外，在限定领域内会达到较高的准确率。因此，一些基于知识库的问答系统应运而生，有些成为独立的应用，有些作为已有产品的增强功能，比如苹果的siri、谷歌的知识图谱等。
[0006] 问答系统（如estion Answering)是指不需要用户把问题分解成关键词，而直接W 自然语言的形式提问，经过问答系统对用户的问题的处理，再从知识库或者互联网快速搜索出和用户的问题对应的答案，然后把答案直接返回给用户，而不是相关的网页。因此问答系统大大降低了用户的使用难度，它比传统的关键字检索和语义搜索技术等搜索引擎更加方便和高效。
[0007] 关联数据问答（如estion Answering over Linked Data, QALD)评测比赛推动了问答系统的发展。其目标是针对大规模结构化的关联数据，将自然语言问句转换为结构化的简单协议资源描述框架查询语句（Simple Protocol and畑F(Resource Description 化amework，资源描述框架）如ery Language, SPARQL)，从而建立友好的自然语言查询接口。将自然语言问句转换为结构化的SPARQL需要依赖于针对于知识库的转换规则。但是目前的问答系统中，转换规则都是人工配置，送样导致不仅耗费大量人力，而且领域扩展性也很差。

【发明内容】

[0008] 本发明实施例提供一种基于知识库的问句解析的方法，不需要人工配置转换规贝IJ，并且是领域无关的。
[0009] 第一方面，提供了一种知识库中问句解析的方法，包括：
[0010] 接收用户输入的问句；
[0011] 对所述问句进行短语检测，W确定第一候选短语；
[0012] 将所述第一候选短语映射到所述知识库中的第一资源项，其中，所述第一资源项与所述第一候选短语具有一致的语义；
[0013] 根据所述第一候选短语和所述第一资源项，确定观察谓词的值和可能的问句分析空间，其中，所述观察谓词用于表示所述第一候选短语的特征、所述第一资源项的特征和所述第一候选短语与所述第一资源项的关系，所述可能的问句分析空间中的点为命题集合，所述命题集合中的命题的真假由隐含谓词的值表征；
[0014] 对所述可能的问句分析空间中的每一个命题集合，根据所述观察谓词的值和所述隐含谓词的值，进行不确定性推理，计算所述每一个命题集合的置信度；
[0015] 获取所述置信度满足预设条件的命题集合中的真命题的组合，其中，所述真命题用于表示从所述第一候选短语中所选中的搜索短语、从所述第一资源项中所选中的搜索资源项和所述搜索资源项的特征；
[0016] 根据所述真命题的组合，生成形式化查询语句。
[0017] 结合第一方面，在第一方面的第一种可能的实现方式中，所述不确定性推理基于马尔科夫逻辑网络MLN，所述MLN包括预定义的一阶公式W及所述一阶公式的权重。
[0018] 结合第一方面或者第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，在所述接收用户输入的问句之前，所述方法还包括：
[0019] 从所述知识库中获取多个自然语言问句；
[0020] 对所述多个自然语言问句进行短语检测，W确定所述多个自然语言问句的第二候选短语；
[0021] 将所述第二候选短语映射到所述知识库中的第二资源项，其中，所述第二资源项与所述第二候选短语具有一致的语义；
[0022] 根据所述第二候选短语和所述第二资源项，确定与所述多个自然语言问句对应的观察谓词的值；
[0023] 获取人工标注的与所述多个自然语言问句对应的隐含谓词的值；
[0024] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，通过训练确定所述一阶公式的权重。
[0025] 结合第一方面的第二种可能的实现方式，在第一方面的第H种可能的实现方式中，所述一阶公式包括布尔公式和加权公式，所述布尔公式的权重为+ -，所述加权公式的权重为加权公式权重，所述人工标注的与所述多个自然语言问句对应的隐含谓词的值满足所述布尔公式，
[0026] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，通过训练确定所述一阶公式的权重，包括：
[0027] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，通过训练确定所述加权公式权重。
[0028] 结合第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，通过训练确定所述一阶公式的权重，包括：
[0029] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，采用差额注入松弛算法MIRA，确定所述一阶公式的权重。
[0030] 结合上述第一方面的任一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述MLN表示为M，所述一阶公式表示为4 1，所述一阶公式的权重表示为Wi,所述命题集合表示为y，
[0031] 对所述问句分析空间中的每一个命题集合，根据所述观察谓词的值和所述隐含谓词的值，进行不确定性推理，计算所述每一个命题集合的置信度，包括：
[0032] 根据
计算所述每一个命题集合的置信度，
[0033] 其中，Z为归一化常数，为与一阶公式4 1对应的子公式的集合，C为的所述子公式的集合中的一个子公式，为二值函数，./,A (y)表示在所述命题集合y下，所述一阶公式的真假。
[0034] 结合第一方面或者上述第一方面的任一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述获取所述置信度满足预设条件的命题集合中的真命题的组合，包括：
[0035] 确定所述置信度的值最大的命题集合，并获取所述置信度的值最大的命题集合中的真命题的组合。
[0036] 结合第一方面或者上述第一方面的任一种可能的实现方式，在第一方面的第走种可能的实现方式中，
[0037] 所述第一候选短语的特征包括所述第一候选短语在所述问句中的位置、所述第一候选短语的主要词的词性、所述第一候选短语两两之间的依存路径上的标签，
[0038] 所述第一资源项的特征包括所述第一资源项的类型、所述第一资源项两两之间的相关性值、所述第一资源项两两之间的参数匹配关系，
[0039] 所述第一候选短语与所述第一资源项的关系包括所述第一候选短语与所述第一资源项的先验匹配得分，
[0040] 所述根据所述第一候选短语和所述第一资源项，确定观察谓词的值，包括：
[0041] 确定所述第一候选短语在所述问句中的位置；
[0042] 采用Stan化rd词性标注工具，确定所述第一候选短语的主要词的词性；
[0043] 采用Stan化rd依存句法分析工具，确定所述第一候选短语两两之间的依存路径上的标签；
[0044] 从所述知识库中确定所述第一资源项的类型，其中，所述类型为实体或类别或关系；
[0045] 从所述知识库中确定所述第一资源项两两之间的参数匹配关系；
[0046] 将所述第一资源项两两之间的相似性系数，作为所述两个第一资源项两两之间的相关性值；
[0047] 计算所述第一候选短语与所述第一资源项之间的先验匹配得分，所述先验匹配得分用于表示所述第一候选短语映射到所述第一资源项的概率。
[0048] 结合第一方面或者上述第一方面的任一种可能的实现方式，在第一方面的第八种可能的实现方式中，所述形式化查询语句为简单协议资源描述框架查询语句SPARQL。
[0049] 结合第一方面的第八种可能的实现方式，在第一方面的第九种可能的实现方式中，所述根据所述真命题的组合，生成形式化查询语句，包括：
[0050] 根据所述真命题的组合，利用SPAR化模板生成所述SPARQL。
[0051] 结合第一方面的第九种可能的实现方式，在第一方面的第十种可能的实现方式中，所述SPAR化模板包括ASK WHERE模板、沈LECT COUNT (? url) WHERE模板和沈LECT ? url WHERE 模板，
[0052] 所述根据所述真命题的组合，利用SPAR化模板生成所述SPARQL包括：
[0053] 当所述问句为化s/No问题时，根据所述真命题的组合，使用所述ASK WHERE模板生成所述SPARQL ;
[0054] 当所述问句为Normal问题时，根据所述真命题的组合，使用所述SELECT ? url W肥RE模板生成所述SPARQL ;
[00巧]当所述问句为Number问题时，根据所述真命题的组合，使用所述SELECT ? url WHERE模板生成所述SPARQL或者，当使用所述沈LECT ? url WHERE模板生成的SPARQL无法得到数值型答案时，使用所述SELECT COUNT (? url) WHERE模板生成所述SPARQL。
[0056] 结合第一方面或者上述第一方面的任一种可能的实现方式，在第一方面的第十一种可能的实现方式中，所述对所述问句进行短语检测，W确定第一候选短语，包括；将所述问句中的词序列作为所述第一候选短语，其中，所述词序列满足：
[0057] 所述词序列中所有连续的非停用词都W大写字母开头，或者，若所述词序列中所有连续的非停用词不都W大写字母开头，则所述词序列的长度小于四；
[0058] 所述词序列的主要词的词性为jj或nn或rb或Vb,其中，jj为形容词，nn为名词， rb为副词，Vb为动词；
[0059] 所述词序列所包括的词不全为停用词。
[0060] 第二方面，提供了一种问答解析的设备，包括：
[0061] 接收单元，用于接收用户输入的问句；
[0062] 短语检测单元，用于对所述接收单元接收的所述问句进行短语检测，W确定第一候选短语；
[0063] 映射单元，用于将所述短语检测单元确定的所述第一候选短语映射到知识库中的第一资源项，其中，所述第一资源项与所述第一候选短语具有一致的语义；
[0064] 第一确定单元，用于根据所述第一候选短语和所述第一资源项，确定观察谓词的值和可能的问句分析空间，其中，所述观察谓词用于表示所述第一候选短语的特征、所述第一资源项的特征和所述第一候选短语与所述第一资源项的关系，所述可能的问句分析空间中的点为命题集合，所述命题集合中的命题的真假由隐含谓词的值表征；
[0065] 第二确定单元，用于对所述可能的问句分析空间中的每一个命题集合，根据所述第一确定单元确定的所述观察谓词的值和所述隐含谓词的值，进行不确定性推理，计算所述每一个命题集合的置信度；
[0066] 获取单元，用于获取所述第二确定单元确定的所述置信度满足预设条件的命题集合中的真命题的组合，其中，所述真命题用于表示从所述第一候选短语中所选中的搜索短语、从所述第一资源项中所选中的搜索资源项和所述搜索资源项的特征；
[0067] 生成单元，用于根据所述真命题的组合，生成形式化查询语句。
[0068] 结合第二方面，在第二方面的第一种可能的实现方式中，所述不确定性推理基于马尔科夫逻辑网络MLN，所述MLN包括预定义的一阶公式W及所述一阶公式的权重。
[0069] 结合第二方面或者第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，
[0070] 所述获取单元，还用于从所述知识库中获取多个自然语言问句；
[0071] 所述短语检测单元，还用于对所述获取单元接收的所述问句进行短语检测，W确定第一候选短语；
[0072] 所述映射单元，还用于将所述第二候选短语映射到所述知识库中的第二资源项，其中，所述第二资源项与所述第二候选短语具有一致的语义；
[0073] 所述第一确定单元，还用于根据所述第二候选短语和所述第二资源项，确定与所述多个自然语言问句对应的观察谓词的值；
[0074] 所述获取单元，还用于获取人工标注的与所述多个自然语言问句对应的隐含谓词的值；
[0075] 所述第二确定单元，还用于根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，通过训练确定所述一阶公式的权重。
[0076] 结合第二方面的第二种可能的实现方式，在第二方面的第H种可能的实现方式中，所述一阶公式包括布尔公式和加权公式，所述布尔公式的权重为+ °°，所述加权公式的权重为加权公式权重，所述人工标注的与所述多个自然语言问句对应的隐含谓词的值满足所述布尔公式，
[0077] 所述第二确定单元，具体用于；根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，通过训练确定所述加权公式权重。
[0078] 结合第二方面的第二种可能的实现方式，在第二方面的第四种可能的实现方式中，所述第二确定单元，具体用于：
[0079] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式，构建无向图，采用差额注入松弛算法MIRA，确定所述一阶公式的权重。
[0080] 结合上述第二方面的任一种可能的实现方式，在第二方面的第五种可能的实现方式中，所述MLN表示为M，所述一阶公式表示为4 1，所述一阶公式的权重表示为Wi,所述命题集合表示为y，
[0081] 所述第二确定单元，具体用于：
[0082] 根据所述观察谓词的值和所述隐含谓词构建可能的世界，所述可能的世界表示为 y ；
[0083] 根据
计算所述每一个命题集合的置信度，
[0084] 其中，Z为归一化常数，C"4为与一阶公式4 1对应的子公式的集合，C为C"4的所述子公式的集合中的一个子公式，/六为二值函数，#(J)表示在所述命题集合y下，所述一阶公式的真假。
[0085] 结合第二方面或者上述第二方面的任一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述获取单元，具体用于：
[0086] 确定所述置信度的值最大的命题集合，并获取所述置信度的值最大的命题集合中的真命题的组合。
[0087] 结合第二方面或者上述第二方面的任一种可能的实现方式，在第二方面的第走种可能的实现方式中，
[0088] 所述第一候选短语的特征包括所述第一候选短语在所述问句中的位置、所述第一候选短语的主要词的词性、所述第一候选短语两两之间的依存路径上的标签，
[0089] 所述第一资源项的特征包括所述第一资源项的类型、所述第一资源项两两之间的相关性值、所述第一资源项两两之间的参数匹配关系，
[0090] 所述第一候选短语与所述第一资源项的关系包括所述第一候选短语与所述第一资源项的先验匹配得分，
[0091] 所述第一确定单元，具体用于：
[0092] 确定所述第一候选短语在所述问句中的位置；
[0093] 采用Stan化rd词性标注工具，确定所述第一候选短语的主要词的词性；
[0094] 采用Stan化rd依存句法分析工具，确定所述第一候选短语两两之间的依存路径上的标签；
[0095] 从所述知识库中确定所述第一资源项的类型，其中，所述类型为实体或类别或关系；
[0096] 从所述知识库中确定所述第一资源项两两之间的参数匹配关系；
[0097] 将所述第一资源项两两之间的相似性系数，作为所述两个第一资源项两两之间的相关性值；
[0098] 计算所述第一候选短语与所述第一资源项之间的先验匹配得分，所述先验匹配得分用于表示所述第一候选短语映射到所述第一资源项的概率。
[0099] 结合第二方面或者上述第二方面的任一种可能的实现方式，在第二方面的第八种可能的实现方式中，所述形式化查询语句为简单协议资源描述框架查询语句SPARQL。
[0100] 结合第二方面的第八种可能的实现方式，在第二方面的第九种可能的实现方式中，所述生成单元，具体用于：
[0101] 根据所述真命题的组合，利用SPAR化模板生成所述SPARQL。
[0102] 结合第二方面的第九种可能的实现方式，在第二方面的第十种可能的实现方式中，所述SPAR化模板包括ASK WHERE模板、沈LECT COUNT (? url) WHERE模板和沈LECT ? url WHERE 模板，
[0103] 所述生成单元，具体用于：
[0104] 当所述问句为化s/No问题时，根据所述真命题的组合，使用所述ASK WHERE模板生成所述SPARQL ;
[0105] 当所述问句为Normal问题时，根据所述真命题的组合，使用所述SELECT ? url W肥RE模板生成所述SPARQL ;
[0106] 当所述问句为Number问题时，根据所述真命题的组合，使用所述SELECT ? url WHERE模板生成所述SPARQL或者，当使用所述沈LECT ? url WHERE模板生成的SPARQL无法得到数值型答案时，使用所述SELECT COUNT (? url) WHERE模板生成所述SPARQL。
[0107] 结合第二方面或者上述第二方面的任一种可能的实现方式，在第二方面的第十一种可能的实现方式中，所述短语检测单元，具体用于：
[010引将所述

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵军;刘康;何世柱;张轶博
技术所有人：华为技术有限公司;中国科学院自动化研究所
我是此专利的发明人