知识库中问句解析的方法及设备的制造方法

文档序号:9765947阅读:298来源:国知局
知识库中问句解析的方法及设备的制造方法
【技术领域】
[0001] 本发明实施例涉及通信领域,并且更具体地,涉及一种知识库中问句解析的方法 及设备。
【背景技术】
[0002] 知识库(Knowledge Base,邸)是知识工程中结构化、易操作、易利用、全面有组织 的知识集群,是针对某一个或某一些领域问题求解的需要,采用某一种或某几种知识表示 方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
[0003] 目前互联网上已经出现了大量的知识资源和知识社区,例如维基百科 (W化ipedia)、百度百科、互动百科等。从送些知识资源中,已有研究已经挖掘出W实体、实 体关系为核必的大规模知识库。除此之外,还存在一些领域知识库,如天气知识库、餐饮知 识库等。
[0004] 知识库的建设经历了由人工和群体智能添加到面向整个互联网利用机器学习和 信息抽取技术自动获取的过程。早期的知识库是由专家人工构建。例如WordNet、CYC、CCD、 化wNet、中国大百科全书等。但是随着信息技术的发展,传统人工构建的知识库逐渐暴露出 规模小、知识少、更新慢的缺点;同时由专家构建的确定性知识框架也无法满足互联网有噪 环境下大规模计算的需求。送也是CYC项目最终失败的原因之一。随着Web 2.0的飞速厕 起,出现了大量基于群体智慧的网络知识库,包括Wikipedia、互动百科、百度百科等。W送 些网络资源为基础,大量的自动半自动知识库构建方法被用来构建大型可用的知识库,比 如 YAGO, DBpedia, Rreebase 等。
[0005] 基于送些知识库,可W构建起知识库问答系统(Knowledge-base-based如estion Answering)。与基于检索技术的问答系统相比,基于知识库的问答系统由于知识库规模的 限制,对问题的覆盖率可能会较低,但其具备一定的推理能力。另外,在限定领域内会达到 较高的准确率。因此,一些基于知识库的问答系统应运而生,有些成为独立的应用,有些作 为已有产品的增强功能,比如苹果的siri、谷歌的知识图谱等。
[0006] 问答系统(如estion Answering)是指不需要用户把问题分解成关键词,而直接W 自然语言的形式提问,经过问答系统对用户的问题的处理,再从知识库或者互联网快速搜 索出和用户的问题对应的答案,然后把答案直接返回给用户,而不是相关的网页。因此问答 系统大大降低了用户的使用难度,它比传统的关键字检索和语义搜索技术等搜索引擎更加 方便和高效。
[0007] 关联数据问答(如estion Answering over Linked Data, QALD)评测比赛推动了 问答系统的发展。其目标是针对大规模结构化的关联数据,将自然语言问句转换为结构化 的简单协议资源描述框架查询语句(Simple Protocol and畑F(Resource Description 化amework,资源描述框架)如ery Language, SPARQL),从而建立友好的自然语言查询接口。 将自然语言问句转换为结构化的SPARQL需要依赖于针对于知识库的转换规则。但是目前 的问答系统中,转换规则都是人工配置,送样导致不仅耗费大量人力,而且领域扩展性也很 差。

【发明内容】

[0008] 本发明实施例提供一种基于知识库的问句解析的方法,不需要人工配置转换规 贝IJ,并且是领域无关的。
[0009] 第一方面,提供了一种知识库中问句解析的方法,包括:
[0010] 接收用户输入的问句;
[0011] 对所述问句进行短语检测,W确定第一候选短语;
[0012] 将所述第一候选短语映射到所述知识库中的第一资源项,其中,所述第一资源项 与所述第一候选短语具有一致的语义;
[0013] 根据所述第一候选短语和所述第一资源项,确定观察谓词的值和可能的问句分析 空间,其中,所述观察谓词用于表示所述第一候选短语的特征、所述第一资源项的特征和所 述第一候选短语与所述第一资源项的关系,所述可能的问句分析空间中的点为命题集合, 所述命题集合中的命题的真假由隐含谓词的值表征;
[0014] 对所述可能的问句分析空间中的每一个命题集合,根据所述观察谓词的值和所述 隐含谓词的值,进行不确定性推理,计算所述每一个命题集合的置信度;
[0015] 获取所述置信度满足预设条件的命题集合中的真命题的组合,其中,所述真命题 用于表示从所述第一候选短语中所选中的搜索短语、从所述第一资源项中所选中的搜索资 源项和所述搜索资源项的特征;
[0016] 根据所述真命题的组合,生成形式化查询语句。
[0017] 结合第一方面,在第一方面的第一种可能的实现方式中,所述不确定性推理基于 马尔科夫逻辑网络MLN,所述MLN包括预定义的一阶公式W及所述一阶公式的权重。
[0018] 结合第一方面或者第一方面的第一种可能的实现方式,在第一方面的第二种可能 的实现方式中,在所述接收用户输入的问句之前,所述方法还包括:
[0019] 从所述知识库中获取多个自然语言问句;
[0020] 对所述多个自然语言问句进行短语检测,W确定所述多个自然语言问句的第二候 选短语;
[0021] 将所述第二候选短语映射到所述知识库中的第二资源项,其中,所述第二资源项 与所述第二候选短语具有一致的语义;
[0022] 根据所述第二候选短语和所述第二资源项,确定与所述多个自然语言问句对应的 观察谓词的值;
[0023] 获取人工标注的与所述多个自然语言问句对应的隐含谓词的值;
[0024] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对 应的隐含谓词的值和所述一阶公式,构建无向图,通过训练确定所述一阶公式的权重。
[0025] 结合第一方面的第二种可能的实现方式,在第一方面的第H种可能的实现方式 中,所述一阶公式包括布尔公式和加权公式,所述布尔公式的权重为+ -,所述加权公式的 权重为加权公式权重,所述人工标注的与所述多个自然语言问句对应的隐含谓词的值满足 所述布尔公式,
[0026] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对 应的隐含谓词的值和所述一阶公式,构建无向图,通过训练确定所述一阶公式的权重,包 括:
[0027] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对 应的隐含谓词的值和所述一阶公式,构建无向图,通过训练确定所述加权公式权重。
[0028] 结合第一方面的第二种可能的实现方式,在第一方面的第四种可能的实现方式 中,所述根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对 应的隐含谓词的值和所述一阶公式,构建无向图,通过训练确定所述一阶公式的权重,包 括:
[0029] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对 应的隐含谓词的值和所述一阶公式,构建无向图,采用差额注入松弛算法MIRA,确定所述一 阶公式的权重。
[0030] 结合上述第一方面的任一种可能的实现方式,在第一方面的第五种可能的实现方 式中,所述MLN表示为M,所述一阶公式表示为4 1,所述一阶公式的权重表示为Wi,所述命 题集合表示为y,
[0031] 对所述问句分析空间中的每一个命题集合,根据所述观察谓词的值和所述隐含谓 词的值,进行不确定性推理,计算所述每一个命题集合的置信度,包括:
[0032] 根据
计算所述每一个命题集合的置信度,
[0033] 其中,Z为归一化常数,为与一阶公式4 1对应的子公式的集合,C为的所 述子公式的集合中的一个子公式,为二值函数,./,A (y)表示在所述命题集合y下,所述 一阶公式的真假。
[0034] 结合第一方面或者上述第一方面的任一种可能的实现方式,在第一方面的第六种 可能的实现方式中,所述获取所述置信度满足预设条件的命题集合中的真命题的组合,包 括:
[0035] 确定所述置信度的值最大的命题集合,并获取所述置信度的值最大的命题集合中 的真命题的组合。
[0036] 结合第一方面或者上述第一方面的任一种可能的实现方式,在第一方面的第走种 可能的实现方式中,
[0037] 所述第一候选短语的特征包括所述第一候选短语在所述问句中的位置、所述第一 候选短语的主要词的词性、所述第一候选短语两两之间的依存路径上的标签,
[0038] 所述第一资源项的特征包括所述第一资源项的类型、所述第一资源项两两之间的 相关性值、所述第一资源项两两之间的参数匹配关系,
[0039] 所述第一候选短语与所述第一资源项的关系包括所述第一候选短语与所述第一 资源项的先验匹配得分,
[0040] 所述根据所述第一候选短语和所述第一资源项,确定观察谓词的值,包括:
[0041] 确定所述第一候选短语在所述问句中的位置;
[0042] 采用Stan化rd词性标注工具,确定所述第一候选短语的主要词的词性;
[0043] 采用Stan化rd依存句法分析工具,确定所述第一候选短语两两之间的依存路径 上的标签;
[0044] 从所述知识库中确定所述第一资源项的类型,其中,所述类型为实体或类别或关 系;
[0045] 从所述知识库中确定所述第一资源项两两之间的参数匹配关系;
[0046] 将所述第一资源项两两之间的相似性系数,作为所述两个第一资源项两两之间的 相关性值;
[0047] 计算所述第一候选短语与所述第一资源项之间的先验匹配得分,所述先验匹配得 分用于表示所述第一候选短语映射到所述第一资源项的概率。
[0048] 结合第一方面或者上述第一方面的任一种可能的实现方式,在第一方面的第八种 可能的实现方式中,所述形式化查询语句为简单协议资源描述框架查询语句SPARQL。
[0049] 结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式 中,所述根据所述真命题的组合,生成形式化查询语句,包括:
[0050] 根据所述真命题的组合,利用SPAR化模板生成所述SPARQL。
[0051] 结合第一方面的第九种可能的实现方式,在第一方面的第十种可能的实现方式 中,所述SPAR化模板包括ASK WHERE模板、沈LECT COUNT (? url) WHERE模板和沈LECT ? url WHERE 模板,
[0052] 所述根据所述真命题的组合,利用SPAR化模板生成所述SPARQL包括:
[0053] 当所述问句为化s/No问题时,根据所述真命题的组合,使用所述ASK WHERE模板 生成所述SPARQL ;
[0054] 当所述问句为Normal问题时,根据所述真命题的组合,使用所述SELECT ? url W肥RE模板生成所述SPARQL ;
[00巧]当所述问句为Number问题时,根据所述真命题的组合,使用所述SELECT ? url WHERE模板生成所述SPARQL或者,当使用所述沈LECT ? url WHERE模板生成的SPARQL无 法得到数值型答案时,使用所述SELECT COUNT (? url) WHERE模板生成所述SPARQL。
[0056] 结合第一方面或者上述第一方面的任一种可能的实现方式,在第一方面的第十一 种可能的实现方式中,所述对所述问句进行短语检测,W确定第一候选短语,包括;将所述 问句中的词序列作为所述第一候选短语,其中,所述词序列满足:
[0057] 所述词序列中所有连续的非停用词都W大写字母开头,或者,若所述词序列中所 有连续的非停用词不都W大写字母开头,则所述词序列的长度小于四;
[0058] 所述词序列的主要词的词性为jj或nn或rb或Vb,其中,jj为形容词,nn为名词, rb为副词,Vb为动词;
[0059] 所述词序列所包括的词不全为停用词。
[0060] 第二方面,提供了一种问答解析的设备,包括:
[0061] 接收单元,用于接收用户输入的问句;
[0062] 短语检测单元,用于对所述接收单元接收的所述问句进行短语检测,W确定第一 候选短语;
[0063] 映射单元,用于将所述短语检测单元确定的所述第一候选短语映射到知识库中的 第一资源项,其中,所述第一资源项与所述第一候选短语具有一致的语义;
[0064] 第一确定单元,用于根据所述第一候选短语和所述第一资源项,确定观察谓词的 值和可能的问句分析空间,其中,所述观察谓词用于表示所述第一候选短语的特征、所述第 一资源项的特征和所述第一候选短语与所述第一资源项的关系,所述可能的问句分析空间 中的点为命题集合,所述命题集合中的命题的真假由隐含谓词的值表征;
[0065] 第二确定单元,用于对所述可能的问句分析空间中的每一个命题集合,根据所述 第一确定单元确定的所述观察谓词的值和所述隐含谓词的值,进行不确定性推理,计算所 述每一个命题集合的置信度;
[0066] 获取单元,用于获取所述第二确定单元确定的所述置信度满足预设条件的命题集 合中的真命题的组合,其中,所述真命题用于表示从所述第一候选短语中所选中的搜索短 语、从所述第一资源项中所选中的搜索资源项和所述搜索资源项的特征;
[0067] 生成单元,用于根据所述真命题的组合,生成形式化查询语句。
[0068] 结合第二方面,在第二方面的第一种可能的实现方式中,所述不确定性推理基于 马尔科夫逻辑网络MLN,所述MLN包括预定义的一阶公式W及所述一阶公式的权重。
[0069] 结合第二方面或者第二方面的第一种可能的实现方式,在第二方面的第二种可能 的实现方式中,
[0070] 所述获取单元,还用于从所述知识库中获取多个自然语言问句;
[0071] 所述短语检测单元,还用于对所述获取单元接收的所述问句进行短语检测,W确 定第一候选短语;
[0072] 所述映射单元,还用于将所述第二候选短语映射到所述知识库中的第二资源项, 其中,所述第二资源项与所述第二候选短语具有一致的语义;
[0073] 所述第一确定单元,还用于根据所述第二候选短语和所述第二资源项,确定与所 述多个自然语言问句对应的观察谓词的值;
[0074] 所述获取单元,还用于获取人工标注的与所述多个自然语言问句对应的隐含谓词 的值;
[0075] 所述第二确定单元,还用于根据与所述多个自然语言问句对应的观察谓词的值、 与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式,构建无向图,通过训练确 定所述一阶公式的权重。
[0076] 结合第二方面的第二种可能的实现方式,在第二方面的第H种可能的实现方式 中,所述一阶公式包括布尔公式和加权公式,所述布尔公式的权重为+ °°,所述加权公式的 权重为加权公式权重,所述人工标注的与所述多个自然语言问句对应的隐含谓词的值满足 所述布尔公式,
[0077] 所述第二确定单元,具体用于;根据与所述多个自然语言问句对应的观察谓词的 值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式,构建无向图,通过训练 确定所述加权公式权重。
[0078] 结合第二方面的第二种可能的实现方式,在第二方面的第四种可能的实现方式 中,所述第二确定单元,具体用于:
[0079] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对 应的隐含谓词的值和所述一阶公式,构建无向图,采用差额注入松弛算法MIRA,确定所述一 阶公式的权重。
[0080] 结合上述第二方面的任一种可能的实现方式,在第二方面的第五种可能的实现方 式中,所述MLN表示为M,所述一阶公式表示为4 1,所述一阶公式的权重表示为Wi,所述命 题集合表示为y,
[0081] 所述第二确定单元,具体用于:
[0082] 根据所述观察谓词的值和所述隐含谓词构建可能的世界,所述可能的世界表示为 y ;
[0083] 根据
计算所述每一个命题集合的置信 度,
[0084] 其中,Z为归一化常数,C"4为与一阶公式4 1对应的子公式的集合,C为C"4的所 述子公式的集合中的一个子公式,/六为二值函数,#(J)表示在所述命题集合y下,所述 一阶公式的真假。
[0085] 结合第二方面或者上述第二方面的任一种可能的实现方式,在第二方面的第六种 可能的实现方式中,所述获取单元,具体用于:
[0086] 确定所述置信度的值最大的命题集合,并获取所述置信度的值最大的命题集合中 的真命题的组合。
[0087] 结合第二方面或者上述第二方面的任一种可能的实现方式,在第二方面的第走种 可能的实现方式中,
[0088] 所述第一候选短语的特征包括所述第一候选短语在所述问句中的位置、所述第一 候选短语的主要词的词性、所述第一候选短语两两之间的依存路径上的标签,
[0089] 所述第一资源项的特征包括所述第一资源项的类型、所述第一资源项两两之间的 相关性值、所述第一资源项两两之间的参数匹配关系,
[0090] 所述第一候选短语与所述第一资源项的关系包括所述第一候选短语与所述第一 资源项的先验匹配得分,
[0091] 所述第一确定单元,具体用于:
[0092] 确定所述第一候选短语在所述问句中的位置;
[0093] 采用Stan化rd词性标注工具,确定所述第一候选短语的主要词的词性;
[0094] 采用Stan化rd依存句法分析工具,确定所述第一候选短语两两之间的依存路径 上的标签;
[0095] 从所述知识库中确定所述第一资源项的类型,其中,所述类型为实体或类别或关 系;
[0096] 从所述知识库中确定所述第一资源项两两之间的参数匹配关系;
[0097] 将所述第一资源项两两之间的相似性系数,作为所述两个第一资源项两两之间的 相关性值;
[0098] 计算所述第一候选短语与所述第一资源项之间的先验匹配得分,所述先验匹配得 分用于表示所述第一候选短语映射到所述第一资源项的概率。
[0099] 结合第二方面或者上述第二方面的任一种可能的实现方式,在第二方面的第八种 可能的实现方式中,所述形式化查询语句为简单协议资源描述框架查询语句SPARQL。
[0100] 结合第二方面的第八种可能的实现方式,在第二方面的第九种可能的实现方式 中,所述生成单元,具体用于:
[0101] 根据所述真命题的组合,利用SPAR化模板生成所述SPARQL。
[0102] 结合第二方面的第九种可能的实现方式,在第二方面的第十种可能的实现方式 中,所述SPAR化模板包括ASK WHERE模板、沈LECT COUNT (? url) WHERE模板和沈LECT ? url WHERE 模板,
[0103] 所述生成单元,具体用于:
[0104] 当所述问句为化s/No问题时,根据所述真命题的组合,使用所述ASK WHERE模板 生成所述SPARQL ;
[0105] 当所述问句为Normal问题时,根据所述真命题的组合,使用所述SELECT ? url W肥RE模板生成所述SPARQL ;
[0106] 当所述问句为Number问题时,根据所述真命题的组合,使用所述SELECT ? url WHERE模板生成所述SPARQL或者,当使用所述沈LECT ? url WHERE模板生成的SPARQL无 法得到数值型答案时,使用所述SELECT COUNT (? url) WHERE模板生成所述SPARQL。
[0107] 结合第二方面或者上述第二方面的任一种可能的实现方式,在第二方面的第十一 种可能的实现方式中,所述短语检测单元,具体用于:
[010引将所述
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1