基于多知识库和整数线性规划ilp的自动问答方法和系统的制作方法

文档序号:8498702阅读:338来源:国知局
基于多知识库和整数线性规划ilp的自动问答方法和系统的制作方法
【技术领域】
[0001] 本发明属于自然语言处理技术领域,尤其涉及基于多知识库和整数线性规划ILP 的自动问答方法和系统。
【背景技术】
[0002] 随着语义网和链接数据的不断发展,知识库的数量也不断增长。如何使人们方 便地使用这些知识成为了研宄热点。尽管这些知识库通常提供了特定的查询语言,例如 SPARQL,但是,利用这种方式来查询知识库,用户不仅需要掌握查询语言的词汇和语法,同 时也要了解所查询知识库的内在结构,而这对于普通用户来说是非常困难的。另一方面,使 用关键词的问答系统虽然易用,但是仅仅使用关键词并不能够充分表达用户的查询需要。 作为对比,如果使用自然语言作为接口,不但可以充分表达用户的信息需求,而且允许用户 用自己的语言提问。基于知识库的问答系统正是使用自然语言作为知识库的接口,因此得 到了广泛的关注和研宄。基于知识库的问答的目标是给定一个自然语言问句,在知识库中 找到答案。这个问题的难点是将自然语言问句转化为规范的无歧义的语义表达,这样的语 义表达可以很容易地转化为知识库的查询语言。
[0003] 随着知识库数量的快速增长,能够在多个知识库上进行问答的系统在最近几年得 到了更多的研宄。问答系统需要找到相关的知识库来回答问题,并且需要把问句映射到相 应知识库的语义资源上。另外一种更加复杂的情况是,一个问题需要联合多个知识库才能 给出答案,其中每个知识库只能给出答案的一部分,这些不完整的答案需要整合在一起得 到最终的结果。这个问题需要解决两个方面的挑战:第一,由于知识库的增加,自然语言问 句中的词或短语就可能对应更多的知识库资源,即资源歧义问题变得更加严峻;第二,不同 的知识库之间是异质的,结构和实体的表达方式各不相同,要组成一个统一的查询语句需 要探索和理解各个知识库之间的已有连接,得到知识库之间的对应关系。
[0004] 现有的技术都采用管道式的结构,资源映射的结果用来建立查询,而查询构建的 过程不能对资源映射产生影响。这就可能导致一种错误,即资源映射步骤得到的资源,在查 询构建步骤中用不到。

【发明内容】

[0005] 本发明提供一种基于多知识库和整数线性规划(IntegerLinearPlanning,ILP) 的自动问答方法和系统,以实现根据自然语言问句在多知识库中获取查询结果。
[0006] 本发明的第一个方面是提供一种基于多知识库和整数线性规划ILP的自动问答 方法,包括:
[0007] 创建用于索引多个知识库的实体和/或关系的资源字典;
[0008] 在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或 多个关系构成多个候选资源;
[0009] 对各候选资源执行转换,获得对应的多个模板;
[0010] 将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;
[0011] 根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询 语句。
[0012] 本发明的第二个方面是提供一种基于多知识库和整数线性规划ILP的自动问答 系统,包括:
[0013] 多知识库索引模块,用于创建用于索引多个知识库的实体和/或关系的资源字 血. ,、?>
[0014] 文本映射模块,用于在所述资源字典中查询并由自然语句的多个文本片段映射到 的多个实体和/或多个关系构成多个候选资源;
[0015] 资源转换模块,用于对各候选资源执行转换,获得对应的多个模板;
[0016]图生成模块,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧 图;
[0017] ILP模块,用于根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来 生成规范查询语句。
[0018] 本发明的有益效果为:
[0019] 本发明基于多知识库和整数线性规划ILP的自动问答方法通过在查询构建时对 文本片段映射得到的资源以及转换后的三元组模板进行联合推理,即同时针对自然语言的 文本片段、所选取的候选资源、以及映射和转换关系设置限制条件并执行目标函数最大化, 能够获得较精确的规范查询语句,从而使最终在多知识库中进行规范查询的结果更加准 确。
【附图说明】
[0020] 图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程 图;
[0021] 图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的架构 图;
[0022]图3为本发明基于多知识库和整数线性规划ILP的自动问答系统实施例一的结构 框图。
【具体实施方式】
[0023]图1为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的流程 图,图2为本发明基于多知识库和整数线性规划ILP的自动问答方法实施例一的示意图,如 图1和图2所示,本发明基于多知识库和整数线性规划ILP的自动问答方法包括:
[0024]S101、创建用于索引多个知识库的实体和/或关系的资源字典;
[0025] 优选的,所述创建用于索引多个知识库的实体和关系的资源字典包括:
[0026] 对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签, 以使用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型 的实体或关系;
[0027]S102、在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和 /或多个关系构成多个候选资源;
[0028] 优选的,所述在资源字典中查询并由自然语句的多个文本片段映射到的多个实体 和/或多个关系构成多个候选资源包括:
[0029]S1021、在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/ 或多个关系与文本片段的相似度;
[0030] S1022、若所述相似度高于第一阈值,则将所述实体或关系作为候选资源,同时保 留对应的文本片段;
[0031] S103、对各候选资源执行转换,获得对应的多个模板;
[0032] 优选的,所述对各候选资源执行转换,获得对应的多个模板包括根据启发式规则 进行转换,获得三元组模板,包括:
[0033] 对一个关系候选资源执行启发式转换,获得一个包含第一变量、关系候选资源和 第二变量的实体变量三元组模板;
[0034] 对一个实体候选资源和一个关系候选资源执行启发式转换,获得一个包含第一变 量或第二变量、关系候选资源和实体候选资源的三元组模板,如表1所示:
[0035]
【主权项】
1. 一种基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,包括: 创建用于索引多个知识库的实体和/或关系的资源字典; 在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个 关系构成多个候选资源; 对各候选资源执行转换,获得对应的多个模板; 将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图; 根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语 句。
2. 根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征 在于,所述创建用于索引多个知识库的实体
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1