基于多知识库和整数线性规划ilp的自动问答方法和系统的制作方法_2

文档序号:8498702阅读:来源:国知局
和关系的资源字典包括: 对多个知识库的实体和/或关系标注资源类型标签和标注实体标签或关系标签,以使 用户根据资源类型标签以及实体标签或关系标签在资源字典中索引到相应资源类型的实 体或关系。
3. 根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征 在于,所述在资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个 关系构成多个候选资源包括: 在资源字典中查询并分别对比包含自然语句的文本片段的多个实体和/或多个关系 与文本片段的相似度; 若所述相似度高于第一阈值,则将所述实体或关系作为候选资源,同时保留对应的文 本片段。
4. 根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征 在于,所述对各候选资源执行转换,获得对应的多个模板包括根据启发式规则进行转换,获 得三元组模板,包括: 对一个关系候选资源执行启发式转换,获得一个包含第一变量、关系候选资源和第二 变量的实体关系三元组模板; 对一个实体候选资源和一个关系候选资源执行启发式转换,获得一个包含第一变量或 第二变量、关系候选资源和实体候选资源的三元组模板。
5. 根据权利要求1所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征 在于,所述将各文本片段、映射、候选资源、转换、和模板组合成消歧图包括根据候选资源的 流行度、关联度和组合度组合成消歧图,其中,流行度的计算为分别根据公式(1)和(2)计 算实体候选资源的流行度Pe和关系候选资源的流行度P K:
关联度的计算为别根据公式(3)、(4)和(5)计算实体实体候选资源的关联度Ree、关系 关系候选资源的关联度Rkk和实体关系候选资源的关联度R EK: Ree= (SsharedRelArgl (rI, r2) +#sharedRelArg2 (rI, r2)) X pop (rl) X pop-1 (r2) (3); Ree= (SsharedEntArgl (rI, r2) +#sharedEntArg2 (rI, r2)) X pop (rl) X pop-1 (r2) ⑷; Ree= #cooccurrence (rI, r2) X pop (rI) X pop-1 (r2) (5); 组合度的计算为分别根据公式(6)、(7)和(8)计算实体实体候选资源的组合度Rkk、关 系候选资源的组合度Rek和实体关系关系候选资源的组合度R EKK:
其中、InDegree (r)表示资源r的入度,OutDegree (r)表示资源r的出度, Frequency(r)表示资源r在其知识库中出现的频率,r'和KB表示r'表示任意一个资 源,KB表示知识库;sharedRelArgl (rl,r2)表示实体rl和r2同时作为第一变量所共 享的关系,sharedRelArg2(rl, r2)表示实体rl和r2同时作为第二变量所共享的关系, sharedEntArgl (rl, r2)表不关系 rl 和 r2 所共享的第一变量,sharedEntArgl (rl, r2)表不 关系rl和r2所共享的第二变量;cooccurrence (rl, r2)表示资源rl和r2共同出现在一 个三元组的次数,pop (rl)表示关系1的流行度,confidence (rl)表示资源rl的置信度, relatedness (e, r2)表示实体e和关系r2的关联程度。
6.根据权利要求5所述的基于多知识库和整数线性规划ILP的自动问答方法,其特征 在于,所述根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查 询语句包括在ILP限制条件a)~1)下、最大化目标函数以推理选取至少一个待查询模板 来生成规范查询语句: a) 如果文本片段&选中,那么映射边M ^必须被选中: Fi^E ,.Mij ; b) -个文本片段至多被映射到一个候选资源: c) 如果映射边Mij被选中,那么相应的文本片段匕和候选资源r」必须被选中: Mij^FnVjmdMij^YjkRkj+Zi rJ1 d) 如果候选资源rk和候选资源ri同时被选中,即Rkl= 1,那么相应的文本片段一定要 映射到rk和r : ^andRkl^YjjMjl; e) 如果两个文本片段有重叠,那么它们不能同时被选中: 引,V(); f) 如果转换边Tkm被选中,那么相应的候选资源rk和模板pm必须被选中: Tkm^E Ai+ E jRjk, Tkm^E iPim+ E jPmj; g) 如果R1J皮选中,那么转换边T m_和T n_也要被选中: Rmn^ Z kTmkand Rmn€ S I5TrJ5; h) 如果Puv被选中,那么转换边T _u和T _v也要被选中: Puv^E Jmu and Puv^E Jmv; i) 如果一个实体关系三元组模板被选中,那么相应的转换边要被选中: Lu=L,' TywiPu)-^ER- j) 为了确保能得到一个结果,至少一个PuvS被选中,而且如果只有一个模板P uv被选 中,那么它的类型必须是ER: Eu,Av彡1,Type(Pu) =ER or Type(Pv=ER); k) 只有任何两个模板之间没有联系时,才允许Puv= 1,u = v,这表示这模板Pu被选中: E U,VPUV ? E ^nPnm= 0, u = V,m 乒 n ; l) 如果Puv= 1,u =V,那么不能有其它的Pmn= l,m = n,因为模板p u和p 间没有 联系,否则Pum= 1 ; 目标函数为:
7. -种基于多知识库和整数线性规划ILP的自动问答方法,其特征在于,在所述根据 ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句之后,还包 括: 在多知识库中对所述规范查询语句执行查询来获得最终查询结果。
8. -种基于多知识库和整数线性规划ILP的自动问答系统,其特征在于,包括: 多知识库索引模块,用于创建用于索引多个知识库的实体和/或关系的资源字典; 文本映射模块,用于在所述资源字典中查询并由自然语句的多个文本片段映射到的多 个实体和/或多个关系构成多个候选资源; 资源转换模块,用于对各候选资源执行转换,获得对应的多个模板; 图生成模块,用于将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图; ILP模块,用于根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成 规范查询语句。
【专利摘要】本发明提供一种基于多知识库和整数线性规划ILP的自动问答方法和系统,所述方法包括:创建用于索引多个知识库的实体和/或关系的资源字典;在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;对各候选资源执行转换,获得对应的多个模板;将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。本发明所述方法能够对自然语句在多知识库中进行较精确的查询。
【IPC分类】G06F17-30
【公开号】CN104820694
【申请号】CN201510208978
【发明人】刘康, 赵军, 徐立恒, 张元哲
【申请人】中国科学院自动化研究所
【公开日】2015年8月5日
【申请日】2015年4月28日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1