知识库中问句解析的方法及设备的制造方法_3

文档序号：9765947阅读：来源：国知局

送样，对于102和103所确定第一候选短语和第一资源项，能够基于隐含谓词构建可能的问句分析空间（possible question parse space)。具体地，可能的问句分析空间中的一个点表示一个命题集合。一个命题集合包括一组命题，并且送一组命题是由一组隐含谓词的值还表示的。可理解，一个命题集合中的一组命题的真假由对应的隐含谓词的值来表征。
[0194] 具体地，本发明实施例还定义观察谓词（observed predicates)用于表示所述第一候选短语的特征、所述第一资源项的特征和所述第一候选短语与所述第一资源项的关系。
[0195] 其中，所述第一候选短语的特征包括所述第一候选短语在所述问句中的位置、所述第一候选短语的主要词的词性、所述第一候选短语两两之间的依存路径上的标签等。
[0196] 其中，所述第一资源项的特征包括所述第一资源项的类型、所述第一资源项两两之间的相关性值、所述第一资源项两两之间的参数匹配关系等。
[0197] 其中，所述第一候选短语与所述第一资源项的关系包括所述第一候选短语与所述第一资源项的先验匹配得分。
[019引郝么，可理解，104中确定观察谓词的值包括；确定所述第一候选短语在所述问句中的位置；采用Stan化rd的词性标注工具，确定所述第一候选短语的主要词的词性；采用 Stan化rd依存句法分析工具，确定所述第一候选短语两两之间的依存路径上的标签；从所述知识库中确定所述第一资源项的类型，其中，所述类型为实体或类别或关系；从所述知识库中确定所述第一资源项两两之间的参数匹配关系，其中，所述参数匹配关系为W下一种： 1_1、1_2、2_1和2_2。将所述第一资源项两两之间的相似性系数，作为所述两个第一资源项两两之间的相关性值；计算所述第一候选短语与所述第一资源项之间的先验匹配得分，所述先验匹配得分用于表示所述第一候选短语映射到所述第一资源项的概率。
[0199] 具体地，从所述知识库中确定所述第一资源项两两之间的参数匹配关系，包括：从所述知识库中确定第一资源项rl和第一资源项r2之间的参数匹配关系用于表示所述第一资源项rl的第ml个参数与所述第一资源项r2的第m2个参数对齐。其中，所述第一资源项包括所述第一资源项rl和所述第一资源项ml为1或2, m2为1或2。
[0200] 具体地，观察谓词可W包括如下的形式：
[020。 P虹aselndex(p, i, j)，表示候选短语P在问句中的起始位置i和结束位置jo
[0202] P虹asePoshg^ Pt)，表示候选短语P的主要词化ead word)的词性pt。
[020引具体地，可W采用Stan化rd词性标注工具确定主要词的词性。
[0204] P虹aseD巧化g (P, q,化），表示候选短语P和候选短语q之间的依存路径上的标签 dto
[020引具体地，可W采用Stanford依存分析（Stanford dependency parser)工具建立问句的依存分析树（dependency parse trees),根据所述依存分析树进行特征提取，从而确定两个候选短语之间的依存路径上的标签。
[020引例如，问句"Give me all actors who were born in Berlin."的依存分析树如图2所示。
[0207] P虹aseD巧化e (P，q)，表示当候选短语P和候选短语q之间的依存路径上的标签只有一个时，该谓词为真，否则为假。
[020引可理解，观察谓词中的谓词地raseD巧化e(p，q)只包括结果为真的谓词。
[0209] hasMeanWord (P, q)，表示当候选短语P和候选短语q之间的依存路径上的词全部为停用词或者词性为化、in、W化、to、CC、ex、pos或WP时，hasMeanWord(p, q)为假，否则为真。
[0210] 其中，化为限定词，in为介词in, W化为W W开头的疑问词，to为介词to, CC为连接词，ex为存在词there, POS为所有格结尾词，WP为疑问代词。其中，W W开头的疑问词如what、which等，连接词如ant but、or等。具体地，可W从词性标注集合获取上述词性的表示符号。
[02U] 可理解，观察谓词中的谓词hasMeanWord(p，q)只包括结果为真的谓词。
[0212] resourceTypeCr, K)，表示资源项r的类型为K。其中K为E或C或R。E表示实体巧ntity)，C表示类别（Class)，R表示关系（^Relation)。
[0213] priorMatchScore (P, r, S)，表示候选短语P与资源项r之间的先验匹配得分So
[0214] 举例来说，假设知识库为DBpedia。
[0215] 具体地，若资源项r的类型为E，首先收集Wikipedia中的铺文本、重定向页面和消歧页面，候选短语P匹配到资源项r的提及短语，可将对应的频率作为先验匹配得分。其中，对应的频率是指候选短语P链接到资源项r的次数除W候选短语P链出的总次数。
[0216] 具体地，若资源项r的类型为C，候选短语P与资源项r的先验匹配得分可W为 Y -Si+a-Y) -S2。其中，Y为0至1之间的任意值，例如Y =0.6。Si为资源项r的标签与候选短语P之间的Levenshtein距离，S2为候选短语P的向量与资源项r的向量之间的余弦相似性度量值。其中，Levenshtein距离可W参见Pfevarro于2001年在ACM Comput. Surv.发表白勺"A 邑uided tour to approximate Strin邑 matching，，。其中，Sz 白勺i十算可U 参见 Mikolov 等人于 2010 年在 INT邸SP邸CH 发表的"Recurrent neural network based language model'，。
[0217] 具体地，若资源项r的类型为R，候选短语P与资源项r的先验匹配得分可W为 a ? Si+目? S2+(l-a-目）? S3。其中，a和目为0至1之间的任意值，且a+目< 1，例如a = 0. 3，目=0. 3。Si为资源项r的标签与候选短语P之间的Levenshtein距离，S2 为候选短语P的向量与资源项r的向量之间的余弦相似性度量值，S3为资源项r与关系模板的匹配集合的化ccard系数。其中，关系模板为如前所述的PATTY和ReVerb所定义的关系模板。S3的计算可W参见Y址ya等人于2012年在EMNLP发表的"化化ral language questions for the web of data"。
[021引 hasRelate化ess(p, q, s)，表示资源项P和资源项q之间的相关性值So该相关性值S的取值区间为0至1。具体地，该相关性值S可W为资源项P和资源项q的相似性系数。可选地，该相似性系数也可W称为化ccard相似性系数或化ccard系数或相似度评价系数。
[0219] 例如，参见 Y址ya 等人于 2012 年在 EMNLP 发表的"化 1:ural language questions 化r the web of data",资源项P和资源项q的相似性系数可W等于资源项P和资源项q 的入度集合的化ccard系数。
[0220] isTypeCompatible(p, q, rr)，表示资源项P和资源项q之间的参数匹配关系rr。
[0221 ] 具体地，本发明实施例中，参数匹配关系rr可W为W下一种；1_1、1_2、2_1和。具体地，参数匹配关系可如前所述，为避免重复，送里不再赏述。
[022引 has如eryResult(p, q, 0, rrl, rr2)，表示资源项P、资源项q和资源项O之间的参数匹配关系。具体地，资源项P和资源项q之间具有参数匹配关系rrl，资源项q和资源项O 之间具有参数匹配关系rr20
[022引可理解，上述所描述的观察谓词中，P虹aselndex(p, i, j)、地rase化sTag(p, Pt)、地raseDepTag(p, q,化）、p虹aseD巧0ne(p, q)和 hasMeanWord(p, q)用于表示所述候选短语的特征。resourceType (r, rt)、h曰sRel曰tedness (P, q, S)、isTypeComp曰tible (P, q, rr)和 has如eryResult (P, q, 0, rrl, rr2)用于表示所述资源项的特征。priorMatchScore (P, r, S) 用于表示所述候选短语与所述资源项之间的关系。
[0224] 其中，P和q可W为候选短语的短语标识，P、q、r和O可W为资源项的标识。
[0225] 送样，基于102和103所确定的第一候选短语和第一资源项，能够确定相应的观察谓词的值。
[022引例如，对问句"Give me all actors who were born in Berlin",在表一和表二的基础上，可W在104计算观察谓词的值。具体地，其中观察谓词的值为I的表达式包括： [0227] phraselndexQl, 3, 3)
[022引 phraseindex (12, 4, 4)
[0229] phraseindex (13, 6, 7)
[0230] phraseindex (14, 7, 7)
[0231] phraselndex(15, 8, 8)
[0232] phrasePosl'agQl, nn)
[0233] phrasePosTag (12, wp)
[0234] phrasePosl'ag (13, vb)
[0235] phrasePosl'ag (14, in)
[0236] phrasePosl'ag (15, nn)
[0237] phraseD邱l'ag(ll，13，rcmod)
[023 引 phraseD邱l'ag(12，13，nsub化ass)
[0239] phraseD邱l'ag(12，14，nsub化ass)
[0240] phraseD邱l'ag(13，15，pobj)
[0241] phraseD邱l'ag(14，15，pobj)
[0242] phraseD邱One (11，13)
[0243] phraseD邱One (12, 13)
[0244] phraseD邱One (12, 14)
[0245] phraseD邱One (13,巧）
[0246] phraseD邱One (14,巧）
[0247] hasMeanWord(12, 14)
[024引 resourceType (21，E)
[0249] resourceType (22, E)
[0巧0] resourceType (23, R)
[0巧1 ] resourceType (24, R)
[0巧2] resourceType (25, R)
[0巧3] resourceType (26, R)
[0巧4] resourceType (27, R)
[0巧5] resourceType (28, R)
[0巧6] resourceType (29, E)
[0巧7] priorMatchScore (11，21，1. 000000)
[0巧引 priorMatchScore (12, 22, 1. 000000)
[0巧9] priorMatchScore (13, 23, 1. 000000)
[0260] priorMatchScore (14, 24, 1. 000000)
[0261] priorMatchScore (14, 25, 1. 000000)
[0262] priorMatchScore (14, 26, 1. 000000)
[0263] priorMatchScore (14, 27, 1. 000000)
[0264] priorMatchScore (14, 28, 1. 000000)
[0265] priorMatchScore (15, 29, I. 000000)
[0266] hasRelatedness (21，23, I. 000000)
[0267] hasRelatedness (22, 23, I. 000000)
[026引 hasRelatedness (22, 24, 0? 440524)
[0269] hasRelatedness (22, 25, 0? 425840)
[0270] hasRelatedness (22, 26, 0? 226393)
[0271] hasRelatedness (22, 27, 0? 263207)
[0272] hasRelatedness (23, 29, 0? 854583)
[0273] hasRelatedness (24, 29, 0? 816012)
[0274] hasRelatedness (26, 29, 0? 532818)
[0275] hasRelatedness (27, 29, 0? 569732)
[0276] hasRelatedness (28, 29, 0? 713400)
[0277] isTypeCompatiible (21，23, 1_1)
[027引 isTypeCompatiible (22, 23, 1_1)
[0279] isTypeCompatiible (22, 23, 1_2)
[0280] isTypeCompatiible (22, 24, 1_2)
[0281] isTypeCompatiible (22, 25, 1_1)
[0282] isTypeCompatiible (22, 26, 1_1)
[0283] isTypeCompatiible (22, 26, 1_2)
[0284] isTypeCompatiible (22, 27, 1_2)
[0285] isTypeCompatiible (23, 29, 2_1)
[0286] isTypeCompatiible (24, 29, 2_1)
[0287] isTypeCompatiible (26, 29, 2_1)
[028引 isTypeCompatiible (27, 29, 2_1)
[0289] isTypeCompatiible (28, 29, 2_1)
[0290] hasQueryResult (21，23, 29, 1-1，2_1)
[0291] hasQueryResult (22, 23, 29, 1-1，2_1)
[029引 hasQueryResult (22, 26, 29, 1-1，2_1)
[0293] 可理解，观察谓词的值为1，即表示对应的命题为真。
[0294] 例如，其中，phraseIndexQl，3, 3)的值为1，表示"第一候选短语actors在问句中的起始位置i和结束位置j均为3"这一命题为真。其中，11为候选短语"actors"的短语标识，如表一所示。
[029引其中，phrasePosTag(13, Vb)的值为1，表示"第一候选短语born in的主要词为 born,其词性Vb"这一命题为真。其中，13为候选短语"born in"的短语标识，如表一所示。
[0296] 其中，phraseDepl'agQS，15, pobj)的值为1，表示"第一候选短语born in和第一候选短语Berlin依存路径上的标签为pobj"这一命题为真。其中，13为候选短语"born in"的短语标化15为候选短语"Berlin"的短语标化如表一所示。
[0297] 上述其他的观察谓词的值为1的表达式的含义可W参照上述解释，为避免重复，这里不再繁述。
[029引可理解，还包括观察谓词的值为0的表达式，为节省篇幅，送里不再罗列。
[0299] 可选地，本发明实施例中，也可W用谓词resource表示资源项的标识。
[0300] 例如，结合表二可知，W下谓词的值为1 :
[0301] resource (21, dbo = Actor)
[0302] resource (22, clbo:F*erson)
[0303] resource (23, (lbo: bbthPlace)
[0304] resource (24, clbo: headquarter)
[030引 resource (25, clbo: league)
[030引 resource (26, dbo: location)
[0307] resource (27, clbo: ground)
[030引 resource (28, clbo: locationCity)
[0309] resource(29, dbr:BerI in)
[0310] 可理解，本发明实施例中，102和103中所确定的第一候选短语和第一资源项是有歧义的。本发明实施例通过不确定性推理来消除所述第一候选短语和所述第一资源项的歧义。
[0311] 不确定性推理是根据不确定性信息作出推理和决策。不确定性推理网络可W处理不完整的和带有噪音的数据集，用概率测度的权重来描述数据间的相关性，旨在解决数据的不一致性和不确定性。
[0312] 本发明实施例中，105中的不确定性推理所使用的模型可W为如下的任意一种：贝叶斯网络度ayesian Network)、似然关系模型（Prob油ilistic relational models)、贝叶斯逻辑程序模型度ayesian logic programs)、关系马尔科夫网巧elational Markov Network)、马尔科夫逻辑网（Markov Logic Network)、概率软化逻辑（Prob油ilistic Soft Logic)。本发明对此不作限定。
[0313] 可选地，本发明实施例中，105中的不确定性推理是基于马尔科夫逻辑网络 (Markov Logic化twork，MLN)的，其中，所述MLN包括预定义的一阶公式W及所述一阶公式的权重。也就是说，不确定性推理所使用的模型为MLN。
[0314] 可选地，本发明实施例中，一阶公式可W包括布尔公式度oolean化rmulas)和加权公式（wei曲ted化rmulas)。其中，布尔公式的权重为+ °°，布尔公式可W理解为一阶逻辑中的一阶逻辑公式，表示硬规则化ard constraints),也可W称为硬公式化ard 化rmulas，hf)，是所有的闭原子必须满足的限制条件。加权公式的权重为加权公式权重，是软规则（soft constraints),也可W称为软公式（soft formulas, sf),闭原子可W W某种惩罚违法。
[0315] 其中，一阶公式是由一阶谓词、逻辑联结词和变量所组成的。其中，一阶谓词可W 包括前述的观察谓词和隐含谓词。
[0316] 应注意，本发明实施例中，MLN也可W包括二阶公式、一阶公式、所述二阶公式的权重、W及所述一阶公式的权重。

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6