知识库中问句解析的方法及设备的制造方法_2

文档序号：9765947阅读：来源：国知局

问句中的词序列作为所述第一候选短语，其中，所述词序列满足：
[0109] 所述词序列中所有连续的非停用词都W大写字母开头，或者，若所述词序列中所有连续的非停用词不都W大写字母开头，则所述词序列的长度小于四；
[0110] 所述词序列的主要词的词性为jj或nn或rb或Vb,其中，jj为形容词，nn为名词， rb为副词，Vb为动词；
[0111] 所述词序列所包括的词不全为停用词。
[0112] 本发明实施例基于预定义的不确定性推理网络，能够用于将用户输入的自然语言问句转换为结构化的SPARQL。本发明实施例中，该预定义的不确定性推理网络能够应用于任何领域的知识库，具有领域扩展性，送样无需针对知识库人工地配置转换规则。
【附图说明】
[0113] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可W根据送些附图获得其他的附图。
[0114] 图1是本发明一个实施例的知识库中问句解析的方法的流程图。
[0115] 图2是本发明一个实施例的依存分析树的一例。
[0116] 图3是本发明另一个实施例的知识库中问句解析的方法的示意图。
[0117] 图4是本发明一个实施例的资源项查询图的另一例。
[0118] 图5是本发明一个实施例的确定加权公式权重的方法的流程图。
[0119] 图6是本发明一个实施例的问句解析的设备的框图。
[0120] 图7是本发明另一个实施例的问句解析的设备的框图。
【具体实施方式】
[0121] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0122] 在知识库问答系统中，需将自然语言问句（natural language question)转换为形式化查询语句。例如，形式化查询问句为结构化查询语句（Struc化re Query Language, SQL)或 SPARQL。一般地，SPARQL W主体-属性-对象（subject-prope:rt厂object, SPO) 兰元组开试（triple form过表示。
[0123] 例如：自然语言问句"师ich software has been developed by organization founded in California, USA ?，，所对应的 SPARQL 为：
[0124] ? url_answer rdf: type dbo: Software
[0125] ? url_answer db:developer ? xl
[0126] ? xl rdf:type dbo:Company
[0127] ? xl dbo:foundationPlace dbr:California。
[0128] 将自然语言问句转换为形式化查询语句，需要依赖于针对于知识库的转换规则。也就是说，不同的知识库所对应的转换规则也是不同的。但是目前的问答系统中，需要人工地对每个知识库的转换规则进行人工配置。对于某一个知识库，人工地收集一些问题，并确定问题的答案，根据这些问题人工地总结出一些规律作为转换规则。也就是说，人工配置的转换规则没有领域扩展性，针对某一个知识库所配置的转换规则不能用于另外一个知识库。并且，由于自然语言问句中存在大量的歧义，也会导致人工配置的转换规则缺乏鲁棒性。
[0129] 自然语言处理（Na化ral Language Processing, NLP)是计算科学、人工智能和语言学科中用于描述机器语言与自然语言么间的关系的工具。NLP涉及人机交互。NLP的任务（tasks)可W包括：自动监督（Automatic summarization)、互参分辨率（Coreference resolution)、引语分析（Discourse analysis)、机器番！译（Machine translation)、形态分害!j (Morphological segmentation)、命名实体 i只另U (Named entity recognition， NER)、自然语言生成（Na化ral language generation)、自然语言理解（Na化ral language understanding)、光学字符识别（Optical character recognition, OCR)、词性标注巧art-〇f-speech tagging)、句法分析巧arsing)、问答系统（Question answering)、关系提取巧 elationship extraction)、断句（Sentence breaking)、情绪分析（Sentiment analysis)、语音识别（Speech recognition)、语音分割（Speech segmentation)、话题分害!j与识另U (Topic segmentation and recognition)、词分割（Word segmentation)、词义消歧（Word sense disambiguation)、信息检索（Information retrieval，IR)、信息抽取 (Information extraction，IE)、语音处理（Speech processing)等。
[0130] 具体地，斯坦楠（Stanford)自然语言处理（Na化ral Language Processing, NLP)工具是针对上述NLP的不同任务所设计的。本发明实施例中采用了 Stanford NLP 工具。例如，其中的词性标注工具可W用于确定一个问句中的每一个单词（word)的词性 (P曰rt-〇f-speech)。
[0131] 不确定性推理泛指除精确推理W外的其他各种推理问题。包括不完备、不精确知识的推理，模糊知识的推理，非单调性推理等。
[0132] 不确定性推理过程实际上是一种从不确定的初始证据出发，通过运用不确定性知识，最终推出具有一定不确定性但却又是合理或基本合理的结构的思维过程。
[0133] 不确定性推理的类型有数值方法和非数值方法，其中数值方法包括基于概率的方法。具体地，基于概率的方法是基于概率论的有关理论发展起来的方法，如可信度方法，主观贝叶斯度ayes)方法、证据理论等。
[0134] 其中，马尔科夫逻辑网络是不确定性推理网络中较为常用的一种。
[0135] 马尔科夫逻辑网络（Markov Logic化twork, MLN)是一种结合一阶逻辑（First-Order Logic, F0L)和马尔科夫网络（Markov化twork)的统计关系学习 (Statistical Relational Learning)框架。马尔科夫逻辑网络与传统的一阶逻辑的不同之处在于：传统的一阶逻辑要求所有的规则之间不允许有冲突，如果某一个命题不能同时满足所有规则，则其为假；而在马尔科夫逻辑网络中，每个规则都有一个权重，一个命题会按照一个概率为真。
[0136] 其中，一阶逻辑（First-化der Logic,F0L)也可W称为谓词逻辑或一阶谓词逻辑，由若干一阶谓词规则组成。一阶谓词规则由四种类型的符号组成，即常量、变量、函数和谓词。其中，常量指定义域里一个简单的对象；变量可W指定义域里若干对象；函数表示一组对象到一个对象的映射；谓词指定义域中若干对象之间的关系、或者对象的属性。变量和常量可W有类型。一个类型的变量仅能从定义类型的对象集中取值。一个项可W是任意地表示一个对象的表达式。原子是作用于一组项的谓词。一个常项是指没有变量的项。一个闭原子（ground atom)或闭谓词（ground predicate)是指所有参数均为常项的原子或谓词。一般地，规则是从原子开始，用连接词（如蕴含关系、等价关系等）和量词（如全称量词和存在量词）递归地建立起来。在一阶逻辑中，通常把规则表示成从句的形式。一个可能世界（a possible world)是指给所有可能出现的闭原子都赋予了真值。一阶逻辑可看作是在一个可能世界的集合上建立一系列硬规则，即如果一个世界违反了其中的某一条规贝IJ，郝么送个世界的存在概率即为零。
[0137] MLN的基本思想是让郝些硬规则有所松弛，即当一个世界违反了其中的一条规则，郝么送个世界存在的可能性将降低，但并非不可能。一个世界违反的规则越少，郝么送个世界存在的可能性就越大。为此，给每个规则都加上了一个特定的权重，它反映了对满足该规则的可能世界的约束力。若一个规则的权重越大，则对于满足和不满足该规则的两个世界而言，它们之间的差异将越大。
[013引送样，通过设计不同的一阶逻辑公式（高阶规则模板），马尔科夫逻辑网络能够很好的结合语言特征和知识库限制。该概率框架中的逻辑公式能够对软规则限制进行建模。马尔科夫逻辑（Markov Logic)中一组加权的公式集合就称为一个马尔科夫逻辑网络。
[0139] 具体地，在MLN中，可W包括一阶公式和惩罚（penalty)。闭原子可WW某种惩罚违法对应的一阶公式。
[0140] 其中，一阶公式中包括一阶谓词、逻辑联结词（logical connectors)和变量。
[0141] 图1是本发明一个实施例的知识库中问句解析的方法的流程图。图1所示的方法包括：
[0142] 101，接收用户输入的问句。
[0143] 102,对所述问句进行短语检测，W确定第一候选短语。
[0144] 103,将所述第一候选短语映射到所述知识库中的第一资源项，其中，所述第一资源项与所述第一候选短语具有一致的语义。
[0145] 104,根据所述对应候选短语和所述对应资源项，计算观察谓词的值和可能的问句分析空间，其中，所述观察谓词用于表示所述第一候选短语的特征、所述第一资源项的特征和所述第一候选短语与所述第一资源项的关系，所述可能的问句分析空间中的点为命题集合，所述命题集合中的命题的真假由隐含谓词的值表征。
[0146] 105,对所述可能的问句分析空间中的每一个命题集合，根据所述观察谓词的值和所述隐含谓词的值，进行不确定性推理，计算所述每一个命题集合的置信度。
[0147] 106,获取所述置信度满足预设条件的命题集合中的真命题的组合，其中，所述真命题用于表示从所述第一候选短语中所选中的搜索短语、从所述第一资源项中所选中的搜索资源项和所述搜索资源项的特征。
[014引 107,根据所述真命题的组合，生成形式化查询语句。
[0149] 本发明实施例利用观察谓词和隐含谓词，进行不确定性推理，能够将自然语言问句转化为形式化查询语句。并且，本发明实施例中，不确定性推理的方法能够应用于任何领域的知识库，具有领域扩展性，送样无需针对知识库人工地配置转换规则。
[0150] 可理解，本发明实施例中，在101中用户输入的问句为自然语言问句（natural Isngimge question) 〇
[0151] 例如，该自然语言问句为 "Give me all actors who were born in Berlin."。
[0152] 进一步地，在102中，可通过短语检测（p虹ase detection),识别出问句中的词 (token)序列。可选地，可将所述问句中的词序列作为所述第一候选短语。其中，词序列又称为多词序列或词语序列或词项或n元词序列或n-gram (S)，是指n个连续的单词组成的序列。
[0153] 可理解，102中可确定多个第一候选短语。
[0154] 可选地，102中，可将满足如下的限定的词序列作为第一候选短语：
[0155] (1)、所述词序列中所有连续的非停用词都W大写字母开头；或者，若所述词序列中所有连续的非停用词不都W大写字母开头，则所述词序列的长度小于四。
[015引似、所述词序列的主要词（head word)的词性为jj或nn或rb或vb，其中，jj为形容词，nn为名词，:Tb为副词，Vb为动词。
[0157] (3)、所述词序列所包括的词不全为停用词。
[015引同时，所有连续的大写字母开头的非停用词必须在同一个词序列中。
[0159] 可理解，本发明实施例中，head word也可W称为重要词或主导词等，并且可W从词性标注集合中获取词性的表示符号。
[0160] 举例来说，"United States Cou;rt of Appeals for the District of Columbia Circuit"中所有连续的非停用词都W大写字母开头，为一个候选短语。可W理解，所有连续的非停用词都W大写字母开头的词序列一般为专有名词。
[0161] 其中，词序列的长度是指词序列所包括的词的个数。例如，词序列"born in"的长度为2。
[0162] 其中，可W采用Stan化rd的词性标注工具来确定每一个词的词性。
[016引举例来说，英文的停用词（stop words)有"a"、"an"、"the"、"that"等。中文的停用词有"一个"、"一些"、"不但"等。
[0164] 例如，在问句"Give me all actors who were born in Berlin"中，所确定的第一候选短语包括：曰ctors、who、born in、in、Berlin。
[0165] 具体地，可W表示为表一的形式，其中表一的第一列为所述第一候选短语的短语标识。
[0166] 表一
[0167]
阳16引本发明实施例中，103可W理解为是将每个第一候选短语映射到知识库中的第一资源项。本发明实施例中，103也可W称为短语映射（P虹ase mapping)。具体地，一个第一候选短语可能映射到多个第一资源项。第一资源项的类型可W为实体巧ntity)或类别 (Class)或关系巧elation)。
[0169] 举例来说，假设该知识库为DBpedia。103具体为：
[0170] 将第一候选短语映射到实体巧ntity)，考虑到DBpedia中的实体来自于 W化ipedia中的实体页面，首先收集Wikipedia中的铺文本（anchor text)、重定向页面和消歧页面，并利用W化ipedia中的铺文本、重定向页面和消歧页面构建第一候选短语与实体之间的对应辞典，当第一候选短语匹配到实体的提及（mention)短语的时候，郝么该实体即为与该第一候选短语语义一致的第一资源项。
[0171] 将第一候选短语映射到类别（Class)，考虑到有词汇变种的情况，特别是同义词，例如，短语film、movie和show都可W映射到类别化o:Film。首先利用word2vec工具把第一候选短语中所有的词转换为向量形式，知识库中类别的向量形式为其标签（对应 r壯s:label关系）的向量形式；然后计算第一候选短语与每个类别在向量上的余弦相似度；最后将余弦相似度值最大的N个类别作为与该第一候选短语语义一致的第一资源项。
[0172] 其中，word2vec工具是一种将词（word)转换成向量（vector)的工具。例如，可 W是由谷歌（google)开发并提供的一段开放代码，具体可W参见；http://code. google. com/p/word2vec/。
[0173] 将第一候选短语映射到关系巧elation)，使用PATTY和ReVerb所定义的关系模板作为资源。首先计算DBpedia中的关系与PATTY和ReVerb所定义的关系模板（relation patterns)在实例上的对齐，也就是统计DBpedia中满足关系模板的关系的实例对。然后，如果第一候选短语能够匹配关系模板，郝么，将满足关系模板的关系作为与该第一候选短语语义一致的第一资源项。
[0174] 其中，PATTY和ReVerb所定义的关系模板可W参见化kashole等人于2012在 EMNLP 发表的 "Patty:a taxonomy of relational patterns with semantic types'，，W 及 Fader 等人于 2011 在 EMNLP 发表的 "Identifying relations for open information extraction'，。
[01巧]送样，通过103,可W将第一候选短语映射到第一资源项，具体地，每一个第一候选短语映射到至少一个第一资源项。并且，具有映射关系的第一候选短语和第一资源项具有一致的语义。
[0176] 其中，若一个第一候选短语映射到多个第一资源项，说明该一个第一候选短语具有歧义。
[0177] 例如，在问句"Give me all actors who were born in Berlin"中，在 103 中，可确定第一候选短语actors、who、bo;rn in、in、Be;rlin映射为第一资源项如表二所示。其中，表二的第一列为第一候选短语，第二列为第一资源项，第H列为第一资源项的标识。并且，第一候选短语"in"映射到五个第一资源项。
[017引表二
[0179]
[0180] 本发明实施例中，104可W理解为是特征抽取（fea化re extraction)的过程。
[0181] 具体地，本发明实施例定义隐含谓词化idden predicates)。隐含谓词可W包括如下的形式：
[0182] has地rase (P)，表示候选短语P被选中。
[0183] hasResource (P, r)，表示资源项r被选中，且候选短语P映射到资源项r。
[0184] hasRelation(p, r, rr)，表示资源项P和资源项r之间的参数匹配关系rr被选中。
[0185] 可理解，其中，P可W为候选短语的短语标识，P和r可W为资源项的标识。其中，参数匹配关系rr为可W为W下一种；1_1、1_2、2_1和2_2。
[018引具体地，本发明实施例中，参数匹配关系rr可W为W下一种；1_1、1_2、2_1和2_2。郝么，资源项P和资源项r之间的参数匹配关系为ml_m2表示资源项P的第ml个参数与资源项r的第m2个参数对齐。其中，ml为1或2, m2为1或2。
[0187] 如表H所示，为上述参数匹配关系的具体举例。其中，表H的第H列给出了一个问句，W解释第二列中的参数匹配关系。
[018引表H
[0190] 其中，"clbo:hei曲t l_ldb;r:Michael Jordan"表不资源项 clbo:hei曲t 与资源项化;r:Michael化rdan之间的参数匹配关系为1_1。目P，资源项化o:hei曲t的第1个参数与资源项化r:Michael化rdan的第1个参数对齐。
[0191] 可理解，隐含谓词的值为1表示相应的候选短语、资源项、资源项和资源项之间的参数匹配关系被选中。隐含谓词的值为0表示相应的候选短语、资源项、资源项和资源项之间的参数匹配关系没有被选中。换句话说，隐含谓词的值为1表示相应的命题为真，隐含谓词的值为0表示相应的命题为假。
[0192] 例如，结合表一，has地rase(ll) = 1，表示"候选短语actors被选中"送个命题为真。has地rase(ll) = 1，表示"候选短语actors被选中"送个命题为假。
[0193]

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6