基于自然语言理解的计算机信息检索系统及其检索方法

文档序号:6555759阅读:190来源:国知局
专利名称:基于自然语言理解的计算机信息检索系统及其检索方法
技术领域
本发明涉及一种计算机信息检索系统,尤其涉及使用自然语言方式提问进行信息检索的计算机系统。
背景技术
计算机信息检索系统帮助我们在浩瀚的信息海洋中查找想要的信息资料,目前检索信息的工具如查询软件,搜索引擎如google等,采用的主要是关键词匹配,网页链接分析等技术。但是人们很难通过简单的关键词组合来准确定义自己的搜索意图,而且关键词匹配的搜索过程没有处理词意组合,语句内部的语义关系等语义因素。所以人们经常不得不花大量时间对数目巨大的结果网页列表再作人工辨识来寻找理想的答案。
信息查询用户希望使用更自然,更准确的方式定义自己的查询要求,希望能够得到在语义,知识层面上准确地符合查询意图的答案,而不仅是匹配到关键词的答案列表。
本发明利用自然语言处理技术,允许用户以自然语言提问的方式向系统提出查询要求,系统通过对疑问句的语句分析,对目标答案的语句模式和语义关系结构的抽取和识别,从而能够识别出在语义的各个层次上与目标答案最接近的答案内容,并返回给用户较高准确度的回答。

发明内容
本发明的目的在于建立一个高效,统一的知识处理的模型,生成一种建立自然语言知识库的计算机系统。
一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。
一种基于自然语言理解的计算机信息检索方法,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;包括如下处理步骤第一步,来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;第二步,所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;第三步,知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;第四步按照答案正确度排序,并返回结果。
所述第三步中,对于难以适用句类模式匹配的情况,在HNC句类分析的语义关系结构抽取目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵。通过假设-校验机制模块,利用系统的语言学知识来校验计算知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义的相似度。
与以往相类似技术相比,本发明采用HNC自然语言理解技术对疑问句和待选句做了深层的语义模式识别和语义关系抽取,不仅突破了以往信息查询技术中查询词之间没有语义关联的弊病,而且能够通过模式匹配法匹配用户所提出的疑问句与待选句之间的语义异同;通过语义关系识别法抽取疑问句在词义概念,语义块内部词义搭配的语义关系,语义块之间,语句的各个不同粒度的组成部分之间的语义关系,并识别待选句是否具有相对应的语义或语义关系,所以能够提供给用户合乎语义并且准确度较高的答案。由于系统接受用户以自然语言提问的查询请求,使得用户可以方便而且精确地定义自己的查询意图;由于系统对查询的问句做问句分析,能够识别问句的语义关系和目标答案的要求。


本发明包括如下附图图1是HNC概念相似度计算过程流程图;图2是模式匹配法的目标答案句模式序列生成过程;图3模式匹配算法过程方框图;图4是语义关系识别法处理步骤流程图;图5是系统组成结构和运行原理。
具体实施方法下面结合附图对本发明做进一步详细说明。
本发明是一种使用自然语言理解技术进行信息检索的技术,系统接受用户以自然语言方式提问的查询请求,通过对待选语句进行面向目标答案的自然语言分析后,返回给用户最准确的答案。
本发明采用HNC自然语言处理技术对从互联网或其他内容源获取的自然语言格式的语句篇章进行句类分析,将句类分析结果语句以HNC句类标注,并作为待选答案句保存在知识库(KB)中。
系统接受用户以自然语言提问的查询请求后,系统先对疑问句进行疑问词,疑问中心分析,然后通过两种方式来寻求最佳的目标答案。
1.模式匹配法系统通过HNC句类分析得到疑问句的句类模式(目标句类模式)。对于具有相同(相近)句类模式的待选句(待选句可以是不同句类格式的简单句,混合句类,复合句的形式),系统通过计算目标句与待选句的各个相对应语义块之间的概念相似度来得到待选句相对于目标答案的准确程度。
2.语义关系识别法对于句类差别比较大的待选句不能使用模式匹配法,而只能使用语义关系识别法来寻求目标答案。
系统对疑问句的各个由字,词,语义块,语句等语义元素或语义元素的组合之间的语义关系进行发现识别,并由此构建目标语义关系矩阵,然后尝试在待选句中发现对应的语义关系,系统通过一个假设-评价机制来计算待选句中存在某个目标语义关系的置信度,最后通过各个关系的置信度与其权重的综合计算结果来得到待选句相对于目标答案的答案准确度。
本发明采用HNC自然语言理解技术对疑问句和待选句做了深层的语义模式识别和语义关系抽取,不仅突破了以往信息查询技术中查询词之间没有语义关联的弊病,而且能够通过模式匹配法匹配用户所提出的疑问句与待选句之间的语义异同;通过语义关系识别法抽取疑问句在词义概念,语义块内部词义搭配的语义关系,语义块之间,语句的各个不同粒度的组成部分之间的语义关系,并识别待选句是否具有相对应的语义或语义关系,所以能够提供给用户合乎语义并且准确度较高的答案。
什么是疑问句特性分析呢?不同的疑问词所引导的疑问句结构对目标答案具有不同的要求,为了便于针对分析,系统定义了两个概念疑问中心,疑问中心词。
疑问中心词疑问句中疑问词所引导,修饰的词语。
疑问中心疑问词和疑问中心词所组成的结构。
系统通过对疑问中心和疑问中心词的分析来得到目标答案的概念和所要求的语义结构,并以此与待选句的对应结构匹配比较,作为计算待选句答案准确度的一个重要因素。
从HNC角度对疑问词,疑问中心的分析,获得的统计结果如下表所示,其中得代码如J111,JK等是HNC所定义的描述语言语义的概念符号,其意义在CN98101921.8号专利中定义。

目标答案的求解策略通过使用HNC理论对疑问句和待选句的分析,本文提出寻求疑问句目标答案的两种求解策略模式匹配法,语义关系识别法。
在HNC理论体系中,HNC概念符号是表达自然语言形式化语义的基本元素,所以在讨论两种求解策略之前先讨论HNC概念符号的相似度比较方法。
HNC概念相似度比较对于词语的多义模糊性,通过HNC句类分析可以多选一地得到该词语在句中的特定语义概念。两个词语概念之间的相似程度可以通过对于二者的HNC概念符号比较得到。
HNC概念符号的结构[1]((类别符号串)(层次符号串)(组合结构符号)(类别符号串)(层次符号串))HNC概念相似度计算过程如图1所示首先比较疑问句和目标句的概念类别,判断其概念类别符号是否相同,如果不相同,则概念相似度为0.0,结束概念相似度的计算;如果概念类别符号相同,则分别进行五元组符号比较和语法符号比较;判断其概念层次符号为挂靠方式还是高中低层组合方式;如果是高中低层组合方式,首先判断高层符号是否相同,然后再分别比较中层符号序列和低层符号序列;然后综合计算概念相似度,结束概念相似度的计算;如果是挂靠方式,首先判断本体层符号是否相同,再比较挂靠层符号序列;然后综合计算概念相似度,结束概念相似度的计算。
HNC概念相似度计算方法为simConcept(t,b)=]]>simCat(t,b)βcat+ΣsimFiv(t,b)βfiv+simSynt(t,b)βsyn]]> 式中各符号含义simConcept待选概念b相对于目标概念t的概念相似度。
simCat概念类别相似度。
simFiv五元组符号序列的概念相似度。
simSyn语法符号的相似度。
simNou本体层概念相似度。
simRe挂靠层概念相似度。
simHigh高层概念相似度。
simMid中层概念相似度。
simLow底层概念相似度。
β对应概念符号部分的计算权重参数。
模式匹配法通过对疑问句进行HNC句类分析可以得到包含疑问中心的目标句类模式。目标句类模式可以通过等语义的句类格式变换得到一个目标句类模式序列。将目标句类模式与待选答案句模式各个部分进行匹配比较能够判断二者的语义相似度,以及待选答案句包含目标答案的程度。模式匹配法适合于疑问句和待选答案句的句类相同或者相近的情况。
如图2所示是模式匹配法的目标答案句模式序列生成过程(虚线部分表示可缺项)。所述目标句模式序列生成过程特征为对目标答案句按照不同的句类格式,增减语义块指示符,和调整语义块位置的方法生成语义相同而语言表达形式不同的目标答案句模式序列;对目标答案句按照不同的句类格式,增减语义块指示符,和调整语义块位置的方法生成语义相同而语言表达形式不同的目标答案句模式序列。首先通过疑问中心语义块JK或FK生成疑问中心,包括疑问词,和紧随或者修饰疑问词的疑问中心词,还可以同时在疑问中心之前生成辅块FK的累加值,和在疑问中心之后主块JK的累加值;如果在头尾同时结合陈述表达J(或者J的若干部分)、辅块FK的累加值、和主块JK的累加值,则等语义的句类格式变换所产生的目标句类模式序列,顺序包括辅块FK和主块JK的累加值、语义块指示符,以及疑问中心语义块JK or FK、语义块指示符和辅块FK和主块JK的累加值。
模式匹配算法过程如图3所示,首先判断目标模式句类和待选答案句类是否相同,如果完全不相同,则由语义关系识别模块处理,结束模式匹配;对于混合句,复合句部分相同的待选句,则识别出混合句类中该句类部分的各个语义块,以后跟句类相同的部分同样处理;如果句类相同,则对于各个语义块,逐个进行语义块相似度比较,分别比较GBK块核心词的概念相似度、比较GBK块修饰部分的概念相似度、比较各个GBK的FK与对应FK的概念相似度、以及对于疑问中心和目标答案概念的分析和计算,然后综合计算待选答案句的答案准确度得分。
待选句语义块相对于对应的目标句语义块的语义块相似度计算方法为simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbi)βk)/Tt模式匹配法的答案准确度计算方法correctness(St,Sb)=Σi=1nsimChunk(Chunkti,Chunkbi)+answFitness(St,Sb)]]>式中各符号含义answFitness待选句对于目标答靠的回答程度。
Tt目标语义块参与概念比较的元素数目。
M语义块的修饰词。
K语义块的核心词。
correctness待选句的答案准确度。
语义关系识别法语义关系识别法,其基本思想是尽量发现和抽取目标句在不同组成部分,不同粒度层次之间的各种语义关系,然后尝试在待选句中发现和识别出对应概念之间相似的语义关系。基本的语义关系有概念组合关系如作用,效应,对象,内容,包含,偏正,主谓,逻辑;句类结构的内部关系;以及表示世界知识的关系。
由于自然语言表达的多样性,一个语义关系可以通过多种简单或复杂的结构,如嵌套句蜕,快扩,语义块分离,单句,混合句,复合句等形式来表达。所以在语义关系识别法中系统采用了一种面向目标语义关系的假设-校验机制,利用系统的语言学知识来校验计算待选句中含有某个目标语义关系的置信度(即使只是部分地与目标语义关系结构相符合),以此发现不同的语言表达形式下所隐含的深层语义。
图4是语义关系识别法处理步骤,首先发现待选句中所存在的与目标句相同或者相似的概念,再对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类结构的语义关系、基于修饰关系的语义关系和面向世界知识的语义关系;然后再对各种语义关系假设利用目前现场语句分析结果的校验计算;语义关系矩阵中的各个对应语义关系在待选句中的发现和假设校验,以及对于疑问中心所对应的匹配和目标答案概念的相似度计算;对语义关系矩阵中各个语义关系的相似度的综合计算得到待选句的答案准确度。
语义关系识别的答案准确度计算方法correctness(St,Sb)=Σi=1nsimSynR(Rti,Rbi)confid(confidRti,cinfidRbi)βi+answFitness(St,Sb)]]>各符号含义n目标句中语义矩阵中的语义元素(或语义元素组合)的语义关系数目simSynR语义关系相似度。
R目标句(待选句)的语义关系。
confid由两个语义关系的置信度所得的对于二者相似度的置信度。
confidR语义关系的置信度。
βi语义关系i的计算权重参数。
如图5是系统组成结构和运行原理图,描述了在执行模块控制下数据库中的数据流动的执行顺序。来自互联网或其他内容源的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有已经标注的待选答案句知识库;用户输入的疑问句首先进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,语义关系结构抽取模块处理结合目标答案句模式(序列)获得目标句的语义关系矩阵;疑问句分析模块分析的疑问句还进入HNC句类分析模块处理获得疑问句的HNC句类结构数据,疑问中心分析模块还得到包含疑问中心对目标答案的要求的疑问中心数据,疑问中心数据与疑问句的HNC句类结构数据结合获得目标答案句模式(序列)。经过疑问中心分析模块处理的疑问句语义关系结构抽取模块结合目标答案句模式(序列)生成目标句的语义关系矩阵,再结合知识库中已经标注的待选答案句,进入假设-校验机制模块对待选答案句针对目标答案语义关系矩阵的识别;知识库中已经标注的待选答案句结合目标答案句模式(序列)经过句类模式匹配模块处理,跟假设校验机制匹配,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分,再按照答案正确度排序,获得排序后的答案列表。
权利要求
1.一种基于自然语言理解的计算机信息检索系统,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;其特征在于,包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。
2.根据权利要求l所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述目标句类模式对于所述知识库中具有相同或者相近句类模式的待选答案句,系统通过计算目标句与待选句的各个相对应语义块的概念之间相似度来得到待选句相对于目标答案的准确程度simConcept(t,b)=simCat(t,b)βcat+∑simFiv(t,b)βfiv+simSynt(t,b)βsyn 式中各符号含义simConcept待选概念b相对于目标概念t的概念相似度;simCat概念类别相似度simFiv五元组符号序列的概念相似度;simSyn语法符号的相似度;simNou本体层概念相似度;simRe挂靠层概念相似度;simHigh高层概念相似度;simMid中层概念相似度;simLow底层概念相似度;β对应概念符号部分的计算权重参数。
3.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述目标句类模式通过等语义的句类格式变换得到一个目标句类模式序列,将目标句类模式与所述待选答案句模式各个部分进行匹配比较判断二者的语义相似度,以及待选答案句包含目标答案的程度,待选句语义块相对于对应的目标句语义块的语义块相似度计算方法为simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbf)βk)/Tt模式匹配法的答案准确度计算方法correctness(St,Sb)=Σi=1nsimChunk(Chunkti,Chunkbi)+answFitness(St,Sb).]]>
4.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,还包括假设—校验机制模块,所述目标句的语义关系矩阵通过假设—校验机制模块分析对待选答案句针对目标答案语义关系矩阵的识别;所述假设—校验机制模块,利用系统的语言学知识来校验计算所述知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义,语义关系识别的答案准确度计算方法correctness(St,Sb)=Σi=1nsimSynR(Rti,Rbi)confid(confidRti,confidRbi)βi+answFitness(St,Sb)]]>各符号含义n目标句中语义矩阵中的语义元素(或语义元素组合)的语义关系数目;simSynR语义关系相似度;R目标句(待选句)的语义关系;confid由两个语义关系的置信度所得的对于二者相似度的置信度;confidR语义关系的置信度;βi语义关系i的计算权重参数。
5.根据权利要求1所述的基于自然语言理解的计算机信息检索系统,其特征在于,所述语义关系结构抽取模块对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类结构的语义关系、基于修饰关系的语义关系和面向世界知识的语义关系;然后再对各种语义关系假设利用目前现场语句分析结果的校验计算。
6.一种基于自然语言理解的计算机信息检索方法,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;其特征在于,包括如下处理步骤第一步,来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;第二步,所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;第三步,知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;第四步按照答案正确度排序,并返回结果。
7.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述第三步中,对于难以适用句类模式匹配的情况,在HNC句类分析的语义关系结构抽取目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵。通过假设—校验机制模块,利用系统的语言学知识来校验计算知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义的相似度。
8.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述目标答案句模式序列生成过程包括如下步骤通过疑问中心语义块JK or FK生成疑问中心,包括疑问词,和紧随或者修饰疑问词的疑问中心词,以及同时在疑问中心之前生成辅块FK的累加值,和在疑问中心之后主块JK的累加值;如果在头尾同时结合陈述表达J(或者J的若干部分)、辅块FK的累加值、和主块JK的累加值,则通过等语义的句类格式变换所产生的目标句类模式序列顺序包括辅块FK和主块JK的累加值、语义块指示符,以及疑问中心语义块JK or FK、语义块指示符和辅块FK和主块JK的累加值。
9.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述第三步中包括如下步骤,首先判断目标模式句类和待选答案句类是否相同,如果完全不相同,则由语义关系识别模块处理,结束模式匹配;对于混合句,复合句部分相同的待选句,则识别出混合句类中该句类部分的各个语义块,以后跟句类相同的部分同样处理;如果句类相同,则对于各个语义块,逐个进行语义块相似度比较,分别比较GBK块核心词的概念相似度、比较GBK块修饰部分的概念相似度、比较各个GBK的FK与对应FK的概念相似度、以及对于疑问中心和目标答案概念的分析和计算,然后综合计算待选答案句的答案准确度得分。
10.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述第四步中包括如下步骤,首先发现待选句中所存在的与目标句相同或者相似的概念,再对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类结构的语义关系、基于修饰关系的语义关系和面向世界知识的语义关系;然后再对各种语义关系假设利用目前现场语句分析结果的校验计算;语义关系矩阵中的各个对应语义关系在待选句中的发现和假设校验,以及对于疑问中心所对应的匹配和目标答案概念的相似度计算;对语义关系矩阵中各个语义关系的相似度的综合计算得到待选句的答案准确度。
全文摘要
本发明涉及一种基于自然语言理解的计算机信息检索系统及其检索方法,由用户输入的疑问句启动检索,系统输出按照语义相关程度排序的答案;首先来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;其次所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;然后知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;按照答案正确度排序,并返回结果。
文档编号G06F17/27GK1794240SQ20061003272
公开日2006年6月28日 申请日期2006年1月9日 优先权日2006年1月9日
发明者梁威 申请人:北京大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1