自然语言查询需求扩展设备及其方法

文档序号:6610845阅读:286来源:国知局
专利名称:自然语言查询需求扩展设备及其方法
技术领域
本发明涉及信息查询领域,更具体地,涉及一种自然语言查询需 求扩展设备以及一种自然语言查询需求扩展方法。
背景技术
目前存在多种根据用户发送的查询请求提供查询结果的系统。但 是当用户进行自然语言查询时,通常期望知道比他/她所发送的查询 请求的更多的信息。例如,当一个用户查询海龙在哪里时,那么除了 海龙的地址外,可能用户也想知道怎么到达海龙。所以,根据用户的 当前查询可以推测用户潜在的查询需求,即,隐式查询需求。但是现 有的査询系统仅能够根据用户的当前査询,生成与之相关的直接的查 询答案,而没有考虑用户的潜在查询需求,以对用户的当前查询进行 扩展。
已知存在一些相关的査询系统及方法。US20050289124提出一 种自然语言查询处理的系统和方法,它可以处理用户的英文自然语言 查询,生成相应的语义标注,并从知识库中检索到对应的信息。
US6411950提出一种关键词查询的扩展方法,它利用査询日 志,将关键词查询中的抽象词扩展为查询频度较高的具体词。如将查 询词"car"扩展为("car audio" OR "rent a car" OR "car price" OR ...)。
US6480843也提出一种关键词查询的扩展方法,它利用词语间 的语义相似度,将关键词査询中的词语进行扩展。如将关键词查询 "car dealer"扩展为[("car,, OR "automobile" OR "auto" OR "Ford")] AND ("Dealer" OR "Showroom" OR "SalesOffice")。
综合现有的査询系统或方法,可以发现其或者只能分析出显式查
询需求,如US20050289124。或者只能对关键词查询中的词语进行 扩展,如US6411950, US6480843。目前还没有方法可以对自然语言 查询的当前显式查询需求查询请求进行有效扩展。

发明内容
为了解决上述问题,提出了本发明。本发明提出了一种自然语言 査询需求扩展设备和方法,可以对接收到的用户的自然语言查询进行 分析,获得隐式查询需求,从而扩展了用户的查询需求并生成扩展的 答案信息。通过扩展用户的査询需求,可以帮助自然语言査询需求扩 展设备更好地理解查询用户的意图,发掘用户的潜在兴趣与需求,使 用户得到充分、全面的答案信息。
根据本发明第一方面,提供了一种查询需求扩展设备,包括 查询需求理解装置,用于根据用户的查询请求生成显式查询需 求;以及
查询需求扩展装置,用于生成与显式查询需求相关的隐式查询需求。
根据本发明第二方面,提供了一种查询需求扩展设备,其中查 询需求理解装置通过对接收到的用户查询进行语义和句法上的分析来
生成显式查询需求;以及
查询需求扩展装置通过查找位于所述设备内部或外部的需求相 关数据库生成与显式查询需求相关的隐式査询需求。
根据本发明第三方面,提供了一种查询需求扩展设备,其中査 询需求理解装置通过查找知识库和语言库生成包括查询概念和问题类 型的显式查询需求;以及
查询需求扩展装置通过査找知识库,语言库和相关度数据库生 成包括査询概念和问题类型的隐式査询需求。
根据本发明第四方面,提供了一种查询需求扩展设备,其中查 询需求理解装置包括
分词单元,用于根据知识库和语言库,对用户査询进行分词;
匹配单元,用于将分词的用户查询与语言库进行匹配,以找到
匹配文法;
语义一致性判断单元,用于根据知识库和语言库,来判断用户
查询中的概念是否有语义错误;
显式查询需求生成单元,用于根据匹配文法,生成与其对应 的、包括查询概念和问题类型的显式查询需求。
需求类型判断单元,用于根据知识库和语言库,来判断显式查 询需求属于下列三种类型中的哪一种语义可理解、句法可理解或句 法不可理解。
根据本发明第五方面,提供了一种査询需求扩展设备,其中査 询需求扩展装置包括
语义可理解査询需求扩展装置,用于根据语义上可理解的显式 查询需求检索相关度数据库,获得与语义上可理解的查询需求相关的 相关查询需求集合,其中包括包含了相关查询概念和相关问题类型以 及査询概念和相关问题类型之一的隐式査询需求。
根据本发明第六方面,提供了一种查询需求扩展设备,其中査
询需求扩展装置包括
句法可理解查询需求扩展装置,用于基于知识库和相关度数据 库,形成与句法上可理解的显式查询需求中的査询概念相关度高的相 关查询概念集合,并利用知识库从相关查询概念集合中选择出满足预 定约束条件的至少一个相关查询概念与显式查询需求的问题类型组合 作为隐式查询需求。
根据本发明第七方面,提供了一种查询需求扩展设备,其中查
询需求扩展装置包括
句法不可理解查询需求扩展装置,用于利用语言库,检索与显 式查询需求中包含的问题类型相似的问题类型,和/或利用相关度数 据库和知识库,查找与显式查询需求中包含的未识别査询概念相似的 査询概念,从而获取包括相似查询概念和/或相似问题类型的隐式查 询需求。
根据本发明第八方面,提供了一种査询需求扩展设备,包括 语义可理解查询需求扩展装置,用于根据语义上可理解的显式
查询需求检索相关度数据库,获得与语义上可理解的查询需求相关的 相关查询需求集合,其中包括包含了相关査询概念和相关问题类型以
及查询概念和相关问题类型之一的隐式査询需求;
句法可理解查询需求扩展装置,用于基于知识库和相关度数据 库,形成与句法上可理解的显式查询需求中的查询概念相关度高的相 关查询概念集合,并利用知识库从相关查询概念集合中选择出满足预 定约束条件的至少一个相关查询概念与显式查询需求的问题类型组合 作为隐式查询需求;以及
句法不可理解查询需求扩展装置,用于利用语言库,检索与显 式查询需求中包含的问题类型相似的问题类型,禾B/或利用相关度数 据库和知识库,査找与显式査询需求中包含的未识别查询概念相似的 查询概念,从而获取了包括相似査询概念和/或相似问题类型的隐式 査询需求。
根据本发明第九方面,提供了一种用于扩展查询需求的方法, 包括
査询需求理解步骤,根据用户的査询请求生成显式查询需求;
以及
査询需求扩展步骤,生成与显式査询需求相关的隐式查询需求。
根据本发明第十方面,提供了一种用于扩展查询需求的方法,
其中
查询需求理解步骤包括通过对接收到的用户查询进行语义和句 法上的分析来生成显式査询需求的步骤;以及
查询需求扩展步骤包括通过查找需求相关数据库生成与显式查 询需求相关的隐式查询需求的步骤。
根据本发明第十一方面,提供了一种用于扩展査询需求的方 法,其中查询需求理解步骤包括通过查找知识库和语言库生成包括査 询概念和问题类型的显式査询需求的步骤;以及
查询需求扩展步骤包括通过查找知识库,语言库和相关度数据 库生成包括査询概念和问题类型的隐式查询需求的步骤。
根据本发明第十二方面,提供了一种用于扩展査询需求的方 法,其中查询需求扩展步骤包括下列步骤中至少之一
语义可理解查询需求扩展步骤,根据语义上可理解的显式查询 需求检索相关度数据库,获得与语义上可理解的查询需求相关的相关 查询需求集合,其中包括包含了相关査询概念和相关问题类型以及查 询概念和相关问题类型之一的隐式查询需求;
句法可理解查询需求扩展步骤,基于知识库和相关度数据库, 形成与句法上可理解的显式查询需求中的查询概念相关度高的相关查 询概念集合,并利用知识库从相关查询概念集合中选择出满足预定约 束条件的至少一个相关查询概念与显式查询需求的问题类型组合作为 隐式査询需求;以及
句法不可理解查询需求扩展步骤,利用语言库,检索与显式查
询需求中包含的问题类型相似的问题类型,禾n/或利用相关度数据库
和知识库,查找与显式査询需求中包含的未识别查询概念相似的查询 概念,从而获取包括相似查询概念和/或相似问题类型的隐式查询需 求。


图la是根据本发明的一个实施例的自然语言查询需求扩展设备的示 意图lb是需求相关数据库的一个示例;
图lc是根据本发明的一个实施例的自然语言查询需求扩展方法的流 程图2是根据本发明的自然语言查询需求扩展设备的示意图3(a)是根据本发明的知识库的示意图3(b)是根据本发明的知识库的层次结构示意图4是根据本发明的语言库的示意图5a是根据本发明的相关度数据库的示意图5b是根据本发明的相关度数据库生成装置的示意图5c是相关度数据库生成装置生成相关度数据库的方法的流程图6a是根据本发明的查询需求理解装置的示意图6b是根据本发明的査询需求理解方法的流程图6C是根据本发明进行査询需求理解的一个示例;
图7a是根据本发明的语义可理解査询需求扩展装置的示意图7b是根据本发明的语义可理解查询需求扩展方法的流程图8a是根据本发明的句法可理解查询需求扩展装置的示意图8b是根据本发明的句法可理解査询需求扩展方法的流程图9a是根据本发明的句法不可理解査询需求扩展装置的示意图9b是根据本发明的句法不可理解查询需求扩展方法的流程图10a—10c是三个示例;
图ll是根据本发明另一实施例的自然语言査询需求扩展设备的示意 图。
具体实施例方式
下面,将参考附图描述本发明的优选实施例。在附图中,相同的 元件将由相同的参考符号或数字表示。此外,在本发明的下列描述 中,将省略对已知功能和配置的具体描述,以避免使本发明的主题不 清楚。
图la示出根据本发明的一个实施例的自然语言查询需求扩展设 备。根据用户输入的査询请求,该自然语言査询需求扩展设备通过检 索需求相关数据库5生成隐式查询需求并生成相应的扩展答案。该自 然语言査询需求扩展设备包括用于接收用户的査询请求的查询接收器 1;査询需求理解装置2;检索位于自然语言査询需求扩展设备内部 或者外部的需求相关数据库生成隐式查询需求的査询需求扩展装置3 以及扩展答案生成装置4。
图lc示出了生成扩展答案的自然语言査询需求扩展方法的流程 图。在步骤1',查询接收器1接收来自用户的查询请求。在步骤 2',由查询需求理解装置2对显式査询需求查询请求进行语义和句 法上的分析,找出査询请求中包括显式查询需求包含的查询概念和问 题类型,作为用户的显式查询需求。查询需求理解装置2可以根据
启发式规则或机器学习的方法,来判定用户的显式査询需求所对应的 问题类型,然后将用户查询请求中的名词作为查询概念。首先需要确 定问题类型。目前主要有两种方法, 一种方法是通过手工总结的启发 式规则加以判定,另一种方法为问题自动分类。此外也可以采用本
发明图6c所示的方法来获取显式查询需求。
1) 启发式规则方法。根据用户查询请求中出现的疑问词及其他 词(动词、名词、副词、形容词等)来总结启发式规则。例如规则 "在/位于,哪里/哪儿+地址"表示用户査询请求中有"在"或 "位于",而且有"哪里"或"哪儿"时,问题类型通常为地址。例 如规则"如何/怎么,至lj/去/到达"> 路径"表示用户査询请求中有 "如何"或"怎么",而且有"到"或"去"或"到达"时,问题类 型通常为路径。
根据启发式规则,可以判定用户査询请求所对应的问题类型。
2) 自动分类方法。利用机器学习的方法将一个问题识别到一个 或多个语义类别中。主要方法有利用词作为特征项、利用句法信息以 及语义信息。但自动分类得到的结果不够准确,目前的自动分类方法 的准确率一般都小于90%。
在获取了问题类型之后,由査询需求理解装置2取出用户查询请求 中剩下的名词作为查询概念。
例如对于用户的查询请求"海龙大厦在哪里",其包含"哪 里",则根据启发式规则"在/位于,哪里/哪儿+地址",判定其问题 类型为地址,并且抽出名词"海龙大厦"作为概念。因此获得显式查 询需求为"海龙大厦;地址"。
在步骤3',根据获得的显式查询需求,首先由查询需求扩展装 置3根据用户查询中的查询概念及问题类型,分别检索需求相关数据 库5,得到相关的查询概念集合与问题类型集合。图lb示出了需求 相关数据库5的一个示例。该需求相关数据库5中存储了各个概念之 间的相关度,以及问题类型之间的相关度。之后,查询需求扩展装置 3将上面得到的相关查询概念与相关问题类型进行组合,生成相关査 询需求集合,并计算每个相关査询需求与当前査询需求间的相关度。 计算公式为需求"C1; t,和"C2; t2"间的相关度=(^和C2的相关 度^和t2的相关度,其中,d和C2是概念,t,和t2是问题类型。
可以按需求相关度来递减排序相关查询需求,将相关度大于某阈 值的相关查询需求作为最终的隐式查询需求。
例如对于显式查询需求"太平洋大厦;地址",其所有相关查询 需求为"海龙大厦;地址"(相关度0.85),"太平洋;地址"(相关度 0.6),"太平洋大厦;路径"(相关度0.9),"海龙大厦;路径"(相关 度0.765),"太平洋;路径"(相关度0.54)。若阈值取0.8,则最终的 隐式查询需求为"太平洋大厦;路径"和"海龙大厦;地址"。 最后在步骤4',根据隐式查询需求,来生成扩展答案。 可以由多种方法生成需求相关数据库5, (1)利用现有的词相似度 计算方法。基于Hownet、同义词林等现有的语义词典,计算词间的 相似度。(2)采用本发明图5c所示的生成方法。计算语义相关、统 计相关、字符串相似、服务相关,最后取平均值作为概念之间或问题 类型之间的相关度。例如"海龙大厦"和"中关村大街"的语义相关 度为l,统计相关度为0.7,则二者的相关度为(1+0.7)/2=0/85。
图2示出自然语言查询需求扩展设备的结构图。自然语言查询需 求扩展设备具有包括查询接收器101和答案发送器102的接收/发送 装置10,存储器20以及查询分析扩展装置30。在自然语言査询需 求扩展设备通过查询接收器101接收到用户的自然语言査询请求 时,将该自然语言査询请求传送到查询分析扩展装置30进行分析扩 展处理,得到隐式查询需求,并生成扩展的查询需求答案。之后将处 理后的查询需求扩展答案经过答案发送器102发送给用户。存储器 存储有知识库201,语言库202以及相关度数据库203。查询分析扩 展装置30包括用于判断用户的自然语言查询请求是语义可理解查 询需求、句法可理解查询需求还是句法不可理解查询需求的查询需求 理解装置301,用于生成隐式查询需求的语义可理解査询需求扩展装 置302、句法可理解查询需求扩展装置303、以及句法不可理解査询 需求扩展装置304以及利用隐式査询需求来检索语言库、知识库以 及信息数据库从而生成扩展的答案的扩展答案生成装置305。査询分
析扩展装置30利用知识库201,语言库202,相关度数据库203来 对自然语言查询进行扩展处理。
可以理解,虽然图2示出了知识库201,语言库202以及相关度 数据库203和信息库(未示出)设置在自然语言查询需求扩展设备 的内部,但是,可选的,知识库,语言库、相关度数据库以及信息库 也可以设置在自然语言査询需求扩展设备的外部。此外,自然语言查 询需求扩展设备还可以包括直接答案生成装置,可以根据用户的显式 査询需求直接生成相应的查询答案。从而,利用本发明的自然语言查 询需求扩展设备不但可以获得扩展的查询答案,而且可以获得用户的 直接的查询答案。
存储器20存储有知识库201,语言库202,相关度数据库203以及 信息数据库。其中,知识库201包括用于处理用户査询的语义知识。 语言库202包括用于理解用户查询的语言模型。相关度数据库203包 括用于扩展用户查询需求的相关性数据。信息数据库包括用于生成扩 展答案和直接答案的具体领域数据。查询分析扩展装置30基于知识 库、语言库以及相关度数据库可以从用户的自然语言查询中获得显式 査询需求,并分析出用户的扩展查询需求,从而向用户反馈更充分、 更完全的答案信息。下面将参考图3(a),图3(b),图4,图5a以及图5b 来分别对知识库201,语言库202以及相关度数据库203进行描述。之 后再对如何利用这些数据库进行自然语言查询需求扩展进行详细描 述。
1.知识库
图3(a)示出知识库的一个示例结构。知识库由一组领域知识库和 一个映射知识库组成。每个领域对应于一个领域知识库,用来记录该 领域的语义知识。例如地图领域对应于地图知识库,黄页领域对应于 黄页知识库。不同领域的知识并非完全孤立,它们经常存在许多关 联,由一个映射知识库来记录不同领域知识库的概念间的各种关联。
一般的,领域知识库包括三部分概念部分、属性部分和关系部分。
1)概念部分。概念部分包括该领域内所有的类别和个体。例如在地图知识库中,概念部分包含电子地图中示出的所有地理
类别和个体;类别用于描述各地点所属的类别,例如电子大厦、路都
是类别,个体用于描述电子地图上的一个具体地点,例如,海龙大 厦、中关村大街都是个体。
2) 属性部分。属性定义了概念的性质。例如,经度、纬度等。 每个属性都有一个项'类型'表明属性的取值类型。
3) 关系部分。关系部分描述了概念间的各种关联,如isa用来 描述类别间、个体与类别间的隶属关系,near用来描述个体间的空间 相邻关系。每个关系都有两个项"类型"和"性质"。"类型"表明关 系的取值类型,"性质"主要有两种传递性、对称性。若 R(x,y)&R(y,z)—R(x,z),贝lj R满足传递性,例如isa关系满足传递 性;若R(x,y)4R(y,x),贝U R满足对称性,例如near关系满足对称 性。
例如在地图知识库中,"isa(海龙大厦,电子大厦)"表示海龙大 厦是一个电子大厦;再如"near(海龙大厦,中关村大街)"表示中关 村大街在海龙大厦附近。
映射知识库只包含关系部分,具体包括同义映射关系部分、语言 映射关系部分和空间映射关系部分。
1) 同义映射关系部分。在同义词或縮略语之间进行映射。例如 "synonymous(海龙大厦,海龙电子大厦)"表示二者是同义词。
2) 语言映射关系部分。在同一概念的不同语言翻译之间进行映 射。例如"chinese-english(中关村大街,Zhongguancim Street),,表 示后者是前者的英文翻译。
3) 空间映射关系部分。在空间相关的概念之间进行映射。例如 "near(海龙大厦,320路公交车)"表示二者距离很近。
图3(b)示出知识库的一个层次结构图,其中,该层次结构是以各 领域知识库的概念部分中的概念为结点,以各领域知识库的关系部分 中的对应关系以及映射知识库中的对应关系为弧而自动生成的。
知识库的生成分为两个步骤
首先根据服务提供者提供的信息库,自动生成各领域知识库。其 方法为1)利用现有的信息提取算法,从信息库中抽取各个概念, 以形成包括类别和个体的概念部分;2)利用现有的信息提取算法,
从信息库中提取数据字段做为属性部分;3)利用现有的信息提取算
法,从信息库和语义词典中抽取概念之间的关系以形成包括类别间关 系、个体间关系以及类别与个体间关系的关系部分。例如对地图领 域,为了生成地图知识库,首先从电子地图数据库中抽取各个概念, 以形成概念部分,其中概念包括类别和个体。之后,从电子地图库中 抽取概念之间的隶属关系以形成关系部分,其中关系包括类别之间、 个体与类别之间以及个体与个体之间的隶属关系和空间关系。可以基
于现有的GIS平台所提供的功能进行上述处理。
其次根据各领域知识库中的概念,自动生成映射知识库。其方法

1) 根据同义词典和简称规则库生成同义映射关系部分。同义词 典包括概念及相关同义词,例如"银谷大厦,银谷电子大厦"表示 "银谷大厦"和"银谷电子大厦"是同义词。简称规则库包括各短语
的缩略语,例如"abbreviate(北京大学,北大)"表示"北京大学的 简称是北大"。根据简称规则可以判断两个概念是否同义,例如根据 abbreviate(北京大学,北大)"和"abbreviate(附属小学,附小)",可 以得到synonymous(北京大学附属小学,北大附小)。
2) 根据多语言词典生成语言映射关系部分。
3) 根据电子地图的GIS函数生成空间映射关系部分。
2.语言库
语言库包括用于理解用户查询的语言模型。语言库由领域查询语 言和公用查询语言组成。每个领域对应一个领域査询语言,例如路况 领域对应于路况领域查询语言,公交领域对应于公交领域查询语言, 黄页领域对应于黄页领域查询语言。公用查询语言总结了各领域査询 语言的共同的査询特征,它可以被各领域查询语言进行参数继承。领 域查询语言和公用查询语言的表示方法是一样的。 图4示出了语言库的一个示例。查询语言包括四部分问题类 型、继承、文法和动作。
① 问题类型部分。问题类型可以为任意字符串。例如"路况"。
② 继承部分。继承部分描述了该问题类型可以继承的文法,例如
"路况属性值查询( cate^各l桥,?A^各况)"表示"路况"的 文法可以通过对参数 cate和?A的赋值来继承问题类型"属性 值查询"的文法,即"< 0(路|桥)>[的]<路况>"也属于"路 况"的文法。
③ 文法部分。文法部分总结了关于该问题类型的所有可能的自然 语言查询,例如"〈 C(路l桥)x堵l拥堵l畅通〉"。文法部分由 一组文法词组成,例如"?C","堵","拥堵","畅通"。文法 部分中定义了一些特殊的符号-
* "| "指的是"或"逻辑运算。
* 〈 X(cons,l…lconSm)〉指X是一概念,conSi(i=l…m)是一个约 束条件,用于约束概念X的取值范围,consi—般是知识库中 的一个类别,此处X只能被知识库中属于任意一个类别COnSi 的个体来代替,即X需要满足isa(X, consi)。例如,〈 C(路I 桥)>只能被知识库中的路或桥的个体(如中关村大街)来代 替。
* "[]"指的是在"["和"]"中间的内容可有可无。
④ 动作部分。动作部分定义了该问题类型对应的査询动作,用于 指明"当用户查询符合该问题类型的定义时,生成什么样的查 询动作",例如"路况查询( C)"。查询动作提供对用户查询的 理解结果,可以由答案生成装置来执行。
语言库的生成分为两个步骤-
首先,针对每个领域,收集各领域的用户可能的査询句子,并利 用现有的句子相似度计算方法,计算各査询句子间的相似度,按相似 度聚类,生成领域査询语言的文法部分。其次对每种文法,人工定义 其问题类型和动作部分。例如根据"路况领域"中的查询句子"联想
桥堵吗","北四环拥堵吗","学院路畅通吗"可得到问题类型"路 况"的文法"< (3(路|桥)〉<堵|拥堵|畅通>"("吗"是语气词不计 入)。
其次,计算各领域査询语言的文法部分的相似度,抽取公用查询 语言,并生成相应领域查询语言的继承部分。例如根据"路况"文法
"< <:(路|桥)>[的]<路况>"和"地址"文法"< (3(地点)>[的]<地址
>",可得到"属性值查询"的文法"〈C( cate)〉卜的y〈 A〉",而 "路况"文法的继承部分则为"属性值査询( cate-路l桥,?A-路 况)"。
3.相关度数据库 图5a示出了相关度数据库的一个示例。相关度数据库中记录了 所有对象(知识库中的概念、语言库中的问题类型)之间的相关性的 相关度数据。主要考虑四种相关性-
a. 语义相关。表示不同概念之间的语义相关性。例如概念"海 龙大厦"与"中关村大街"都是地点,且有空间邻近关系,则二者语 义相关。具有语义相关性的两个概念既可以是个体,也可以是类别。
b. 统计相关。表示不同概念在统计意义上的相关性。例如"海 龙大厦"与"中关村大街"在文本中经常一起出现,则二者统计相 关。
c. 字符串相似。表示不同词语在描述形式上的相似性。例如 "太平洋"与"太平洋大厦"在词语描述形式上相关,"太平洋"是 "太平洋大厦"的子串,而"海龙"是"海龙大厦"的子串,所以, ."太平洋"与"太平洋大厦","海龙"与"海龙大厦"字符串相似。
d. 服务相关。表示不同问题类型所提供的服务的相关性。例如 "地址"和"路径"都是关于位置服务的,所以"地址"和"路径"
服务相关。
图5b示出了相关度数据库生成装置的示意结构图。该相关度数 据库生成装置包括利用知识库来生成语义相关性数据的语义相关度 计算装置42,利用语料库生成统计相关性数据的统计相关度计算装
置44,根据通用词典生成字符串相似性数据的字符串相似度计算装
置46以及分析用户查询日志,生成服务相关性数据的服务相关度计 算装置48。
图5c是相关度数据库生成装置生成相关度数据库的方法的流程。
在S401,语义相关度计算装置42基于知识库计算不同概念之间 的语义相关度。参考图3(b),图3(b)中示出了以概念为结点,关系为 弧形成的知识库的结构层次图。而不同概念之间的语义相关度可以由 它们之间的最短路径来衡量,概念之间的最短路径越短,说明语义越 相关。
语义相关度的计算公式如下
语义相关度=Len(Minkfc(x,y)) ")
其中Len(MinPath(x,y))为x与y之间的最短路径长度,即从x 到y之间的最少弧数。例如图3(b)中"海龙大厦"与"中关村大街" 间的最短路径为"海龙大厦-Near-中关村大街",它们之间只有一条 弧,故最短路径长度为1,因此"海龙大厦"和"中关村大街"的语 义相关度为1。
在S402,统计相关度计算装置44计算统计相关度。通过对语料 库进行统计来计算两个概念的互信息。本发明所使用的语料库包含从 web上收集来的大约2,000,000个网页。互信息是信息论中的测度, 用来衡量两个事件的关联程度。概念间的互信息越高,说明统计越相 关。统计相关度的计算公式如下
统计相关度二log 2T^T (2)
其中P(x,y)为x和y共同出现的概率,P(x)和P(y)分别为x和y 独立出现的概率。例如"海龙大厦"与"中关村"共同出现的概率为 0.98,分别出现的概率为0.14,则"海龙大厦"与"中关村"的统计 相关度为0.7。
在S403,字符串相似度计算装置46计算字符串相似度。本发明
使用一个公知的通用词典,其中存放了所有常见的词语(包括知识库 中的所有概念),然后开始计算通用词典中各词间的字符串相似度。 可以采用基于公知的编辑距离方法来求出字符串的相似度,即,要使 两个概念串变成一样,需要多少次字符的替换、插入或删除操作。操 作次数越少,字符串相似度越高。
字符串相似度的计算公式如下
<formula>formula see original document page 29</formula> (3)
其中D(x,y)为使x与y相同的最少操作次数, Max(Len(x),Len(y))为x和y的字符串长度的最大值。例如在"太平 洋"结尾插入两个字符,即可变成"太平洋大厦",因此"太平洋" 和"太平洋大厦"的字符串相似度为1—2/5 = 0.6。
在S404,服务相关度计算装置48计算服务相关度。已经记录了 所有用户的查询日志,每个用户的査询日志包括该用户提交过的所有 查询及对应的查询需求。服务相关度计算装置48对所有用户的查询 日志进行分析,求出各查询的问题类型被用户连续询问的频度。两个 问题类型越常被用户连续询问,则二者服务越相关。服务相关度计算 公式如下<formula>formula see original document page 29</formula>
(4)
上式表示用户上次查询的问题类型是x时,下次查询的问题类型 是y的概率。例如用户在问完某地点的地址后,经常会接着问如何到 达该地点,因此,说明"地址"问题类型和"路径"问题类型的服务 相关度很高,经计算得到"地址"和"路径"的服务相关度为0.9。
图6a示出查询需求理解装置的结构图。查询需求理解装置 301包括分词单元3011,与分词单元连接的匹配单元3012,与匹配 单元连接的语义一致性判断单元3013,与语义一致性判断单元连接 的显式查询需求生成单元3014以及与显式査询需求生成单元连接的 需求类型判断单元3015。分词单元3011通过查找知识库201中各领 域知识库的概念部分、语言库202中各领域查询语言和公用査询语
言的文法部分,对用户查询进行分词。匹配单元3012用于将分词后 的用户查询,与语言库进行匹配。语义一致性判断单元3013用于基 于知识库201中各领域知识库的关系部分,判断用户査询中的概念 是否满足问题类型对应的文法中定义的概念约束。显式查询需求生成 单元3014根据匹配文法,获得与之对应的问题类型,并将查询概念 与问题类型组合形成显式査询需求。需求类型判断单元3015用于判 断用户査询所属的需求类型语义可理解、句法可理解还是句法不可 理解。
图6b示出查询需求理解装置执行查询需求理解的流程图。在 S50,分词单元3011通过查找知识库201中各领域知识库的概念部 分、语言库202中各领域查询语言和公用查询语言的文法部分,对 用户查询进行分词。
例如用户查询"海龙大厦堵吗?"的分词结果为"海龙大厦; 堵",其中"海龙大厦"是地图知识库中的个体,"堵"是路况领域査 询语言中的文法词。
在S52,匹配单元3012将分词后的用户查询,与语言库进行匹 配,以找到与用户査询相匹配的文法。匹配顺序为先匹配公用査询 语言,若有匹配文法,则再参数匹配可继承该文法的领域查询语言, 若没有可匹配的公用查询语言,则直接匹配各领域查询语言。
例如将用户查询"海龙大厦的路况"(其分词结果为"海龙大 厦;的;路况")与语言库匹配的过程为先匹配公用査询语言,其 匹配结果为"属性值查询〈C( cate)〉卜的〉]〈A〉";再继续匹配继
承"属性值查询"的领域查询语言,其匹配结果为"路况属性值查
询(?cate-路l桥,?A:路况)"。
再如将用户查询"海龙大厦堵吗?"与语言库匹配的结果为 "路况< <:(路|桥)><堵|拥堵|畅通>"。
在S54,语义一致性判断单元3013基于知识库201中各领域知 识库的关系部分,判断用户査询中的概念是否满足所匹配文法中定义 的概念约束。约束判断方法为根据isa关系判断用户査询中的概念C 是否满足文法中定义的概念约束"cons小..Icons:之一,即是否有
isa(C, consi),其中i=l...m,若不满足则用户查询存在语义错误(例 如,可以使用图3 (b)所示的层次关系图来帮助进行判断)。例如对 于用户查询"海龙大厦堵吗?",查询概念为"海龙大厦",匹配文法 中的相应概念约束为"路l桥",但由于不存在isa(海龙大厦,路)和 isa(海龙大厦,桥),因此语义一致性判断单元判断出用户査询中存在 语义错误。
在S56,显式查询需求生成单元3014根据匹配文法得到查询概 念及相应的问题类型,并生成显式査询需求。显式査询需求由查询概 念及问题类型组成。参考图6c的示例,从用户查询"海龙大厦堵 吗?"中提取出显式查询需求"海龙大厦;路况"。
在S58,需求类型判断单元3015根据显式査询需求,利用下述 方法来判断该显式査询需求属于下列三种类型中的哪一种语义可理 解、句法可理解或句法不可理解。
① 判断查询概念是否认识。查找知识库,看各查询概念是否在知 识库中某领域知识库的概念部分中。若显式査询需求中没有査 询概念,则认为存在不认识的查询概念。
② 判断问题类型是否认识。査找语言库,看是否在其中。若显式 査询需求中的问题类型为空,则认为存在不认识的问题类型。
③ 判断语义一致性。先根据问题类型,查找语言库,找到问题类 型对应的文法中定义的概念约束;然后基于知识库,判断显式 査询需求中的概念是否满足上述概念约束。约束判断方法与语 义一致性判断单元3013中的约束判断方法相同。
④ 需求类型判断。根据以上模块的执行情况,判断用户査询所属 的类型。
*若需求类型判断单元认识所有概念和问题类型,且无语义错
误,则为语义可理解查询; *若需求类型判断单元认识所有概念和问题类型,但存在语义错
误,则认为是句法可理解查询; *若需求类型判断单元有不认识的概念和/或问题类型,则认为
是句法不理解查询。
对于图6C的示例的用户查询"海龙大厦堵吗?",需求类型判断
单元3015判断其类型为句法可理解查询。
图7a是根据本发明的语义可理解査询需求扩展装置的一个示例
结构图。语义可理解查询需求扩展装置利用用户语义上可理解的査询 需求,获得其隐式査询需求。该语义可理解查询需求扩展装置包括 相关问题类型获取单元3021,用于通过査找相关度数据库获取与用 户的当前查询的问题类型间服务相关度高的问题类型,作为检索到的 相关问题类型集合;相关查询概念获取单元3022,用于在相关问题 类型获取单元未获取到相关问题类型时,査找相关度数据库,获取与 当前査询的概念的相关度高的概念,作为检索到的相关查询概念集 合;相关査询需求筛选单元3023,用于将相关査询概念集合和相关
问题类型集合相互组合得到相关查询需求集合,并查找知识库和语言 库,去除语义错误的相关查询需求;以及査询需求扩展生成单元 3024,用于计算生成的相关查询需求与用户的当前査询之间的相关 度,并选择相关度高的相关査询需求作为用户的扩展査询。
图7b示出了语义可理解查询的需求扩展过程。首先,在S601, 由相关问题类型获取单元3021获取相关问题类型。相关问题类型获 取单元3021针对显式查询需求所包括的问题类型,检索相关度数据 库中的服务相关性数据,获取与显式查询需求的问题类型之间的服务 相关度高的问题类型集合,作为相关问题类型集合。
在S602,如果没有检索到较为相关的问题类型,则针对显式査 询需求所述的查询概念,相关査询概念获取单元3022检索相关度数 据库中的语义相关性数据和统计相关性数据,获取与显式査询需求所 述查询概念之间相关度高的所有概念,作为相关查询概念集合。
在S603,相关查询需求筛选单元3023筛选出有用的相关査询需 求。首先根据上面得到的相关查询概念集合和相关问题类型集合,将 其两两组合得到相关查询需求集合,其中,相关查询需求由相关查询 概念和相关问题类型组成。其次,相关査询需求筛选单元3023通过 査找知识库和语言库,检査每个相关查询需求中的概念是否满足该相 关査询需求中的问题类型在语言库中定义的概念约束,若不满足,则
说吸该相关查询需求有语义错误,需要将其删除。其中,相关査询需
求筛选单元3023所采用的概念约束判断方法与査询需求理解装置所
采用的概念约束判断方法一样。
最后,在S604,查询需求扩展生成单元3024对于筛选得到的 各个相关査询需求,计算其与用户显式査询需求之间的相关度,其值 等于相关查询需求所述概念与显式查询需求所述概念间的相关度以及 相关查询需求所述问题类型与显式查询需求所述问题类型间的相关度 之和。之后,査询需求扩展生成单元3024根据相关度大小对相关査 询需求进行排序,选取相关度高的相关查询需求,作为隐式查询需 求。隐式査询需求可以是多个。
例如对用户查询"海龙大厦在哪里?",其显式査询需求为"海 龙大厦;地址",由于问题类型"地址"和"路径"之间的服务相关 度很高,而且海龙大厦也符合路径的文法"<如何|怎样|怎么><去闺| 到达x C(地点)〉"中的概念约束"地点"。因此可生成扩展查询 "海龙大厦;路径"。
此外,相关问题类型获取单元3021也可以在S601之后,将 获取的相关问题类型与显式査询需求所包括的概念组合,作为隐式查 询需求。图8a示出了句法可理解查询需求扩展装置的示意图。句法 可理解查询需求扩展装置基于用户的显式查询需求利用用户的句法可 理解的查询,对其查询进行扩展。句法可理解查询需求扩展装置303 包括通过检索语言库,获取显式查询需求的查询概念属于知识库中的 何种类别的概念约束获取单元3031,利用相关度数据库中的语义相 关性数据和统计相关性数据,获得与显式査询需求的查询概念相关的 概念的相关査询概念获取单元3032以及将相关査询概念与显式查询 需求的问题类型组合生成隐式查询需求的查询需求扩展生成单元 3033。
图8b示出了句法可理解查询需求扩展装置执行句法可理解査询 需求扩展的流程图。
在S701,概念约束获取单元3031根据显式査询需求的问题类 型,检索语言库,从而提取出该问题类型对应的文法中定义的概念约
束,即用户查询概念应该隶属于知识库中的哪些类别。相关査询概念
获取单元3032基于知识库和相关度数据库,获取与显式査询需求的 査询概念相关的概念。相关查询概念获取单元3032根据显式查询需 求的查询概念,检索相关度数据库中的语义相关性数据和统计相关性 数据,找到与显式査询需求的査询概念之间相关度高的所有概念的集 合。之后,相关査询概念获取单元3032基于概念约束获取单元得到 的概念约束,通过查找知识库,筛选出满足约束的相关查询概念。相 关査询概念获取单元所采用的概念约束判断方法与查询需求理解装置 所采用的概念约束判断方法相同。
在S703,査询需求扩展生成单元3033根据获取的相关查询概 念,与显式査询需求的匹配问题类型组合生成隐式査询需求。
例如对用户查询"海龙大厦堵吗?",其显式査询需求为"海龙 大厦;路况",其中查询概念"海龙大厦"不满足问题类型"路况" 对应的文法中定义的概念约束"路l桥",而与"海龙大厦"在语义和 统计上都相关的概念"中关村大街"是一条路,符合约束"路l桥", 因此可生成隐式查询需求"中关村大街;路况"。
图9a是根据本发明的句法不可理解查询需求扩展装置的示意 图。句法不可理解查询需求扩展装置对于句法不理解的査询,根据用 户的显式査询需求,利用相关度数据库中的字符串相似数据获得其隐 式查询需求。句法不可理解查询需求扩展装置包括用于通过检索语言 库,获取与用户查询相似的问题类型的相似问题类型获取单元 3041;用于对用户査询中未识别的概念,通过知识库和语言库,猜 测该未识别概念的含义的概念含义猜测单元3042;根据相关度数据 库中的字符串相似数据以及知识库,获取与未识别概念相似的概念的 相似查询概念获取单元3043;以及生成隐式查询需求的查询需求扩 展生成单元3044。
图9b示出了句法不可理解查询需求扩展装置执行的句法不可理 解查询需求扩展方法的流程图。如果查询需求理解装置301既不认 识显式查询需求中的概念,也不认识显式査询需求中的问题类型,则 在S801,相似问题类型获取单元3041根据查询需求理解装置对用户 査询的分词结果,检索语言库,以从中检索到与用户查询最相似的文 法,并提取出与该文法对应的问题类型作为相似问题类型。
在S802,概念含义猜测单元3042对于用户查询中未识别的概 念,利用基于上下文的概念含义以及基于文法约束的概念含义来猜测 未识别概念所隶属的类别。其中,基于上下文的概念含义猜测包括 对于用户查询中出现的每个词,概念含义猜测单元3042在知识库中 进行查找。若该词在知识库中出现,而且从知识库中找到了与该词有 语义关系的类别,则可以猜测未识别概念与该类别之间可能也存在着
某种语义关联。基于文法约束的概念含义猜测包括根据由相似问题
类型获取单元3041得到的相似问题类型,由概念含义猜测单元3042 检索语言库,从而提取出该问题类型对应的文法中定义的概念约束, 即用户査询概念应该隶属于知识库中的哪些类别,则未识别概念可能 也隶属于这些类别。然后,概念含义猜测单元3042综合基于上下文 的概念含义猜测结果以及基于文法约束的概念含义猜测结果,求其交 集,从而得到未识概念应属的类别。
在S803,相似查询概念获取单元3043根据相关度数据库和知识 库,获取与未识别概念相似的概念。首先,相似查询概念获取单元 3043基于相关度数据库中的字符串相似数据,获取所有与未识别概 念之间字符串相似度较高的概念;之后如果概念含义猜测单元猜测出 了未识概念应属的类别,那么这里需要从所有字符串相似的概念中, 筛选出符合步骤S802获得的类别的概念。约束判断方法与查询需求 理解装置所采用的约束判断方法相同。
在S804,査询需求扩展生成单元3044根据上面得到的相似概念
和相似问题类型,组合生成隐式査询需求。
例如对用户查询"我想买台电脑,怎么去太平洋?",系统不认 识"太平洋",也没有可匹配的査询问题类型。首先,找到与用户査 询相似的文法"文法: <如何|怎样|怎么><去|到闺达>< 0(地点)>", 并取出该文法对应的问题类型"路径";其次,猜测"太平洋"的含 义,从图3(b)所示的知识库中可以看出,"电子大厦"与用户查询中 的词"电脑"有关系"sdl(电子大厦,电脑)",而且相似问题类型
"路径"对应文法中的概念约束为"地点",而且"isa(电子大厦, 地点)",因此可以猜测"太平洋"属于类别"电子大厦";然后,获 取相似概念,从图6a中可以发现"太平洋"与"太平洋大厦"字符 串相似,并且从图3(b)中可以看出"太平洋大厦"也属于类别"电子 大厦",因此我们将"太平洋大厦"作为相似概念;最后,生成隐式 査询需求"太平洋大厦;路径"。
如果查询需求理解装置301不认识显式査询需求中的概念,但 认识显式查询需求中的问题类型,则概念含义猜测单元3042对于用 户査询中未识别的概念,利用基于上下文的概念含义以及基于文法约 束的概念含义来猜测未识别概念所隶属的类别。相似査询概念获取单 元3043基于相关度数据库中的字符串相似数据,获取所有与未识别 概念之间字符串相似度较高的概念,作为相似概念。如果概念含义猜 测单元3042猜测出未识别概念应属的类别,那么需要从所有字符串 相似的概念中,筛选出符合所获得的类别的概念。约束判断方法与査 询需求理解装置所采用的约束判断方法相同。
之后,由查询需求扩展生成单元3044将得到的相似概念和显式 査询需求中的问题类型进行组合生成隐式查询需求。
如果査询需求理解装置301不认识显式査询需求中的问题类 型,但认识显式查询需求中的概念,则相似问题类型获取单元3041 根据查询需求理解装置对用户查询的分词结果,检索语言库,以从中 检索到与用户查询最相似的文法,并提取出与该文法对应的问题类型 作为相似问题类型。之后,由查询需求扩展生成单元3044将得到的 相似问题类型和显式查询需求中的概念进行组合生成隐式査询需求。
在对用户的査询进行了语义可理解查询、句法可理解查询以及句 法不可理解查询处理之后,扩展答案生成装置305生成与隐式查询
需求对应的扩展答案。具体步骤包括首先,根据隐式査询需求中的 问题类型,检索语言库,得到该问题类型对应的查询动作,再将隐式 查询需求中的查询概念替换到查询动作的相应位置,从而生成隐式査 询需求所对应的具体动作;然后根据具体动作来检索知识库及后台信 息库,从而得到相应的答案信息,具体实现方法取决于具体的服务领
域和信息库的格式,这里可以使用公知的方法,具体不再赘述。例
如,对于扩展査询需求"海龙大厦;路径",其中路径问题类型的查 询动作为"路径査询( C)",将"?C"替换为"海龙大厦"后,得到 对应的具体动作"路径查询(海龙大厦)",然后经检索得到答案"320 路公交车可以到海龙大厦"。
在对用户的查询进行了查询需求理解之后,直接答案生成装置生 成与显式査询需求直接对应的答案。具体步骤包括若用户査询属于 语义可理解査询,则根据显式查询需求检索语言库、知识库及后台信 息库,从而生成相应答案,具体检索和生成方法与扩展答案生成的方 法相同;若用户査询属于句法可理解查询或句法不可理解査询,则生 成相应的错误提示信息。例如对于显式查询需求"海龙大厦,路 况",属于句法可理解査询,系统生成直接答案"海龙大厦不是路或 桥,系统找不到它的路况信息"。
图10a—10c分别示出了如何利用知识库、语言库以及相关度数 据库进行语义可理解查询、句法可理解査询以及句法不可理解查询的 三个示例。
图11示出根据本发明另一实施例的自然语言查询需求扩展设备 的示意图。与图2所示的自然语言査询需求扩展设备比较,图11示 出的自然语言査询需求扩展设备不包括句法可理解查询需求扩展装置 和句法不可查询需求扩展装置。出于清楚描述的目的,省略了对上述 装置的类似的描述。此外,虽然图11示出了知识库201,语言库 202以及相关度数据库203设置在自然语言査询需求扩展设备的内 部,但是,可选的,知识库可以设置在自然语言查询需求扩展设备的 外部。以及,自然语言查询需求扩展设备可以仅包括语义可理解查询 需求扩展装置、句法可理解查询需求扩展装置和句法不可査询需求扩 展装置中的至少之一。
根据本发明另一实施例,自然语言査询需求扩展设备也可以只包 括句法可理解査询需求扩展装置或者句法不可理解查询需求扩展装 置。
以及,可以理解的,虽然以中文路况查询为例,示出了路况查 询的扩展处理,但是发明的查询需求扩展设备还可以应用于信息检 索、智能教学、推荐系统等。以及对于本领域技术人员显而易见的是 本发明也可以用于其它语言的路况查询的扩展处理,例如,英语和曰 语等。
尽管已经结合示例描述了本发明,本领域的技术人员可以理解的 是,在不偏离本发明的原理和精神的前提下,可以在本实施例中进行 改变,本发明的范围由所附权利要求及其等价物限定。
权利要求
1.一种查询需求扩展设备,包括查询需求理解装置,用于根据用户的查询请求生成显式查询需求;以及查询需求扩展装置,用于生成与显式查询需求相关的隐式查询需求。
2. 如权利要求l所述的査询需求扩展设备,其中 查询需求理解装置通过对接收到的用户查询进行语义和句法上的分析来生成显式查询需求;以及查询需求扩展装置通过查找位于所述设备内部或外部的需求相 关数据库生成与显式查询需求相关的隐式查询需求。
3. 如权利要求l所述的查询需求扩展设备,其中 查询需求理解装置通过查找知识库和语言库生成包括査询概念和问题类型的显式查询需求;以及查询需求扩展装置通过查找知识库,语言库和相关度数据库生 成包括查询概念和问题类型的隐式查询需求。
4. 如权利要求3所述的査询需求扩展设备,其中査询需求理解装置包括分词单元,用于根据知识库和语言库,对用户查询进行分词; 匹配单元,用于将分词的用户查询与语言库进行匹配,以找到 匹配文法;语义一致性判断单元,用于根据知识库和语言库,判断用户查 询中的概念是否有语义错误;显式查询需求生成单元,用于根据匹配文法,生成与其对应 的、包括查询概念和问题类型的显式查询需求;需求类型判断单元,用于根据知识库和语言库,判断显式査询 需求属于下列三种类型中的哪一种语义可理解、句法可理解或句法 不可理解。
5. 如权利要求3或4所述的查询需求扩展设备,其中查询需求扩 展装置包括-语义可理解查询需求扩展装置,用于根据语义上可理解的显式 查询需求检索相关度数据库,获得与语义上可理解的查询需求相关的 相关查询需求集合,其中包括包含了相关查询概念和相关问题类型以 及查询概念和相关问题类型之一的隐式查询需求。
6. 如权利要求5所述的查询需求扩展设备,其中语义可理解查询需求扩展装置包括相关问题类型获取单元,用于通过查找相关度数据库获取与显 式查询需求的问题类型间服务相关度高的问题类型,作为检索到的相 关问题类型集合;相关査询概念获取单元,用于查找相关度数据库,获取与显式 查询需求的査询概念相关度高的概念,作为检索到的相关查询概念集合.相关査询需求筛选单元,用于将相关查询概念集合和相关问题 类型集合相互组合得到相关査询需求集合,并查找知识库和语言库,去除语义错误的相关查询需求;以及査询需求扩展生成单元,用于计算生成的相关査询需求与显式 查询需求之间的相关度,并选择相关度高的相关查询需求作为隐式査 询需求。
7.如权利要求6所述的查询需求扩展设备,其中査询需求扩展生成单元分别计算相关查询概念和查询概念之间 的第一相关度以及相关问题类型和问题类型之间的第二相关度,并对 第一相关度和第二相关度求和,从而得到相关查询需求与显式查询需 求之间的相关度,其中相关查询需求包括相关查询概念和相关问题类 型,显式查询需求包括查询概念和问题类型。
8.如权利要求3或4所述的査询需求扩展设备,其中查询需求 扩展装置包括句法可理解查询需求扩展装置,用于基于知识库和相关度数据 库,形成与句法上可理解的显式查询需求中的査询概念相关度高的相关查询概念集合,并利用知识库从相关查询概念集合中选择出满足预 定约束条件的至少一个相关查询概念与显式查询需求的问题类型组合 作为隐式查询需求。
9. 如权利要求8所述的查询需求扩展设备,其中句法可理解查询需求扩展装置包括概念约束获取单元,用于根据显式査询需求所包括的问题类 型,检索语言库,提取与问题类型对应的文法中定义的概念约束作为 约束条件;相关査询概念获取单元,用于利用相关度数据库获取与显式查 询需求中所包括的査询概念之间相关度高的概念,并基于从概念约束 获取单元获取的约束条件查找知识库,以选择出满足约束条件的相关 查询概念;以及查询需求扩展生成单元,用于将相关査询概念与显式查询需求 中的问题类型组合生成隐式査询需求。
10. 如权利要求3或4所述的查询需求扩展设备,其中查询需 求扩展装置包括句法不可理解查询需求扩展装置,用于利用语言库,检索与显 式査询需求中包含的问题类型相似的问题类型,和/或利用相关度数 据库和知识库,查找与显式査询需求中包含的未识别查询概念相似的 查询概念,从而获取包括相似查询概念和/或相似问题类型的隐式查询需求。
11. 如权利要求io所述的查询需求扩展设备,其中句法不可理解查询需求扩展装置包括-相似问题类型获取单元,用于通过检索语言库,获取与显式查询需求中包含的问题类型相似的相似问题类型;相似查询概念获取单元,用于根据相关度数据库中的字符串相似 数据获取与未识别的查询概念之间字符串相似的查询概念,作为相似 查询概念;以及查询需求扩展生成单元,用于组合相似查询概念和相似问题类 型,并生成隐式查询需求。
12. 如权利要求ll所述的査询需求扩展设备,其中句法不可理 解査询需求扩展装置还包括与相似问题类型获取单元连接的概念含义猜测单元,用于通过知 识库和与相似问题类型对应的文法中定义的概念约束,猜测未识别查 询概念所属的类别;以及其中相似查询概念获取单元用于从具有和未识别査询概念相似 的字符串的概念中选择属于同一猜测类别的概念作为相似概念。
13. 如权利要求3或4所述的査询需求扩展设备,其中査询需 求扩展装置包括语义可理解查询需求扩展装置,用于根据语义上可理解的显式 查询需求检索相关度数据库,获得与语义上可理解的查询需求相关的 相关査询需求集合,其中包括包含了相关査询概念和相关问题类型以及査询概念和相关问题类型之一的隐式査询需求;以及句法可理解查询需求扩展装置,用于基于知识库和相关度数据 库,形成与句法上可理解的显式查询需求中的查询概念相关度高的相 关查询概念集合,并利用知识库从相关査询概念集合中选择出满足预 定约束条件的至少一个相关査询概念与显式查询需求的问题类型组合 作为隐式查询需求。
14. 如权利要求13所述的查询需求扩展设备,其中语义可理解查询需求扩展装置包括相关问题类型获取单元,用于通过查找相关度数据库获取与显 式查询需求的问题类型间服务相关度高的问题类型,作为检索到的相关问题类型集合;相关查询概念获取单元,用于査找相关度数据库,获取与显式査询需求的査询概念相关度高的概念,作为检索到的相关査询概念集 合,相关査询需求筛选单元,用于将相关査询概念集合和相关问题 类型集合相互组合得到相关查询需求集合,并查找知识库和语言库, 去除语义错误的相关查询需求;以及查询需求扩展生成单元,用于计算生成的相关查询需求与显式査询需求之间的相关度,并选择相关度高的相关査询需求作为隐式査 询需求。
15. 如权利要求14所述的查询需求扩展设备,其中 查询需求扩展生成单元分别计算相关查询概念和查询概念之间的第一相关度以及相关问题类型和问题类型之间的第二相关度,并对 第一相关度和第二相关度求和,从而得到相关査询需求与显式査询需 求之间的相关度,其中相关查询需求包括相关査询概念和相关问题类 型,显式査询需求包括査询概念和问题类型。
16. 如权利要求13所述的查询需求扩展设备,其中句法可理解查询需求扩展装置包括-概念约束获取单元,用于根据显式查询需求所包括的问题类 型,检索语言库,提取与问题类型对应的文法中定义的概念约束作为 约束条件;相关查询概念获取单元,用于利用相关度数据库获取与显式查 询需求中所包括的查询概念之间相关度高的概念,并基于从概念约束 获取单元获取的约束条件查找知识库,以选择出满足约束条件的相关 查询概念;以及査询需求扩展生成单元,用于将相关查询概念与显式查询需求 中的问题类型组合生成隐式查询需求。
17. 如权利要求3或4所述的査询需求扩展设备,其中査询需求 扩展装置包括语义可理解查询需求扩展装置,用于根据语义上可理解的显式 査询需求检索相关度数据库,获得与语义上可理解的查询需求相关的 相关査询需求集合,其中包括包含了相关查询概念和相关问题类型以 及査询概念和相关问题类型之一的隐式查询需求;以及句法不可理解查询需求扩展装置,用于利用语言库,检索与显 式查询需求中包含的问题类型相似的问题类型,和/或利用相关度数 据库和知识库,查找与显式查询需求中包含的未识别查询概念相似的 查询概念,从而获取包括相似査询概念和/或相似问题类型的隐式查 询需求。
18. 如权利要求17所述的查询需求扩展设备,其中语义可理解 査询需求扩展装置包括相关问题类型获取单元,用于通过査找相关度数据库获取与显 式查询需求的问题类型间服务相关度高的问题类型,作为检索到的相 关问题类型集合;相关查询概念获取单元,用于查找相关度数据库,获取与显式 査询需求的查询概念相关度高的概念,作为检索到的相关查询概念集 合.相关查询需求筛选单元,用于将相关查询概念集合和相关问题 类型集合相互组合得到相关查询需求集合,并査找知识库和语言库,去除语义错误的相关查询需求;以及查询需求扩展生成单元,用于计算生成的相关查询需求与显式 查询需求之间的相关度,并选择相关度高的相关查询需求作为隐式査 询需求。
19. 如权利要求18所述的查询需求扩展设备,其中 查询需求扩展生成单元分别计算相关查询概念和査询概念之间的第一相关度以及相关问题类型和问题类型之间的第二相关度,并对 第一相关度和第二相关度求和,从而得到相关査询需求与显式査询需 求之间的相关度,其中相关查询需求包括相关查询概念和相关问题类 型,显式查询需求包括查询概念和问题类型。
20. 如权利要求17所述的查询需求扩展设备,其中句法不可理 解查询需求扩展装置包括相似问题类型获取单元,用于通过检索语言库,获取与显式查询 需求中包含的问题类型相似的相似问题类型;相似查询概念获取单元,用于根据相关度数据库中的字符串相似 数据获取与未识别的查询概念之间字符串相似的查询概念,作为相似 査询概念;以及查询需求扩展生成单元,用于组合相似查询概念和相似问题类型,并生成隐式査询需求。
21. 如权利要求20所述的查询需求扩展设备,其中句法不可理解查询需求扩展装置还包括与相似问题类型获取单元连接的概念含义猜测单元,用于通过知 识库和与相似问题类型对应的文法中定义的概念约束,猜测未识别查 询概念所属的类别;以及其中相似査询概念获取单元用于从具有和未识别査询概念相似 的字符串的概念中选择属于同一猜测类别的概念作为相似概念。
22. 如权利要求3或4所述的查询需求扩展设备,其中查询需求扩展装置包括句法可理解查询需求扩展装置,用于基于知识库和相关度数据 库,形成与句法上可理解的显式查询需求中的查询概念相关度高的相 关查询概念集合,并利用知识库从相关查询概念集合中选择出满足预 定约束条件的至少一个相关査询概念与显式査询需求的问题类型组合作为隐式查询需求;以及句法不可理解査询需求扩展装置,用于利用语言库,检索与显式 査询需求中包含的问题类型相似的问题类型,和/或利用相关度数据 库和知识库,査找与显式査询需求中包含的未识别查询概念相似的查 询概念,从而获取包括相似査询概念和/或相似问题类型的隐式查询需求。
23. 如权利要求22所述的查询需求扩展设备,其中句法可理解查询需求扩展装置包括概念约束获取单元,用于根据显式查询需求所包括的问题类型,检索语言库,提取由文法所定义的约束条件;相关査询概念获取单元,用于利用相关度数据库获取与显式査 询需求中所包括的査询概念之间相关度高的概念,并基于从概念约束 获取单元获取的约束条件查找知识库,以选择出满足约束条件的相关 查询概念;以及査询需求扩展生成单元,用于将相关査询概念与显式査询需求 中的问题类型组合生成隐式査询需求。
24. 如权利要求22所述的查询需求扩展设备,其中句法不可理 解查询需求扩展装置包括 相似问题类型获取单元,用于通过检索语言库,获取与显式査询需求中包含的问题类型相似的相似问题类型; —相似查询概念获取单元,用于根据相关度数据库中的字符串相似 数据获取与未识别的查询概念之间字符串相似的查询概念,作为相似査询概念;以及查询需求扩展生成单元,用于组合相似査询概念和相似问题类型,并生成隐式査询需求。
25. 如权利要求24所述的查询需求扩展设备,其中句法不可理解查询需求扩展装置还包括与相似问题类型获取单元连接的概念含义猜测单元,用于通过知 识库和与相似问题类型对应的文法中定义的概念约束,猜测未识别查 询概念所属的类别;以及其中相似查询概念获取单元用于从具有和未识别查询概念相似的字符串的概念中选择属于同一猜测类别的概念作为相似概念。
26. 如权利要求3或4所述的査询需求扩展设备,其中查询需求扩展装置包括语义可理解査询需求扩展装置,用于根据语义上可理解的显式查 询需求检索相关度数据库,获得与语义上可理解的査询需求相关的相 关査询需求集合,其中包括包含了相关査询概念和相关问题类型以及 査询概念和相关问题类型之一的隐式査询需求;句法可理解査询需求扩展装置,用于基于知识库和相关度数据 库,形成与句法上可理解的显式查询需求中的查询概念相关度高的相 关查询概念集合,并利用知识库从相关查询概念集合中选择出满足预 定约束条件的至少一个相关査询概念与显式查询需求的问题类型组合 作为隐式査询需求;以及句法不可理解查询需求扩展装置,用于利用语言库,检索与显式 査询需求中包含的问题类型相似的问题类型,和/或利用相关度数据 库和知识库,查找与显式査询需求中包含的未识别查询概念相似的查 询概念,从而获取了包括相似査询概念和/或相似问题类型的隐式査 询需求。
27. 如权利要求1至26之一所述的查询需求扩展设备,还包括 扩展答案生成装置,用于利用隐式查询需求来检索语言库、知识库及一信息库,从而生成扩展查询答案。
28. 如权利要求1至27之一所述的查询需求扩展设备,还包括直接答案生成装置,用于利用显式査询需求来检索语言库、知识 库及信息库,从而生成直接的查询答案。
29. —种用于扩展查询需求的方法,包括查询需求理解步骤,根据用户的査询请求生成显式査询需求;以及查询需求扩展步骤,生成与显式查询需求相关的隐式査询需求。
30. 如权利要求29所述的扩展查询需求的方法,其中 查询需求理解步骤包括通过对接收到的用户查询进行语义和句法上的分析来生成显式查询需求的步骤;以及查询需求扩展步骤包括通过査找需求相关数据库生成与显式査 询需求相关的隐式查询需求的步骤。
31. 如权利要求29所述的扩展查询需求的方法,其中查询需求 理解步骤包括通过查找知识库和语言库生成包括查询概念和问题类型 的显式查询需求的步骤;以及查询需求扩展步骤包括通过查找知识库,语言库和相关度数据 库生成包括査询概念和问题类型的隐式查询需求的步骤。
32. 如权利要求31所述的扩展査询需求的方法,其中査询需求理解步骤包括分词步骤,根据知识库和语言库,对用户查询进行分词; 匹配步骤,将分词的用户查询与语言库进行匹配,以找到匹配文法;语义一致性判断步骤,根据知识库和语言库,判断用户查询中 的概念是否有语义错误;显式査询需求生成步骤,根据匹配文法,生成与其对iS.的、包 括査询概念和问题类型的显式查询需求;需求类型判断步骤,根据知识库和语言库,判断显式查询需求 属于下列三种类型中的哪一种语义可理解、句法可理解或句法不可 理解。
33. 如权利要求31或32所述的扩展查询需求的方法,其中查询 需求扩展步骤包括下列步骤中至少之一-语义可理解查询需求扩展步骤,根据语义上可理解的显式查询 需求检索相关度数据库,获得与语义上可理解的查询需求相关的相关 査询需求集合,其中包括包含了相关查询概念和相关问题类型以及查 询概念和相关问题类型之一的隐式查询需求;句法可理解查询需求扩展步骤,基于知识库和相关度数据库, 形成与句法上可理解的显式査询需求中的査询概念相关度高的相关査 询概念集合,并利用知识库从相关査询概念集合中选择出满足预定约 束条件的至少一个相关查询概念与显式查询需求的问题类型组合作为 隐式查询需求;以及句法不可理解查询需求扩展步骤,利用语言库,检索与显式查 询需求中包含的问题类型相似的问题类型,和/或利用相关度数据库 和知识库,査找与显式査询需求中包含的未识别查询概念相似的查询 概念,从而获取包括相似査询概念和/或相似问题类型的隐式查询需 求。
34. 如权利要求33所述的扩展查询需求的方法,其中语义可理 解查询需求扩展步骤包括相关问题类型获取步骤,通过查找相关度数据库获取与显式查 询需求的问题类型间服务相关度高的问题类型,作为检索到的相关问 题类型集合;相关查询概念获取步骤,查找相关度数据库,获取与显式查询 需求的查询概念相关度高的概念,作为检索到的相关查询概念集合;相关查询需求筛选步骤,将相关査询概念集合和相关问题类型 集合相互组合得到相关査询需求集合,并查找知识库和语言库,去除 语义错误的相关査询需求;以及査询需求扩展生成步骤,计算生成的相关查询需求与显式查询需求之间的相关度,并选择相关度高的相关査询需求作为隐式査询需 求。
35. 如权利要求34所述的扩展査询需求的方法,其中查询需求扩展生成步骤包括分别计算相关查询概念和査询概念 之间的第 一相关度以及相关问题类型和问题类型之间的第二相关度, 并对第一相关度和第二相关度求和的步骤,从而得到相关查询需求与 显式查询需求之间的相关度,其中相关査询需求包括相关査询概念和 相关问题类型,显式査询需求包括査询概念和问题类型。
36. 如权利要求33所述的扩展査询需求的方法,其中句法可理 解查询需求扩展步骤包括概念约束获取步骤,根据显式查询需求所包括的问题类型,检 索语言库,提取与问题类型对应的文法中定义的概念约束作为约束条件;相关查询概念获取步骤,利用相关度数据库获取与显式查询需 求中所包括的查询概念之间相关度高的概念,并基于从概念约束获取 步骤获取的约束条件查找知识库,以选择出满足约束条件的相关查询 概念;以及査询需求扩展生成步骤,将相关查询概念与显式查询需求中的问题类型组合生成隐式査询需求。
37. 如权利要求33所述的扩展查询需求的方法,其中句法不可 理解查询需求扩展步骤包括相似问题类型获取步骤,通过检索语言库,获取与显式查询需求 中包含的问题类型相似的相似问题类型;相似查询概念获取步骤,根据相关度数据库中的字符串相似数据 获取与未识别的查询概念之间字符串相似的査询概念,作为相似査询 概念;以及查询需求扩展生成步骤,组合相似查询概念和相似问题类型,并 生成隐式查询需求。
38. 如权利要求37所述的扩展查询需求的方法,其中句法不可理解査询需求扩展步骤还包括概念含义猜测步骤,通过知识库和与相似问题类型对应的文法中 定义的概念约束,猜测未识别査询概念所属的类别;以及其中相似査询概念获取步骤包括从具有和未识别查询概念相似 的字符串的概念中选择属于同一猜测类别的概念作为相似概念的步 骤。
39. 如权利要求31至38之一所述的扩展査询需求的方法,其中 相关度数据库是由下列步骤中的至少之一生成的基于知识库,计算知识库中的概念之间的语义相关度,以便生 成语义相关数据;通过统计语料库,计算知识库中的概念之间的互信息,以便生 成统计相关数据;根据词典,求出其中各词语之间的字符串相似度,以便生成字 符串相似数据;基于用户查询日志,求出各査询所匹配的文法对应的问题类型 之间的相关度,以便生成服务相关数据。
40. 如权利要求31至39之一所述的扩展査询需求的方法,其中知识库是由下列步骤生成的根据各领域信息库,抽取其中的概念、属性及概念间的关系, 从而生成各领域知识库;根据同义词典、简称规则库、多语言词典和电子地图,抽取同 义映射关系、语言映射关系和空间映射关系,从而生成映射知识库。
41. 如权利要求31至39之一所述的扩展査询需求的方法,其中语言库是由下列步骤生成的收集各领域中的用户查询句子,计算句子间的相似度并依据相 似度对句子进行聚类,生成各领域査询语言;计算各领域查询语言间的相似度,抽取公用查询语言。
42. 如权利要求31至41之一所述的扩展查询需求的方法,还包括扩展答案生成步骤,利用隐式査询需求来检索语言库、知识库及 一信息库,从而生成扩展查询答案。
43. 如权利要求31至42之一所述的扩展査询需求的方法,还包括直接答案生成步骤,利用显式査询需求来检索语言库、知识库及 信息库,从而生成直接的查询答案。
全文摘要
本发明提供了一种查询需求扩展设备,包括查询需求理解装置,用于根据用户的查询请求生成显式查询需求;以及查询需求扩展装置,用于生成与显式查询需求相关的隐式查询需求。其中查询需求理解装置通过查找知识库和语言库生成包括查询概念和问题类型的显式查询需求,以及查询需求扩展装置通过查找知识库,语言库和相关度数据库生成包括查询概念和问题类型的隐式查询需求。本发明还提供了一种查询需求扩展方法。基于本发明的查询需求扩展设备和方法,可以方便用户查询,并向用户提供准确、全面的查询答案。
文档编号G06F17/30GK101339551SQ20071012743
公开日2009年1月7日 申请日期2007年7月5日 优先权日2007年7月5日
发明者丰强泽, 刘宇光, 昕 孟, 梁邦勇, 福岛俊一, 齐红威 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1