一种模糊概念的语义检索系统及方法

文档序号:6543240阅读:269来源:国知局
一种模糊概念的语义检索系统及方法
【专利摘要】本发明涉及一种模糊概念的语义检索系统及方法,其特征在于:它包括由人机交互界面构成的应用层、由预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块构成的业务逻辑层以及由若干索引信息库构成的数据层;用户通过人机交互界面将查询请求提交给预处理模块进行预处理后,生成一原始的检索词集并提交给查询转换模块;查询转换模块对接收到的检索词集进行模糊概念转换,生成扩展后的同义检索词集和可供选择的语义相关检索词集,并分别提交给查询处理模块和定制处理模块;查询处理模块对索引信息库进行检索并将检索结果提交给定制处理模块;定制处理模块对检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面。
【专利说明】一种模糊概念的语义检索系统及方法
【技术领域】
[0001]本发明涉及一种检索系统及方法,特别是关于一种模糊概念的语义检索系统及方法。
【背景技术】
[0002]随着网络技术的普及和应用,网络信息发布变得简单快捷。如何从大量的网络信息中快速定位用户所需资源,是一件令人头痛的事情。为了解决此类问题,网络检索技术随之产生,并得到迅速地发展。目前,现有的大部分网络搜索引擎都是基于关键字或者基于文本内容的检索,虽然它们的查全率在一定程度上能得到保证,但查准率还是不能满足用户的需求,且这些网络搜索引擎都存在一个致命的缺陷就是缺少对检索内容的语义分析,不能充分表达语义信息。基于语义的检索方法能大大地改进传统网络搜索引擎的搜索效果,提高检索性能,其中包括提高查准率和查全率。这也是语义网的主要应用之一。语义检索将进一步改善人们对网络查询的观感,并改变人们的检索习惯。
[0003]由于自然语言中常存在一词多义和多词一义的现象,人们往往难以用一个检索词来表达自己的需求,且在一些专业化较强的领域中,用户不具备该领域知识,导致检索效果差,无法检索到用户想要的资源。传统的关键字机械匹配检索技术是基于文档中关键词出现的频率而实现的,导致了 “忠实表达”、“表达差异”和“词汇孤岛”等问题。因此,可通过本体技术对检索词进行模糊概念变换、概念扩展,实现一定程度上的语义检索,达到用户的需求。
[0004]目前,通过概念进行语义检索的方法主要有基于概念的中文搜索引擎,其核心是一个知识库和一种用来计算HTML标签权重的加权算法,使用这两种技术不仅能够数据库索引的正确度,也能够提高用户查询的精度;以文本的自然段作为检索的最小单位,从企业文本中抽取信息而建立本体描述符的信息检索模型;自动构建语义库和相关性查询扩展的方法,该方法利用关联规则挖掘技术,自动从文档中导出概念/词语之间相关性及层次关系,构建关联库,再通过关联库,对查询请求进行相关性扩展以实现概念检索。同时,本体构建是一项费时费力的工程,且构建好的本体的概念及概念间关系就被固定。由于新概念、新知识在各个领域中的大量涌现,导致本体内容在时间上存在一定的滞后,不利于本体的后续应用。面对大量的语义网新资源,如何组织新资源所产生的新概念与已有本体概念之间的语义关系、扩充由已有本体生成的概念语义网络空间,并将它们编码到检索模型中,是模糊概念语义检索所面临的一个重要问题。现有的检索系统在查准率、查全率和精度上仍有较大的改善空间,同时,对中文已有本体的扩展研究在国内还是处于一个较为初步的阶段,没有系统的体系结构和系统。

【发明内容】

[0005]针对上述问题,本发明的目的是提供一种模糊概念的语义检索系统及方法,该系统能够解决现有网络检索系统由机械式关键词匹配技术带来的“词汇孤岛”、“表达差异”和“忠实表达”问题,进一步提高网络检索系统的精确度,并在检索过程中,半自动化的将未登录词和新概念添加到语义检索系统中,更新检索系统的词库。
[0006]为实现上述目的,本发明采取以下技术方案:一种模糊概念的语义检索系统,其特征在于:它包括应用层、业务逻辑层和数据层;所述应用层包括人机交互界面;所述业务逻辑层包括预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;所述数据层包括若干索引信息库;用户通过所述人机交互界面将查询请求提交给所述预处理模块;所述预处理模块对查询请求进行预处理后生成一原始的检索词集,并将该检索词集提交给所述查询转换模块;所述查询转换模块通过由所述本体扩展器支持更新的本体库对接收到的检索词集进行模糊概念转换,并完成查询优化扩展,生成扩展后的同义检索词集和可供选择的语义相关检索词集,所述查询转换模块将扩展后的同义检索词集提交给所述查询处理模块,并将可供选择的语义相关检索词集提交给所述定制处理模块;根据扩展后的同义检索词集,所述查询处理模块对所述索引信息库进行检索,检索结果返回所述查询处理模块;所述查询处理模块将返回的检索结果提交给所述定制处理模块;所述定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给所述人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
[0007]所述预处理模块包括分词词集和自然语言处理模块;所述分词词集对接收到的查询请求进行分词,并将分词后的处理结果提交给所述自然语言处理模块;所述自然语言处理模块使用停用词过滤技术处理分词后的检索词,生成原始的检索词集。
[0008]所述查询转换模块包括本体库和检索扩展优化模块;所述检索扩展优化模块通过所述本体库将接收到的检索词集中的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展,完成检索系统的语义扩展或者缩小检索;所述本体扩展器通过获取网络页面文本,将新概念和未登录词添加到所述本体库中,并实时更新所述本体库。
[0009]所述本体扩展器包括文档收集器、文本预处理器、候选概念生成器、扩展概念生成器、外部资源库、扩展概念添加器和本体扩展评价;所述文档收集器通过概念间的语义匹配约束,过滤与已有种子本体概念无关的内容,从网络中收集与已有种子本体概念相关的文本并提交给所述文本预处理器;所述文本预处理器通过加入分词词集支持对收集到的文本进行文本预处理操作,经文本预处理操作后的文本提交给所述候选概念生成器;所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,并将其作为候选概念提交给所述扩展概念生成器;所述外部资源库为用户提供种子本体,并将种子本体提交给所述扩展概念生成器;所述扩展概念生成器通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,并提交给所述扩展概念添加器;所述扩展概念添加器通过改进的包含分析和本体扩展规则将接收到的扩展概念添加至种子本体中,更新种子本体的内容,完成种子本体的扩展;更新后的种子本体传输至所述文档收集器和文本预处理器中并参与下一个本体扩展过程,扩展后本体提交给所述本体扩展评价器,由所述本体扩展评价器对扩展后本体进行评价。
[0010]所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,其实现过程为:1)给定种子本体中的任一概念C,获取与概念C相关的领域文本集,并对领域文本集中的每个文本进行文本预处理操作,构造领域文档集D ;2)在概念C的领域文本集D中,寻找与概念C在领域文本集D的任一文本的句子中距离范围不超过五的共现词Cofford (C),其具体包括:①构建概念C的共现词集CoWordSet (C):
[0011]CoffordSet (C) = (Wi | Wi e Cofford (C)},
[0012]式中,Wi为共现词;②统计每一个共现词Wi在领域文本集D中的词共现频率CoFreq (Wi)以及绝对词频AFreq (Wi);③对共现词Wi进行拼接,丢弃/i/十汉/(丨4;)>>C(;厂m;/(丨%)以及CoFreq(Wi) < 5的共现词;④利用相对重要性RI (C)和熵Entropy (C)的计算公式,在领域文本集D中分别计算共现词集CoWordSet (C)中每个共现词Wi的相对重要性RI (Wi)和熵Entropy(Wi);相对重要性RI和熵Entropy的计算公式为:
[0013]Rf(C) = TF-1DF(C) = tf (Cr-,
df{C)
【权利要求】
1.一种模糊概念的语义检索系统,其特征在于:它包括应用层、业务逻辑层和数据层;所述应用层包括人机交互界面;所述业务逻辑层包括预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;所述数据层包括若干索引信息库;用户通过所述人机交互界面将查询请求提交给所述预处理模块; 所述预处理模块对查询请求进行预处理后生成一原始的检索词集,并将该检索词集提交给所述查询转换模块;所述查询转换模块通过由所述本体扩展器支持更新的本体库对接收到的检索词集进行模糊概念转换,并完成查询优化扩展,生成扩展后的同义检索词集和可供选择的语义相关检索词集,所述查询转换模块将扩展后的同义检索词集提交给所述查询处理模块,并将可供选择的语义相关检索词集提交给所述定制处理模块;根据扩展后的同义检索词集,所述查询处理模块对所述索引信息库进行检索,检索结果返回所述查询处理模块;所述查询处理模块将返回的检索结果提交给所述定制处理模块;所述定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给所述人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
2.如权利要求1所述的一种模糊概念的语义检索系统,其特征在于:所述预处理模块包括分词词集和自然语言处理模块;所述分词词集对接收到的查询请求进行分词,并将分词后的处理结果提交给所述自然语言处理模块;所述自然语言处理模块使用停用词过滤技术处理分词后的检索词,生成原始的检索词集。
3.如权利要求1所述的一种模糊概念的语义检索系统,其特征在于:所述查询转换模块包括本体库和检索扩展优化模块;所述检索扩展优化模块通过所述本体库将接收到的检索词集中的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展,完成检索系统的语义扩展或者缩小检索;所述本体扩展器通过获取网络页面文本,将新概念和未登录词添加到所述本体库中,并实时更新所述本体库。
4.如权利要求2所述的一种模糊概念的语义检索系统,其特征在于:所述查询转换模块包括本体库和检索扩展优化模块;所述检索扩展优化模块通过所述本体库将接收到的检索词集中的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展,完成检索系统的语义扩展或者缩小检索;所述本体扩展器通过获取网络页面文本,将新概念和未登录词添加到所述本体库中,并实时更新所述本体库。
5.如权利要求1或2或3或4所述的一种模糊概念的语义检索系统,其特征在于:所述本体扩展器包括文档收集器、文本预处理器、候选概念生成器、扩展概念生成器、外部资源库、扩展概念添加器和本体扩展评价;所述文档收集器通过概念间的语义匹配约束,过滤与已有种子本体概念无关的内容,从网络中收集与已有种子本体概念相关的文本并提交给所述文本预处理器;所述文本预处理器通过加入分词词集支持对收集到的文本进行文本预处理操作,经文本预处理操作后的文本提交给所述候选概念生成器;所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,并将其作为候选概念提交给所述扩展概念生成器;所述外部资源库为用户提供种子本体,并将种子本体提交给所述扩展概念生成器;所述扩展概念生成器通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,并提交给所述扩展概念添加器;所述扩展概念添加器通过改进的包含分析和本体扩展规则将接收到的扩展概念添加至种子本体中,更新种子本体的内容,完成种子本体的扩展;更新后的种子本体传输至所述文档收集器和文本预处理器中并参与下一个本体扩展过程,扩展后本体提交给所述本体扩展评价器,由所述本体扩展评价器对扩展后本体进行评价。
6.如权利要求5所述的一种模糊概念的语义检索系统,其特征在于:所述候选概念生成器从预处理后的文本中抽取与种子本体概念紧密相关的概念,其实现过程为: 1)给定种子本体中的任一概念C,获取与概念C相关的领域文本集,并对领域文本集中的每个文本进行文本预处理操作,构造领域文档集D ; 2)在概念C的领域文本集D中,寻找与概念C在领域文本集D的任一文本的句子中距离范围不超过五的共现词CoWord(C),其具体包括: ①构建概念C的共现词集CoWordSet(C):
CoffordSet (C) = Iffi | Wi e Cofford (C)}, 式中,Wi为共现词; ②统计每一个共现词Wi在领域文本集D中的词共现频率CoFreq(Wi)以及绝对词频AFreq (Wi); ③对共现词Wi进行拼接,丢弃AFrni(Wi)》CoFrq(Wi)以及CoFreq(Wi)< 5的共现词; ④利用相对重要性RI(C)和熵Entropy (C)的计算公式,在领域文本集D中分别计算共现词集CoWordSet (C)中 每个共现词Wi的相对重要性RI (Wi)和熵Entropy (Wi); 相对重要性RI和熵Entropy的计算公式为:
7.如权利要求5所述的一种模糊概念的语义检索系统,其特征在于:所述扩展概念生成器通过词语共现分析并根据接收到的候选概念和种子本体生成扩展概念,其实现过程为: 首先,通过Jaccard指数公式计算候选概念集CandidateCpt(C)中各候选概念CCi与种子本体中本体概念C之间的Jaccard指数,并分析其相关性; 其次,通过将Jaccard指数和预设的阈值进行比较,完成对候选概念CCi中与本体概念C密切相关概念的选取; 最后,根据概念选取结果,生成与本体概念C密切相关的扩展概念集ExtendedCpt(C)。
8.如权利要求5所述 的一种模糊概念的语义检索系统,其特征在于:所述扩展概念添加器通过改进的包含分析和本体扩展规则将接收到的扩展概念集ExtendedCpt (C)中的扩展概念ECi添加至种子本体中, 更新种子本体的内容,完成种子本体的扩展,扩展后的本体通过Web本体语言OWL描述,具体添加方式及位置为:输入:待扩展概念集ExtendedCpt (C),种子本体O ; 输出:扩展后本体Ol ; ①对待扩展概念集ExtendedCpt(C)中的任一待扩展概念ECi,计算其与种子本体O中所有本体概念的语义关联性Relatedness (ECi, C) = JaccarcKECi, C),其中C为种子本体O中的某一本体概念; ②通过语义关联性Relatedness(ECi, C)的值来确定待扩展概念ECi和本体概念C之间的关系,其具体包括: i)若语义关联性Relatedness(EC^C)的值最大且等于1,则认为待扩展概念ECi和本体概念C之间存在同义关系,并将待扩展概念ECi合并到本体概念C的同义词集中,作为本体概念C的非正式叙词;否则转向步骤ii ); ii)若语义关联性 Relatedness (ECi, C)的值最大,且满足 0.6 < Relatedness (ECi, C)<I和P (CI ECi) > 0.8以及P (CI ECi) < 1,则认为待扩展概念ECi和本体概念C之间存在层级关系,且待扩展概念ECi是本体概念C的下位词,并将待扩展概念ECi添加到本体概念C的下位词集中;否则,转向步骤iii); iii)若语义关联性 Relatedness (ECi, C)的值最大,且满足 0.6 < Relatedness (ECi, C)<1,则认为待扩展概念ECi和本体概念C之间存在相关关系,并将待扩展概念ECi添加到本体概念C的下位词集中; ③重复步骤①和步骤②,直至将待扩展概念集ExtendedCpt(C)中的所有待扩展概念添加到种子本体O中,得到扩展本体01。
9.如权利要求5所述的一种模糊概念的语义检索系统,其特征在于:所述本体扩展评价器通过计算扩展后本体与“黄金标准”本体间的相似性来判断两个本体之间的重合程度,所述本体扩展评价器中的“黄金标准”本体由现有的领域主题词表来充当,分别用元素层和结构层的相似性评价扩展后本体概念以及概念间关系的准确性,用整体相似性判断扩展后本体的质量。
10.一种基于权利要求1~9任一项所述检索系统的模糊概念的语义检索方法,其包括以下步骤: O构建一包括应用层、业务逻辑层和数据层的模糊语义检索系统;应用层包括人机交互界面;业务逻辑层包括预处理模块、查询转换模块、本体扩展器、查询处理模块和定制处理模块;数据层包括若干索引信息库; 2)在预处理模块中设置分词词集和自然语言处理模块,用户通过人机交互界面将查询请求提交给预处理模块,预处理模块中的分词词集对接收到的查询请求进行分词,并将分词后的处理结果提交给自然语言处理模块;自然语言处理模块使用停用词过滤技术处理分词后的检索词,生成一个原始的检索词集,并将该检索词集提交给查询转换模块; 3)在查询转化模块中,建立一用Web本体语言OWL描述的本体库和一检索扩展优化模块;构建一半自动化本体扩展器,本体扩展器对本体库进行扩展更新,并生成更新的有效的本体库,新生成的本体库将接收到的检索词集中的检索词传输给检索扩展优化模块,检索扩展优化模块对接收到的检索词进行模糊概念转换,并进行语义蕴含扩展以及语义外延扩展完成检索系统的语义扩展或者缩小检索,生成扩展后的同义检索词集和可供选择的语义相关检索词集,并将扩展后的同义检索词集提交给查询处理模块,并将可供选择的语义相关检索词集提交给定制处理模块; 4)查询处理模块对索引信息库进行检索,检索结果返回查询处理模块,查询处理模块将返回的检索结果提交给定制处理模块; 5)定制处理模块对接收到的检索结果以及可供选择的语义相关检索词集进行处理后,提交给人机交互界面,供用户查看检索结果,并通过语义相关检索词集进行二次检索。
【文档编号】G06F17/30GK103886099SQ201410140317
【公开日】2014年6月25日 申请日期:2014年4月9日 优先权日:2014年4月9日
【发明者】杨小平, 何伟, 廖俊宇, 庄巧娟 申请人:中国人民大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1