一种基于语义的文本检索方法

文档序号:6620872阅读:246来源:国知局
一种基于语义的文本检索方法
【专利摘要】本发明提出了一种基于语义的文本检索方法,解决了检索过程中,不能分辨一词多义或多词一义的情况,造成检索结果错选或遗漏的问题。本方法中用词语的概念代替词语进行进行索引和检索,并对检索出的文档进行排序,具体包括:S1、根据词语的概念建立概念树,计算词语相似度矩阵;S2、参照预制本体,提取目标文档的概念,并根据概念对目标文档进行索引处理,生成索引文件;S3、对用户初始查询进行分词,在词语相似度矩阵中找出与查询词相似度大于门限值M的相似项,将相似项以“或”的关系添加到用户查询中;S4、搜索引擎根据用户查询搜索目标文档;S5、根据词语相似度对文档进行相似度评价并排序;S6、读取文档数据并输出排序结果。
【专利说明】一种基于语义的文本检索方法

【技术领域】
[0001]本发明涉及信息检索【技术领域】,尤其涉及一种基于语义的文本检索方法。

【背景技术】
[0002]现代社会已经进入信息化时代,互联网蕴含的信息资源持续增长,成为重要的信息源头。目前提供信息定制搜索的技术很多,但是这些技术中,一部分对基础信息设施要求高,实施周期长,系统建设和维护成本高,主要客户是超大型企业和政府,普通企业及个人无力承受;另一部分只能支持最基本的信息检索功能,检索范围小,而且检索结果也不全面。尤其中文表达方式中一词多义和多词一义的情况非常常见,现有的检索技术很难区分这两种情况,经常造成检索结果错选或遗漏。


【发明内容】

[0003]基于【背景技术】存在的问题,本发明提出了一种基于语义的文本检索方法,解决了检索过程中,不能分辨一词多义或多词一义的情况,造成检索结果错选或遗漏的问题。
[0004]本发明提出的一种基于语义的文本检索方法,将词语转化为概念,用词语的概念代替词语进行进行索引和检索,并对检索出的文档进行排序,包括:
[0005]S1、根据词语的概念建立概念树,计算词语相似度矩阵;
[0006]S2、参照预制本体,提取目标文档的概念,并根据概念对目标文档进行索引处理,生成索引文件;
[0007]S3、对用户初始查询进行分词,在词语相似度矩阵中找出与查询词相似度大于门限值M的相似项,将相似项以“或”的关系添加到用户查询中;
[0008]S4、搜索引擎根据用户查询搜索目标文档;
[0009]S5、根据词语相似度对文档进行相似度评价并排序;
[0010]S6、读取文档数据并输出排序结果。
[0011 ] 优选地,步骤S6分为:
[0012]S61、结合用户高频度搜索词与最近搜索词,确定用户喜爱度;
[0013]S62、根据用户喜爱度调整文档排序,然后读取文档数据并输出排序结果。
[0014]优选地,词语Wl、W2的词语相似度计算公式为:
[0015]Suni^lM) = D/s(W iW ) + a Dis (W1, W2)为词语 Wl、W2 对应的概念在概念树上的距离,a为计算常数。
[0016]优选地,预制本体包括通用本体和行业本体。
[0017]优选地,搜索引擎搜索目标文档采用的是倒排索引技术。
[0018]优选地,门限值0.1〈M〈1。
[0019]优选地,门限值0.2〈M〈1。
[0020]优选地,读取文档数据并输出排序结果采用相似度从大到小的顺序。
[0021]本发明中,将词语转化成概念,用词语的概念代替词语进行索引和检索避免了一词多义和多词一义的问题。在索引的时候将词语用它的概念进行表示,然后用这些概念对文档进行标引,在检索的时候同样将检索词语转换成概念,用概念进行检索,保证了搜索效率和实用性。

【专利附图】

【附图说明】
[0022]图1为本发明提出的一种基于语义的文本检索方法的流程图;
[0023]图2为词语相似度分布图。

【具体实施方式】
[0024]参照图1,本发明提出的一种基于语义的文本检索方法,将词语转化为概念,用词语的概念代替词语进行索引和检索,并对检索出的文档进行排序,避免了一词多义和多词一义对检索结果的误导。
[0025]本发明的检索方法具体包括以下步骤:
[0026]S1、根据词语的概念建立概念树,计算词语相似度矩阵;
[0027]S2、参照预制本体,提取目标文档的概念,并根据概念对目标文档进行索引处理,生成索引文件;
[0028]S3、对用户初始查询进行分词,在词语相似度矩阵中找出与查询词相似度大于门限值M的相似项,将相似项以“或”的关系添加到用户查询中;
[0029]S4、搜索引擎根据用户查询搜索目标文档;
[0030]S5、根据词语相似度对文档进行相似度评价并排序;
[0031]S6、读取文档数据并输出排序结果。
[0032]本方法的步骤S3中,将与用户初始查询的概念相同或相似的相似项加入到用户查询中,并且是以“或”的关系,即只要目标文档命中用户初始查询或任何一个相似项,即将目标文档添加到搜索结果中,全面覆盖搜索范围,避免信息的遗漏。
[0033]步骤S6分为:
[0034]S61、结合用户高频度搜索词与最近搜索词,确定用户喜爱度;
[0035]S62、根据用户喜爱度调整文档排序,然后读取文档数据并输出排序结果。
[0036]以上步骤中,通过对用户喜爱度的分析,调整后的文档排序更能捕捉用户需要,为用户提供更加人性化的服务,减少用户筛选时间,提高检索效率。读取文档数据并输出排序结果采用相似度从大到小的顺序。
[0037]本方法中,词语Wl、W2的词语相似度计算公式为:


a
[0038]Suni^l,W2)= Dis^y ^ + a Dis (W1, W2)为词语 Wl、W2 对应的概念在概念树上的距离,a为计算常数。
[0039]本方法中,预制本体包括通用本体和行业本体,二者结合,使得目标文档的概念转换更加完整,而通过行业本体的置换,提高概念转换的针对性与准确性,更加能够满足用户的需要。
[0040]本方法中,搜索引擎搜索目标文档采用的是倒排索引技术,该技术在检索算法中已经相当成熟,可进一步保证搜索效率和实用性。
[0041]本方法中,门限值0.1〈M〈1,这是因为词语相似度小于0.1时,其价值已经不足采用,而且该部分词语在相似词语中所占比例最大,放弃相似度小于0.1的词语,可成倍提高检索速度。
[0042]图2所示为以《知网》为基础计算的相似度矩阵中不同区段上的相似度值总数的分布情况。由图2可看出,相似度落在区间[0,0.1]上的词语占70%,相似度落在区间[0,0.2]上的词语所占比例大于90%。如果设M = 0.2,则优化后的数据规模大约为原始数据的8.7%,原来需要5G存储空间的数据只需要不到450MB的存储空间,而这个时候平均每个词可以有近9000个较高的相似度得以存储,这对一般的词语而言,与其语义上相似度较高且有价值的近义词语已经完全可以存储了。所以具体实施时,取0.2〈M〈1是比较合适的。
[0043]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种基于语义的文本检索方法,其特征在于,将词语转化为概念,用词语的概念代替词语进行进行索引和检索,并对检索出的文档进行排序,包括: 51、根据词语的概念建立概念树,计算词语相似度矩阵; 52、参照预制本体,提取目标文档的概念,并根据概念对目标文档进行索引处理,生成索引文件; 53、对用户初始查询进行分词,在词语相似度矩阵中找出与查询词相似度大于门限值M的相似项,将相似项以“或”的关系添加到用户查询中; 54、搜索引擎根据用户查询搜索目标文档; 55、根据词语相似度对文档进行相似度评价并排序; 56、读取文档数据并输出排序结果。
2.如权利要求1所述的基于语义的文本检索方法,其特征在于,步骤S6分为: 561、结合用户高频度搜索词与最近搜索词,确定用户喜爱度; 562、根据用户喜爱度调整文档排序,然后读取文档数据并输出排序结果。
3.如权利要求1所述的基于语义的文本检索方法,其特征在于,词语Wl、W2的词语相似度计算公式为: SimW\,W^ = /)/‘、'(W丨,W-)+ a Dis(Wl,ff2}为词语W1、W2对应的概念在概念树上的距离,a为计算常数。
4.如权利要求1或2所述的基于语义的文本检索方法,其特征在于,预制本体包括通用本体和行业本体。
5.如权利要求1所述的基于语义的文本检索方法,其特征在于,搜索引擎搜索目标文档采用的是倒排索引技术。
6.如权利要求1所述的基于语义的文本检索方法,其特征在于,门限值0.1〈M〈1。
7.如权利要求6所述的基于语义的文本检索方法,其特征在于,门限值0.2〈M〈1。
8.如权利要求1或2所述的基于语义的文本检索方法,其特征在于,读取文档数据并输出排序结果采用相似度从大到小的顺序。
【文档编号】G06F17/30GK104182464SQ201410348390
【公开日】2014年12月3日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】贾岩 申请人:安徽华贞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1