一种搜索方法及搜索系统的制作方法

文档序号:6371949阅读:304来源:国知局
专利名称:一种搜索方法及搜索系统的制作方法
技术领域
本发明涉及信息搜索领域,特别涉及一种搜索方法及搜索系统。
背景技术
随着计算机网络的蓬勃发展,网络上的信息越来越多。为此,用户通常需要使用搜索引擎来更好的寻找自己所需要的信息。现在常用的搜索引擎有G00GLE,百度,Yahoo,Bing等。这些搜索引擎都具有一个相同的特点用户只能输入几个关键词进行搜索。如果用户输入的是一个长句或者甚至是一篇很长的文章的话,这些搜索引擎返回的结果往往不尽如人意。而且随着用户输入的信息越多,返回的结果往往会越来越坏。在这种情况下,用户只能选择输入最核心的一两个词,然后自己在搜索结果中寻找需要的信息。本方法致力于解 决搜索引擎中用户无法输入过多信息的缺陷,让用户可以直接输入一段话或者是一篇已有的需求文档进行查询,从而更方便快捷的找到自己所需要的信息。截止目前,仍然没有较好的基于全文语义搜索的技术发布。曾文均发明的“利用互联网为公众提供和查询信息的方法”。该发明通过用户对搜索结果分类的评分提高搜索的准确率。用户搜索可以只针对某个特定的分类领域进行,而服务器装置通过比较每个结果在对应领域中的得分,可以将得分高的结果排到前面,从而让用户更容易找到自己所关心的内容。
该方案存在以下缺点
一、分类是用户创建的,往往比较直观,缺乏专业性。这种分类结构不利于用户选择,往往会出现用户需求分散在多个分类或无法确定分类的情况。二、分类树会越来越庞大,不利于长期运行。各个用户对分类有不同的理解,往往会出现重复或类似的分类,随着系统发布时间的增加,分类树会变的越来越庞大,不利于管理同时影响搜索效率。三、该技术的准确率取决于用户的态度。在用户搜索结束之后,用户被要求对搜索结果进行评分,这增加了用户搜索的复杂度。很多用户可能在搜索完成后不进行评分,甚至有些用户可能会随意评分或者恶意评分,这些都会影响系统最终的准确率。另一个和本发明近似的方案为于浩等发明的信息检索方法和系统。该方案根据用户输入的查询请求从大量信息构成的信息集合中搜索所希望的信息,其中,确定影响用户对网页与查询请求相关性判断的多个因素,作为个性化特征;对于各个个性化特征设定相关的权重,且分别基于各个所述个性化特征建立反映用户的查询请求与信息集合中的信息之间的相关性的检索模型,通过所述的权重将所述检索模型组合成用户兴趣模型;接受用户的查询请求,分别通过各个所述的检索模型对所述信息集合中的信息进行检索,分别生成一个有序网页列表;通过所述的用户兴趣模型,计算每个所述检索模型得到的有序信息列表中的每一条信息与所述查询请求的相关度;根据所述用户兴趣模型输出的相关度,输出最终的检索结果。该方案存在以下缺点一、使用该技术的用户必须登录才能得到更好的结果
该技术的关键部分在于用户兴趣的分析以及挖掘,当用户未登录时,搜索结果和传统的搜索方式没有显著区别,而很多普通用户并不会为了一次搜索注册账户并登录。同时,对于新注册用户由于没有历史数据,无法分析用户兴趣,也就是说该技术的发明只对长期使用该系统的用户有效。二、对用户兴趣的分析仍然停留在表层
没有提出和传统兴趣分析有较大改进的分析方法。默认的4个分析方法都是普通的文本分析,真正重要的用户兴趣分析只是提出一个模型,没有具体的实施方法。三、训练模型的构造没有成熟的案例
和上一个问题类似,虽然提出用训练模型获取用户兴趣,对训练模型如何构建,采用什 么模型等都没有具体的方案,仍然处于构想阶段。因此,亟需提供一种搜索方法及搜索系统,以解决上述问题。

发明内容
本发明所要解决的技术问题是提供一种搜索方法及搜索系统,可使得用户获取与输入的语句相关度很高的文档,可有效提供搜索的准确度。本发明为解决技术问题而采用的一个技术方案是提供一种搜索方法,预先设置用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,方法包括以下步骤a.获取用户在用户接口模块输入的第一语句以及用户在用户接口模块中选择的第一技术领域;b.对第一语句进行分词处理,以获取第一分词结果,并根据第一技术领域选取对应的第一专业词库,其中第一分词结果包括多个第一词汇以及对应词频;c.根据第一分词结果、第一专业词库以及目标数据库分别对第一词汇进行评分,以获取第一目标词汇以及与第一目标词汇对应的第一相关度权重值;d.在目标数据库中查找包括第一目标词汇的第一文档集合,并根据第一目标词汇以及与其对应的第一相关度权重值对第一文档集合中的每一文档进行评分,以获取第一文档集合中每一文档基于第一目标词汇的第二相关度权重值,并根据第二相关度权重值从大到小对第一文档集合进行排序以产生第一文档列表;e.选取文档列表中排名靠前的预定数目个文档,并根据第一目标词汇出现的次数对预定数目个文档进行评分,以获取预定数目个文档基于第一目标词汇出现的次数的第三相关度权重值,并根据第三相关度权重值从大到小对预定数目个文档进行排序以产生第二文档列表;f.将第二文档列表推送至用户接口模块并显示。本发明为解决技术问题而采用的另外一个技术方案是提供一种搜索系统,包括用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,系统进一步包括反馈模块,用于获取用户在用户接口模块输入的第一语句以及用户在用户接口模块中选择的第一技术领域;分词模块,用于对第一语句进行分词处理,以获取第一分词结果,并根据第一技术领域选取对应的第一专业词库,其中第一分词结果包括多个第一词汇以及对应词频;查询模块,用于根据第一分词结果、第一专业词库以及目标数据库分别对第一词汇进行评分,以获取第一目标词汇以及与第一目标词汇对应的第一相关度权重值;索引模块,用于在目标数据库中查找包括第一目标词汇的第一文档集合,并根据第一目标词汇以及与其对应的第一相关度权重值对第一文档集合中的每一文档进行评分,以获取第一文档集合中每一文档基于第一目标词汇的第二相关度权重值,并根据第二相关度权重值从大到小对第一文档集合进行排序以产生第一文档列表;排序模块,用于选取文档列表中排名靠前的预定数目个文档,并根据第一目标词汇出现的次数对预定数目个文档进行评分,以获取预定数目个文档基于第一目标词汇出现的次数的第三相关度权重值,并根据第三相关度权重值从大到小对预定数目个文档进行排序以产生第二文档列表;反馈模块进一步将第二文档列表推送至用户接口模块并显示。由以上技术方案可以看出,本发明提供的搜索方法及搜索系统通过将用户输入的语句进行分词,并设置专业词库对分词结果进行评分,从而获取目标词汇以及对应的第一相关度权重值,并在目标数据库中查找包括目标词汇的文档进行第二次评分并排序以获取第一文档列表,通过对第一文档列表中相关度较高的预定数目个文档进行基于目标词汇出现次数的评分并排序以产生第二文档列表并显示,从而可使得用户获取与输入的语句相关度很高的文档,可有效提供搜索的准确度。


图I是根据本发明第一实施例的搜索系统的结构示意 图2是根据本发明第一实施例的搜索方法的流程 图3是根据本发明第二实施例的搜索系统的结构示意 图4是根据本发明第二实施例的搜索方法的流程 图5是根据本发明第三实施例的搜索系统的结构示意 图6是根据本发明第三实施例的搜索方法的流程图。
具体实施例方式下面结合附图和实施例对本发明进行详细说明。首先请参见图1,图I是根据本发明第一实施例的搜索系统的结构示意图。如图I所示,在本实施例中,本发明的搜索系统包括用户接口模块201、目标数据库202、专业词库 203、反馈模块204、分词模块205、查询模块206、索引模块207以及排序模块208。并请参见图2,图2是根据本发明第一实施例的搜索方法的流程图。如图2所示,本发明的搜索方法包括如下步骤
步骤301 获取用户在用户接口模块201输入的第一语句以及用户在用户接口模块201中选择的第一技术领域。本步骤可由反馈模块204执行,具体而言,用户接口模块201可优选为浏览器,通过向浏览器推送相关的网页,从而供用户在网页的输入框上输入对应的第一语句,或在网页上显示技术领域选择菜单,如第一技术领域、第二技术领域、以及第三技术领域(具体可为太阳能技术领域、物联网技术领域以及汽车技术领域),用户通过浏览器输入第一语句并选取对应的第一技术领域,浏览器将相关信息通过网络协议发送至反馈模块204204,从而获取用户在用户接口模块201输入的第一语句以及用户在用户接口模块201中选择的第一技术领域。举例而言,目标数据库202可为专利数据库,其存储有海量的专利文档;而第一语句可例如为“我公司拟开发一种太阳能薄膜电池组件,主要解决透光太阳能薄膜电池组件容易短路的问题,进而提升透光太阳能薄膜电池组件的输出电性能”,而用户在用户接口模块201选择了 “太阳能技术领域”。并且,专业词库203可由开发者根据各个技术领域的常用关键词在本搜索系统的后台定义,如可定义太阳能技术领域所对应的第一专业词库203为
太阳能,薄膜,电池,电池组件,透光,短路,充电,福射,发电,光电转换,集热器,光伏,光伏矩阵,发电板阵,二极管,逆变器,晶体状,无序结构,收集器。步骤302 :对第一语句进行分词处理,以获取第一分词结果,并根据第一技术领域选取对应的第一专业词库203,其中第一分词结果包括多个第一词汇以及对应词频。本步骤可由分词模块205执行,具体而言,本发明所采用的分词处理技术可使用 现有的各种分词方法实现,本发明对其不作具体限定,分词模块205的作用在于将用户输入的语句转换成一个个词汇。由于汉字的词之间没有分隔符,而用户输入的又是一整段的文字,中间肯定不会有空格分隔,所以必须要对用户输入的第一语句进行分词操作。经过这一步之后,用户输入的语句就会变成语句中的词以及其在语句中出现的次数(即词频)的集合,然后将这些词以及频率交给查询模块206进行进一步的分析。对于中文的分词,可以采用中科院的分词系统ICTCLAS(http://ictclas. org/)进行。这个分词系统可以说是目前中文分词方面准确率最高,效率最好的一个分词系统。同时该系统是用c(dll格式)编写的,可以很方便的在其他高级语言中调用。而在本实施例中,分词模块205产生的第一分词结果具体为
{我,公司,拟,开发,一,种,太阳能3,薄膜3,电池组件3,主要,解决,透光2,容易,短路,的2,问题,进而,提升,输出,电,性能}
步骤303 :根据第一分词结果、第一专业词库203以及目标数据库202分别对第一词汇进行评分,以获取第一目标词汇以及与第一目标词汇对应的第一相关度权重值。在该步骤中,承上所述,第一分词结果为
{我,公司,拟,开发,一,种,太阳能3,薄膜3,电池组件3,主要,解决,透光2,容易,短路,的2,问题,进而,提升,输出,电,性能}
第一专业词库203为太阳能,薄膜,电池,电池组件,透光,短路,充电,辐射,发电,光电转换,集热器,光伏,光伏矩阵,发电板阵,二极管,逆变器,晶体状,无序结构,收集器。而目标数据库202则为包括多个专利文档的海量数据库。因此,在本步骤中,根据以下等式获取第一词汇的第一相关度权重值
Wmghi(i) = Ifmog^L* PU)
棚+1
其中,I为多个第一词汇中的一者,,《|^ 为|对应的第一相关度权重值,If(ft为在语句中I出现的词频,cfl)为在目标数据库202中包含I的文档的个数,y为目标数据库202中的文档数量,P(I)为I;在第一专业词库203的加权值;
根据公式(I ),在目标数据库202中,包含第一词汇的文档数的所有文档中的比例为dog((M+1)1 姆(!) + !))),结果近似为{我=10. 07,公司=8. 61,拟=8. 25,开发=6. 82,一 =1.46,种=1.52,太阳能=6. 09,薄膜=5. 71,电池组件=9. 02,主要=3. 84,解决=4. 17,透光=6. 89,容易=4. 76,短路=7. 13,的=1. 26,问题=4. 29,进而=5. 93,提升=5. 92,输出=4. 06,电=4. 37,性能=4. 27 }。将以上向量与在语句中I出现的词频)即可获取第一词汇的第一相关度权重值,其结果为
{电池组件=27. 05,太阳能=18. 27,薄膜=17. 13,透光=13. 78,我=10. 07,公司=8.61,拟=8. 25,短路=7. 13,开发=6. 82,进而=5. 93,提升=5. 92,容易=4. 76,电=4. 37,问题=4. 29,性能=4. 27,解决=4. 17,输出=4. 06,主要=3. 84,的=2. 52,种=1. 52, 一 =1.46}
可见,薄膜,太阳能,电池组件,透光这几个词的重要性远高于其他词,
进一步地,而在第一专业词库203中,包含太阳能,薄膜,电池组件,透光,短路,这几个词。则这几个词的权重都要在之前得到的结果上乘以2,即将上述结果与在第一专 业词库203的加权值,于此取为2)相乘,最终结果如下
{-=1.46,种=1.52,的=2. 52,主要=3. 84,输出=4. 06,解决=4. 17,性能=4. 27,问题=4. 29,电=4. 37,容易=4. 76,提升=5. 92,进而=5. 93,开发=6. 82,拟=8. 25,公司=8.61,我=10. 07,短路=14. 25,透光=27. 56,薄膜=34. 26,太阳能=36. 55,电池组件=54. 10}
可以看到,在词“短路”之前的词都没在第一专业词库203中出现,因此,可选取第一相关度权重值大于预定阈值的词汇作为第一目标词汇。在本实施例中,设定预定阈值为12. 45。第一相关度权重值小于该预定阈值的词在索引装置中将被过滤,最后生成的第一目标词汇以及其对应的第一相关度权重值为{短路=14. 25,透光=27. 56,薄膜=34. 26,太阳能=36. 55,电池组件=54. 10}。步骤304 :在目标数据库202中查找包括第一目标词汇的第一文档集合,并根据第一目标词汇以及与其对应的第一相关度权重值对第一文档集合中的每一文档进行评分,以获取第一文档集合中每一文档基于第一目标词汇的第二相关度权重值,并根据第二相关度权重值从大到小对第一文档集合进行排序以产生第一文档列表。该步骤由索引模块207执行,具体地,索引模块207根据第一目标词汇以及其对应的第一相关度权重值{短路=14. 25,透光=27. 56,薄膜=34. 26,太阳能=36. 55,电池组件=54. 10}在目标数据库202中查找包括第一目标词汇的第一文档集合,根据这个查询条件,索引模块207返回的结果共103091项文档,其中该103091项文档即为第一文档集合。根据第一目标词汇以及与其对应的第一相关度权重值对第一文档集合中的每一文档进行评分,其中,该评分方法具体如下
权利要求
1.一种搜索方法,其特征在于,预先设置用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,所述方法包括以下步骤 a.获取用户在所述用户接口模块输入的第一语句以及所述用户在所述用户接口模块中选择的第一技术领域; b.对所述第一语句进行分词处理,以获取第一分词结果,并根据所述第一技术领域选取对应的第一专业词库,其中所述第一分词结果包括多个第一词汇以及对应词频; c.根据所述第一分词结果、所述第一专业词库以及所述目标数据库分别对所述第一词汇进行评分,以获取第一目标词汇以及与所述第一目标词汇对应的第一相关度权重值; d.在所述目标数据库中查找包括所述第一目标词汇的第一文档集合,并根据所述第一目标词汇以及与其对应的第一相关度权重值对所述第一文档集合中的每一文档进行评分,以获取所述第一文档集合中每一文档基于所述第一目标词汇的第二相关度权重值,并根据所述第二相关度权重值从大到小对所述第一文档集合进行排序以产生第一文档列表; e.选取所述文档列表中排名靠前的预定数目个文档,并根据第一目标词汇出现的次数对所述预定数目个文档进行评分,以获取所述预定数目个文档基于所述第一目标词汇出现的次数的第三相关度权重值,并根据所述第三相关度权重值从大到小对所述预定数目个文档进行排序以产生第二文档列表; f.将所述第二文档列表推送至所述用户接口模块并显示。
2.根据权利要求I所述的方法,其特征在于,在所述步骤c中,根据以下等式获取所述词汇的第一相关度权重值
3.根据权利要求2所述的方法,其特征在于,在所述步骤d中,根据以下等式获取所述第二相关度权重值
4.根据权利要求3所述的方法,其特征在于,在所述步骤e中,根据以下等式获取所述第三相关度权重值Score(d) = LS(d) '*cos(Termid),Tmn(a')) * ——i—— 1* Numiqi) 其中为所述^的所述第三相关度权重值,Miy)为所述^对应的第二相关度权重值,Tem_)为所述^的tf-idf向量,滅为所述^中包含的词的个数。
5.根据权利要求I所述的方法,其特征在于,在所述步骤a之前,利用所述用户接口向所述用户提供登录界面,并进一步获取所述用户的登录状态,且在所述用户处于登录状态时,在所述步骤b中,进一步保存所述第一分词结果以产生用户词库,在所述步骤c中,进一步保存所述第一目标词汇以产生常用词库。
6.根据权利要求5所述的方法,其特征在于,在所述用户接口模块判断所述常用词库存在时,所述方法进一步包括以下步骤 g.获取所述用户在所述用户接口模块输入的第二语句以及所述用户在所述用户接口模块中选择的第二技术领域; h.对所述第二语句进行分词处理,以获取第二分词结果并保存至所述用户词库,根据所述第二技术领域选取对应的第二专业词库,其中所述第二分词结果包括多个第二词汇以及对应词频; i.根据所述第二分词结果、所述第二专业词库、所述目标数据库以及所述常用词库分别对所述第二词汇进行评分,以获取第二目标词汇以及基于所述第二目标词汇的第四相关度权重值,并将所述第二目标词汇保存至所述常用词库; j.在所述目标数据库中查找包括所述第二目标词汇的第二文档集合,并根据所述第二目标词汇以及所述第四相关度权重值对所述第二文档集合中的每一文档进行评分,以获取所述第二文档集合中每一文档基于所述第二目标词汇的第五相关度权重值,并根据所述第五相关度权重值从大到小对所述第二文档集合进行排序以产生第三文档列表; k.选取所述第三文档列表中排名靠前的预定数目个文档,并根据第二目标词汇出现的次数对所述预定数目个文档进行评分,以获取所述预定数目个文档基于所述第二目标词汇出现的次数的第六相关度权重值,并根据所述第二相关度权重值从大到小对所述预定数目个文档进行排序以产生第四文档列表; I.将所述第四文档列表推送至所述用户接口模块并显示。
7.根据权利要求6所述的方法,其特征在于,在所述步骤i中,根据以下等式获取所述第四相关度权重值Wmghm=m) *1, *^(pux m)# +1 其中,I为多个所述第二词汇中的一者,膽为所述I对应的第四相关度权重值,,¢)为在所述语句中所述I出现的词频,£^/(;0为在所述目标数据库中,包含I的文档的个数为所述目标数据库中文档的个数,^(0为1在所述第二专业词库的加权值,(7(0为1在所述常用词库的加权值; 选取第四相关权重值大于预定阈值的词汇作为所述目标词汇。
8.根据权利要求7所述的方法,其特征在于,在所述步骤j中,根据以下等式获取所述第五相关度权重值
9.根据权利要求8所述的方法,其特征在于,在所述步骤k中,根据以下等式获取所述第六相关度权重值
10.根据权利要求5所述的方法,其特征在于,在所述用户接口模块判断所述常用词库存在时判断所述常用词库存在时,所述方法进一步包括以下步骤 g.获取所述用户在所述用户接口模块输入的第三语句以及所述用户在所述用户接口模块中选择的第三技术领域; h.进一步对所述第三语句进行分词处理,以获取第三分词结果并保存至所述用户词库,根据所述第三技术领域选取对应的第三专业词库,其中所述第三分词结果包括多个第三词汇以及对应词频; i.进一步根据所述第三分词结果、所述第三专业词库、所述目标数据库、所述常用词库以及所述用户词库分别对每一所述第三词汇进行评分,以获取第三目标词汇以及基于所述第三目标词汇的第七相关度权重值,并将所述第三目标词汇保存至所述常用词库; j.进一步在所述目标数据库中查找包括所述第三目标词汇的第三文档集合,并根据所述第三目标词汇以及所述第七相关度权重值对所述第三文档集合中的每一文档进行评分,以获取所述第三文档集合中每一文档基于所述第三目标词汇的第七相关度权重值,并根据所述第七相关度权重值从大到小对所述第三文档集合进行排序以产生第五文档列表; k.进一步选取所述第五文档列表中排名靠前的预定数目个文档,并根据第三目标词汇出现的次数对所述预定数目个文档进行评分,以获取所述预定数目个文档基于所述第三目标词汇出现的次数的第八相关度权重值,并根据所述第八相关度权重值从大到小对所述预定数目个文档进行排序以产生第六文档列表; I.进一步将所述第六文档列表推送至所述用户接口模块并显示。
11.根据权利要求10所述的方法,其特征在于,在所述步骤i中,根据以下等式获取所述第七相关度权重值
12.根据权利要求11所述的方法,其特征在于,在所述步骤j中,根据以下等式获取所述第八相关度权重值
13.根据权利要求12所述的方法,其特征在于,在所述步骤k中,根据以下等式获取所述第九相关度权重值
14.根据权利要求I所述的方法,其特征在于,所述用户接口模块为浏览器。
15.根据权利要求I所述的方法,其特征在于,所述预定数目为400。
16.根据权利要求I所述的方法,其特征在于,所述目标数据库为专利数据库。
17.一种搜索系统,其特征在于,包括用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,所述系统进一步包括 反馈模块,用于获取用户在所述用户接口模块输入的第一语句以及所述用户在所述用户接口模块中选择的第一技术领域; 分词模块,用于对所述第一语句进行分词处理,以获取第一分词结果,并根据所述第一技术领域选取对应的第一专业词库,其中所述第一分词结果包括多个第一词汇以及对应词频; 查询模块,用于根据所述第一分词结果、所述第一专业词库以及所述目标数据库分别对所述第一词汇进行评分,以获取第一目标词汇以及与所述第一目标词汇对应的第一相关度权重值; 索引模块,用于在所述目标数据库中查找包括所述第一目标词汇的第一文档集合,并根据所述第一目标词汇以及与其对应的第一相关度权重值对所述第一文档集合中的每一文档进行评分,以获取所述第一文档集合中每一文档基于所述第一目标词汇的第二相关度权重值,并根据所述第二相关度权重值从大到小对所述第一文档集合进行排序以产生第一文档列表; 排序模块,用于选取所述文档列表中排名靠前的预定数目个文档,并根据第一目标词汇出现的次数对所述预定数目个文档进行评分,以获取所述预定数目个文档基于所述第一目标词汇出现的次数的第三相关度权重值,并根据所述第三相关度权重值从大到小对所述预定数目个文档进行排序以产生第二文档列表; 所述反馈模块进一步将所述第二文档列表推送至所述用户接口模块并显示。
18.根据权利要求17所述的系统,其特征在于,所述查询模块根据以下等式获取所述词汇的第一相关度权重值
19.根据权利要求18所述的系统,其特征在于,所述查询模块根据以下等式获取所述第二相关度权重值
20.根据权利要求19所述的系统,其特征在于,所述排序模块根据以下等式获取所述第三相关度权重值
21.根据权利要求17所述的系统,其特征在于,所述用户接口向所述用户提供登录界面,并进一步获取所述用户的登录状态,且在所述用户处于登录状态时,所述分词模块进一步保存所述第一分词结果以产生用户词库,所述查询模块进一步保存所述第一目标词汇以产生常用词库。
22.根据权利要求21所述的系统,其特征在于,在所述用户接口模块判断所述常用词库存在时 所述反馈模块进一步获取所述用户在所述用户接口模块输入的第二语句以及所述用户在所述用户接口模块中选择的第二技术领域; 所述分词模块进一步对所述第二语句进行分词处理,以获取第二分词结果并保存至所述用户词库,根据所述第二技术领域选取对应的第二专业词库,其中所述第二分词结果包括多个第二词汇以及对应词频;所述查询模块进一步根据所述第二分词结果、所述第二专业词库、所述目标数据库以及所述常用词库分别对所述第二词汇进行评分,以获取第二目标词汇以及基于所述第二目标词汇的第四相关度权重值,并将所述第二目标词汇保存至所述常用词库; 所述索引模块进一步在所述目标数据库中查找包括所述第二目标词汇的第二文档集合,并根据所述第二目标词汇以及所述第四相关度权重值对所述第二文档集合中的每一文档进行评分,以获取所述第二文档集合中每一文档基于所述第二目标词汇的第五相关度权重值,并根据所述第五相关度权重值从大到小对所述第二文档集合进行排序以产生第三文档列表; 所述排序模块进一步选取所述第三文档列表中排名靠前的预定数目个文档,并根据第二目标词汇出现的次数对所述预定数目个文档进行评分,以获取所述预定数目个文档基于所述第二目标词汇出现的次数的第六相关度权重值,并根据所述第二相关度权重值从大到小对所述预定数目个文档进行排序以产生第四文档列表; 所述反馈模块进一步将所述第四文档列表推送至所述用户接口模块并显示。
23.根据权利要求22所述的系统,其特征在于,所述查询模块根据以下等式获取所述第四相关度权重值
24.根据权利要求23所述的系统,其特征在于,所述索引模块根据以下等式获取所述第五相关度权重值
25.根据权利要求24所述的系统,其特征在于,所述排序模块根据以下等式获取所述第六相关度权重值
26.根据权利要求21所述的系统,其特征在于,在所述用户接口模块判断所述常用词库存在时 所述反馈模块进一步获取所述用户在所述用户接口模块输入的第三语句以及所述用户在所述用户接口模块中选择的第三技术领域; 所述分词模块进一步对所述第三语句进行分词处理,以获取第三分词结果并保存至所述用户词库,根据所述第三技术领域选取对应的第三专业词库,其中所述第三分词结果包括多个第三词汇以及对应词频; 所述查询模块进一步根据所述第三分词结果、所述第三专业词库、所述目标数据库、所述常用词库以及所述用户词库分别对每一所述第三词汇进行评分,以获取第三目标词汇以及基于所述第三目标词汇的第七相关度权重值,并将所述第三目标词汇保存至所述常用词库; 所述索引模块进一步在所述目标数据库中查找包括所述第三目标词汇的第三文档集合,并根据所述第三目标词汇以及所述第七相关度权重值对所述第三文档集合中的每一文档进行评分,以获取所述第三文档集合中每一文档基于所述第三目标词汇的第七相关度权重值,并根据所述第七相关度权重值从大到小对所述第三文档集合进行排序以产生第五文档列表; 所述排序模块进一步选取所述第五文档列表中排名靠前的预定数目个文档,并根据第三目标词汇出现的次数对所述预定数目个文档进行评分,以获取所述预定数目个文档基于所述第三目标词汇出现的次数的第八相关度权重值,并根据所述第八相关度权重值从大到小对所述预定数目个文档进行排序以产生第六文档列表; 所述反馈模块进一步将所述第六文档列表推送至所述用户接口模块并显示。
27.根据权利要求26所述的系统,其特征在于,所述查询模块根据以下等式获取所述第七相关度权重值
28.根据权利要求27所述的系统,其特征在于,所述索引模块根据以下等式获取所述第八相关度权重值
29.根据权利要求28所述的系统,其特征在于,所述排序模块根据以下等式获取所述第九相关度权重值
30.根据权利要求17所述的系统,其特征在于,所述用户接口模块为浏览器。
31.根据权利要求17所述的系统,其特征在于,所述预定数目为400。
32.根据权利要求17所述的系统,其特征在于,所述目标数据库为专利数据库。
全文摘要
本发明提供了一种搜索方法及搜索系统。该搜索系统包括用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,该搜索系统进一步包括反馈模块、分词模块、查询模块、索引模块以及排序模块。本发明提供的搜索方法及搜索系统可使得用户获取与输入的语句相关度很高的文档,可有效提供搜索的准确度。
文档编号G06F17/30GK102768679SQ201210210028
公开日2012年11月7日 申请日期2012年6月25日 优先权日2012年6月25日
发明者周雷, 夏树涛, 杨勇, 江勇, 郑海涛, 陈金元 申请人:深圳市汉络计算机技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1