个性化扩展搜索方法及装置、系统的制作方法

文档序号:6522095阅读:147来源:国知局
个性化扩展搜索方法及装置、系统的制作方法
【专利摘要】本发明提供一种个性化扩展搜索方法及装置、系统,其中,所述方法包括服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;根据所述用户终端发送的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。较现有技术,采用本发明实施例提供的所述方法得出的搜索结果的有效性更高。
【专利说明】个性化扩展搜索方法及装置、系统
【技术领域】
[0001]本发明涉及数据处理技术,尤其涉及一种个性化扩展搜索方法及装置、系统。
【背景技术】
[0002]随着网络技术的不断发展,用户越来越依靠搜索引擎来获取网络数据,通常,用户可以通过终端向网络侧的服务器发送搜索请求,服务器中的搜索引擎根据搜索请求中携带的关键词,搜索出包含有所述关键词的文档数据。
[0003]然而,互联网上的数据质量参差不齐,现有技术仅考虑关键词与文档数据字面上的相关程度,并未考虑文档数据所包含的具体内容,排在最前面的字面相关程度高的文档数据信息可能只是包含有用户欲搜索的关键词,并未考虑文档数据所包含的具体内容,从用户的角度来看,并不具有参考价值。
[0004]由此可知,现有的搜索数据处理方法得出的搜索结果的有效性较低。

【发明内容】

[0005]本发明提供一种个性化扩展搜索方法及装置、系统,以提高搜索结果的有效性。
[0006]第一方面,本发明提供一种个性化扩展搜索方法,包括:
[0007]服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
[0008]所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
[0009]所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
[0010]其中,所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合,包括:
[0011]所述服务器获取所述用户终端的标识,根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
[0012]查询所述历史搜索请求记录,获取一个或一个以上的高频词;
[0013]将所述一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
[0014]其中,所述查询所述历史搜索请求记录,获取一个或一个以上的高频词之后,包括:
[0015]所述服务器根据预设的类别,将所述历史搜索请求记录中获取的一个或一个以上的高频词进行归类;
[0016]根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
[0017]其中,所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据,包括:
[0018]所述服务器将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,确定第三关键词集合;
[0019]分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
[0020]其中,所述服务器接收用户终端发送的搜索请求之后,还包括:
[0021]所述服务器将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
[0022]第二方面,提供一种个性化扩展搜索装置,位于服务器侧,其中,包括:
[0023]接收模块,用于接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
[0024]确定模块,用于根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
[0025]获取模块,用于根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
[0026]其中:所述确定模块,还用于根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
[0027]所述获取模块,还用于查询所述确定模块确定的历史搜索请求记录,获取一个或一个以上的闻频词;
[0028]所述确定模块,还用于将所述获取模块获取的一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
[0029]其中,所述装置还包括:
[0030]归类模块,用于根据预设的类别,将所述获取模块获取的一个或一个以上的高频词进行归类;
[0031]所述确定模块,还用于在所述归类模块对所述获取的一个或一个以上的高频词进行归类的基础上,根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
[0032]其中,所述获取模块具体用于:将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,得到第三关键词集合;分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
[0033]其中,所述的装置还包括:
[0034]保存模块,用于将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
[0035]第三方面,提供一种个性化扩展搜索系统,其包括:服务器和用户终端;
[0036]所述服务器包括如第二方面所述的个性化扩展搜索装置;
[0037]所述用户终端,用于向服务器发送搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;以使所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
[0038]本发明的技术效果是:本实施例的服务器在接收用户终端发送的搜索请求时,获取所述搜索请求中包括用户欲搜索的第一关键词;根据所述用户终端发送的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。所述方法不仅考虑了用户欲搜索第一关键词与文档数据相关程度,还同时考虑了历史搜索请求记录中出现的包括高频字段的第二关键词集合,第二关键词体现用户的喜好或者用户的兴趣(个性化),结合用户欲搜索的第一关键词和用户感兴趣的第二关键词集合,得到相应的搜索结果。较现有技术,采用本发明实施例提供的所述方法得出的搜索结果的有效性更高,体现了用户个性化的搜索要求。
【专利附图】

【附图说明】
[0039]图1为本发明实施例一提供的个性化扩展搜索方法的流程示意图;
[0040]图2为本发明实施例二提供的个性化扩展搜索装置的结构示意图;
[0041]图3为本发明实施例三提供的服务器的结构示意图。
【具体实施方式】
[0042]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]本发明实施例所述的服务器为提供搜索引擎功能的服务器,例如包括360搜索引擎服务器;用户终端例如包括台式电脑或笔记本电脑等计算设备,或者包括用户手机等移动设备。
[0044]如图1所示,本发明实施例一提供的个性化扩展搜索方法的流程示意图。如图所示,本实施例一所述方法包括:
[0045]步骤101、服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
[0046]在实际应用中,用户通过用户终端在服务器提供的搜索功能的界面中输入第一关键词,并点击相应的触发检索的按钮,以生成搜索请求发送到服务器,该搜索请求中携带有用户欲搜索的第一关键词;
[0047]服务器根据用户终端发送的搜索请求,获取该搜索请求中携带的该用户终端的标识(如IP地址),生成与该用户终端的标识对应的历史搜索请求记录,将用户通过该用户终端发送的搜索请求中的第一关键词保存到与该用户终端的标识对应的历史搜索请求记录中。其中,历史搜索请求记录的结构如下表2所示。
[0048]步骤102、服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
[0049]例如,服务器获取搜索请求中携带的用户终端的标识,根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;查询所述历史搜索请求记录,将历史搜索请求记录出现次数超过阈值的关键词确定高频词,将这些高频词确定为第二关键词集合;需要说明的是,在历史搜索请求记录出现次数超过阈值的字段通常体现用户感兴趣的关键词或用户喜好的关键词;
[0050]进一步地,服务器根据与所述用户终端的标识对应的历史搜索请求记录,确定高频词之后,还可以对确定的高频词进行分析归类,比如用户经常搜索的高频词包括“刘德华的影视作品”、“韩寒的作品”、“格子衬衫”、“打底裤”、“保暖鞋”、“好丽友薯片”、“三元牛奶”等,可以将““刘德华的影视作品”、“韩寒的作品”归类为娱乐类的高频词,将“格子衬衫”、“打底裤”、“保暖鞋”归类为服装类的高频词,将“好丽友薯片”、“三元牛奶”归类为食品类的高频词,之后,结合搜索请求中的第一关键词,确定第一关键词的类别,例如第一关键词为“郭敬明的身高”,可以将第一关键词“郭敬明的身高”归类为娱乐类的关键词,从而判断用户当前感兴趣的搜索可能为娱乐类的搜索,对应地,可以将历史搜索请求记录中与第一关键词类别相同的高频词确定为第二关键词集合,即将“刘德华的影视作品”、“韩寒的作品”确定为第二关键词集合。
[0051]步骤103、服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。 [0052]通常,用户搜索的第一关键词中包括一个或一个以上的字段,上述确定第二关键词集合中的第二关键词也包括一个或一个以上的字段;则步骤103可以包括:
[0053]服务器将第一关键词中包括的字段与第二关键词集合中包括的字段进行组合,确定第三关键词集合;
[0054]分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据;
[0055]其中,第三关键词对应的文档数据中包括与该第三关键词对应的网页的统一资源定位符(Uniform/Universal Resource Locator, URL)。
[0056]下面结合附图和【具体实施方式】对本发明的技术方案做进一步的详细说明:
[0057]举例来说,本发明实施例所述的服务器可以释放出网络爬虫,获取因特网上的网页,服务器对获取到的网页进行分词,形成以关键词为索引的索引表;其中,索引表用于根据关键词索引查找网页,可以实现快速高效的网页搜索,索引表中存储有关键词、关键词对应的URL。
[0058]需要说明的是,网络爬虫又名网络蜘蛛(Web spider),是现有技术中的一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,本发明对此不作详细介绍。
[0059]上述索引表的结构如表1所示:
关键词__网页RUL_
【权利要求】
1.一种个性化扩展搜索方法,其包括: 服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词; 所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合; 所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
2.根据权利要求1所述的方法,其中,所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合,包括: 所述服务器获取所述用户终端的标识,根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录; 查询所述历史搜索请求记录,获取一个或一个以上的高频词,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词; 将所述一个或一个以上的高频词确定为第二关键词,得到第二关键词集合。
3.根据权利要求2所述的方法,其中,所述查询所述历史搜索请求记录,获取一个或一个以上的高频词之后,包括: 所述服务器根据预设的类别,将所述历史搜索请求记录中获取的一个或一个以上的高频词进行归类; 根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
4.根据权利要求1-3任一项所述的方法,其中,所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据,包括: 所述服务器将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,确定第三关键词集合; 分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
5.根据权利要求1所述的方法,其中,所述服务器接收用户终端发送的搜索请求之后,还包括: 所述服务器将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
6.一种个性化扩展搜索装置,位于服务器侧,其中,包括: 接收模块,用于接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词; 确定模块,用于根据所述用户终端的历史搜索请求记录,确定第二关键词集合; 获取模块,用于根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
7.根据权利要求6所述的装置,其中: 所述确定模块,还用于根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录; 所述获取模块,还用于查询所述确定模块确定的历史搜索请求记录,获取一个或一个以上的闻频词; 所述确定模块,还用于将所述获取模块获取的一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
8.根据权利要求7所述的装置,其中,还包括: 归类模块,用于根据预设的类别,将所述获取模块获取的一个或一个以上的高频词进行归类; 所述确定模块,还用于在所述归类模块对所述获取的一个或一个以上的高频词进行归类的基础上,根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
9.根据权利要求6-8任一项所述的装置,其中,所述获取模块具体用于: 将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,得到第三关键词集合;分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
10.根据权利要求6所述的装置,其中,还包括: 保存模块,用于将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
11.一种个性化扩展搜索系统,其包括:服务器和用户终端; 所述服务器包括如权利要 求6-10任一项所述的个性化扩展搜索装置; 所述用户终端,用于向服务器发送搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;以使所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
【文档编号】G06F17/30GK103617266SQ201310642388
【公开日】2014年3月5日 申请日期:2013年12月3日 优先权日:2013年12月3日
【发明者】李天华 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1