一种数据搜索方法及装置的制造方法

文档序号:9417380阅读:211来源:国知局
一种数据搜索方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,特别涉及一种数据搜索方法及装置。
【背景技术】
[0002]经过近几年的互联网技术的飞速发展,互联网的业务不断增加,人们基于互联网可以接触到各种各样的信息,网络也成为人们日常工作和生活中不可或缺的一部分。比如,用户可以利用互联网收发工作邮件、进行视频会议等;或者,利用互联网浏览新闻、听音乐、购物、订餐、观看视频等。当用户获取自身需要的信息时,需要利用对应的搜索工具,从互联网海量的信息中搜索并查找出自身所需要的信息;在这种情况下,互联网作为海量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。
[0003]搜索引擎作为一个辅助人们检索信息的工具,成为用户访问互联网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。例如,搜索引擎接收到是用户输入的关键词后,WEB服务器根据上述关键词进行爬虫搜索,得到对应的爬虫结果数据;在对上述关键词进行爬虫搜索时,针对每个关键词所采用的爬虫执行时间是一样的;或者说,针对每一类关键词,执行爬虫搜索时所采用的爬虫执行时间是相同的。如此一来,针对紧急任务中权重较大的关键词的爬虫搜索则不能优先处理,数据搜索方式不够智能。

【发明内容】

[0004]本发明实施例提供一种数据搜索方法及装置,用以根据待搜索的关键词的权重动态调整爬虫执行时间,实现基于关键词的权重,执行高效、精确的数据搜索。
[0005]本发明实施例提供一种数据搜索方法,包括:
[0006]获取用户输入的搜索关键词;
[0007]从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
[0008]根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
[0009]根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
[0010]执行对应的爬虫任务,获取爬虫结果。
[0011]在一个实施例中,所述搜索关键词对应的关键词属性包括:
[0012]关键词唯一标识码、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;
[0013]其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。
[0014]在一个实施例中,所述根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列,包括:
[0015]按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
[0016]识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
[0017]根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列。
[0018]在一个实施例中,所述执行对应的爬虫任务,获取爬虫结果,包括:
[0019]识别执行的爬虫任务是日常任务还是紧急任务;
[0020]若识别出执行的爬虫任务为日常任务,则执行如下操作:
[0021]查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;
[0022]若存在所述爬虫任务对应的历史数据,则将所述历史数据反馈至用户;
[0023]若不存在所述爬虫任务对应的历史数据,则在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
[0024]若识别出执行的爬虫任务为紧急任务,则执行如下操作:
[0025]更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
[0026]在一个实施例中,所述一种数据搜索方法还包括:
[0027]按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
[0028]对应于以上实施例所提供的一种数据搜索方法,本发明实施例还提供了一种数据搜索装置,包括:
[0029]获取模块,用于获取用户输入的搜索关键词;
[0030]提取模块,用于从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
[0031]发送模块,用于根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
[0032]配置模块,用于根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
[0033]执行模块,用于执行对应的爬虫任务,获取爬虫结果。
[0034]在一个实施例中,所述搜索关键词对应的关键词属性包括:
[0035]关键词唯一标识码、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;
[0036]其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。
[0037]在一个实施例中,所述发送模块包括:
[0038]提取单元,用于按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
[0039]类型识别单元,用于识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
[0040]发送单元,用于根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列。
[0041 ] 在一个实施例中,所述执行模块包括:
[0042]任务识别单兀,用于识别执行的爬虫任务是日常任务还是紧急任务;
[0043]日常任务执行单元,用于若所述任务识别单元识别出执行的爬虫任务为日常任务,则执行如下操作:
[0044]查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;
[0045]若存在所述爬虫任务对应的历史数据,则将所述历史数据反馈至用户;
[0046]若不存在所述爬虫任务对应的历史数据,则在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
[0047]紧急任务执行单元,用于若所述任务识别单元识别出执行的爬虫任务为紧急任务,则执行如下操作:
[0048]更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
[0049]在一个实施例中,所述一种数据搜索装置还包括:
[0050]更新模块,用于按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
[0051]以上实施例所描述的一种数据搜索方法及
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1