一种爬取网络数据的方法和装置的制造方法_4

文档序号:9251076阅读:来源:国知局
的网址队列中不存在与所述待添加网址相同的网址,则将所述待添加网址添加到所述网址队列中。
[0081]可选的,所述网址添加指令中还携带有所述待添加网址的优先级;
[0082]所述如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,则丢弃所述待添加网址,包括:
[0083]如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,且所述待添加网址的优先级低于或等于所述网址队列中与所述待添加网址相同的网址的优先级,则丢弃所述待添加网址;
[0084]所述方法还包括:
[0085]如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,且所述待添加网址的优先级高于所述网址队列中与所述待添加网址相同的网址的优先级,则将所述待添加网址添加到所述网址队列中。
[0086]本发明实施例中,按照预设的轮询顺序,在预先存储的域名队列中逐个选取待爬取的域名,在每次选取待爬取的域名后,如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则在选取的域名对应的网址队列中抽取待爬取的网址,对待爬取的网址进行网络数据爬取,如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过预设的时间间隔阈值,则选取下一个待爬取的域名,通过上述方法,如果需要对一个域名进行多次爬取(每次爬取该域名下一个网址中的网络数据),可以控制相邻两次爬取的时间间隔大于预设的时间间隔阈值,进而可以控制对该域名的访问频率不会超过某一上限值,因此,爬取服务器的IP将不会被网站服务器屏蔽,从而可以提高爬取网络数据的效率。
[0087]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0088]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种爬取网络数据的方法,其特征在于,所述方法包括: 按照预设的轮询顺序,在预先存储的域名队列中逐个选取待爬取的域名; 在每次选取待爬取的域名后,如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则在所述选取的域名对应的网址队列中抽取待爬取的网址,对所述待爬取的网址进行网络数据爬取,如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过预设的时间间隔阈值,则选取下一个待爬取的域名。2.根据权利要求1所述的方法,其特征在于,所述如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则在所述选取的域名对应的网址队列中抽取待爬取的网址,对所述待爬取的网址进行网络数据爬取,包括: 如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则根据预先存储的所述选取的域名对应的网址队列中各网址的优先级,在所述选取的域名对应的网址队列中抽取一个待爬取的网址,对所述待爬取的网址进行网络数据爬取。3.根据权利要求1所述的方法,其特征在于,所述在每次选取待爬取的域名后,如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则在所述选取的域名对应的网址队列中抽取待爬取的网址,对所述待爬取的网址进行网络数据爬取,如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过预设的时间间隔阈值,则选取下一个待爬取的域名,包括: 在每次选取待爬取的域名后,获取预先存储的所述待爬取的域名对应的时间间隔阈值,如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过获取到的时间间隔阈值,则在所述选取的域名对应的网址队列中抽取待爬取的网址,对所述待爬取的网址进行网络数据爬取,如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过获取到的时间间隔阈值,则选取下一个待爬取的域名。4.根据权利要求1所述的方法,其特征在于,所述方法还包括: 接收网址添加指令,所述网址添加指令中携带有待添加网址; 获取所述待添加网址对应的域名,如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,则丢弃所述待添加网址,如果获取到的域名对应的网址队列中不存在与所述待添加网址相同的网址,则将所述待添加网址添加到所述网址队列中。5.根据权利要求4所述的方法,其特征在于,所述网址添加指令中还携带有所述待添加网址的优先级; 所述如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,则丢弃所述待添加网址,包括: 如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,且所述待添加网址的优先级低于或等于所述网址队列中与所述待添加网址相同的网址的优先级,则丢弃所述待添加网址; 所述方法还包括: 如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,且所述待添加网址的优先级高于所述网址队列中与所述待添加网址相同的网址的优先级,则将所述待添加网址添加到所述网址队列中。6.一种爬取网络数据的装置,其特征在于,所述装置包括: 选取模块,用于按照预设的轮询顺序,在预先存储的域名队列中逐个选取待爬取的域名; 爬取模块,用于在每次选取待爬取的域名后,如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则在所述选取的域名对应的网址队列中抽取待爬取的网址,对所述待爬取的网址进行网络数据爬取,如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过预设的时间间隔阈值,则选取下一个待爬取的域名。7.根据权利要求6所述的装置,其特征在于,所述爬取模块,用于: 如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则根据预先存储的所述选取的域名对应的网址队列中各网址的优先级,在所述选取的域名对应的网址队列中抽取一个待爬取的网址,对所述待爬取的网址进行网络数据爬取。8.根据权利要求6所述的装置,其特征在于,所述爬取模块,用于: 在每次选取待爬取的域名后,获取预先存储的所述待爬取的域名对应的时间间隔阈值,如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过获取到的时间间隔阈值,则在所述选取的域名对应的网址队列中抽取待爬取的网址,对所述待爬取的网址进行网络数据爬取,如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过获取到的时间间隔阈值,则选取下一个待爬取的域名。9.根据权利要求6所述的装置,其特征在于,所述装置还包括: 接收模块,用于接收网址添加指令,所述网址添加指令中携带有待添加网址; 添加模块,用于获取所述待添加网址对应的域名,如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,则丢弃所述待添加网址,如果获取到的域名对应的网址队列中不存在与所述待添加网址相同的网址,则将所述待添加网址添加到所述网址队列中。10.根据权利要求9所述的装置,其特征在于,所述网址添加指令中还携带有所述待添加网址的优先级; 所述添加模块,用于: 如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,且所述待添加网址的优先级低于或等于所述网址队列中与所述待添加网址相同的网址的优先级,则丢弃所述待添加网址; 所述添加模块,还用于: 如果获取到的域名对应的网址队列中存在与所述待添加网址相同的网址,且所述待添加网址的优先级高于所述网址队列中与所述待添加网址相同的网址的优先级,则将所述待添加网址添加到所述网址队列中。
【专利摘要】本发明公开了一种爬取网络数据的方法和装置,属于互联网技术领域。所述方法包括:按照预设的轮询顺序,在预先存储的域名队列中逐个选取待爬取的域名;在每次选取待爬取的域名后,如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值,则在所述选取的域名对应的网址队列中抽取待爬取的网址,对所述待爬取的网址进行网络数据爬取,如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过预设的时间间隔阈值,则选取下一个待爬取的域名。采用本发明,可以提高爬取网络数据的效率。
【IPC分类】G06F17/30, H04L29/12
【公开号】CN104967698
【申请号】CN201510080944
【发明人】刘杰
【申请人】腾讯科技(深圳)有限公司
【公开日】2015年10月7日
【申请日】2015年2月13日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1