一种搜索网页的方法和装置制造方法

文档序号:6485606阅读:165来源:国知局
一种搜索网页的方法和装置制造方法
【专利摘要】本发明公开了一种搜索网页的方法和装置,属于网络【技术领域】。所述方法包括:根据第一网页地址,访问所述第一网页地址指示的网页;获取访问的所述网页的网页信息;从所述网页信息中提取第二网页地址。本发明通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法搜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。
【专利说明】 一种搜索网页的方法和装置
【技术领域】
[0001]本发明涉及网络【技术领域】,特别涉及一种搜索网页的方法和装置。
【背景技术】
[0002]随着互联网技术的迅速发展、网页内容的不断丰富,网页浏览的速度会受到影响。为了优化网页,提高网页浏览的速度,现有技术通常通过搜索网页并获取网页的网页信息,对网页信息加以分析,从而得到网页优化的方法,进而提高网页浏览的速度。而其中搜索网页的方法一般是通过手动搜索网页,该手动搜索网页的过程包括:技术人员手动填写指定网页,并对其进行访问,每当访问完成吋,继续对其他指定网页进行访问,在访问过程中获取网页信息,直到所有指定网页访问完毕。
[0003]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0004]手动对指定网页进行捜索,在整个搜索过程中均需要技术人员參与,不仅搜索网页的数量受到局限、效率低下,且成本高。

【发明内容】

[0005]为了解决搜索网页时数量受到局限、效率低下,成本高的问题,本发明实施例提供了一种搜索网页的方法和装置。所述技术方案如下:
[0006]一种搜索网页的方法,所述方法包括:
[0007]根据第一网页地址,访问所述第一网页地址指示的网页;
[0008]获取访问的所述网页的网页信息;
[0009]从所述网页信息中提取第二网页地址。
[0010]根据第一网页地址,访问所述第一网页地址指示的网页,之前包括:
[0011]获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址;
[0012]和/或,
[0013]获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
[0014]所述搜索配置信息还包括预设网页深度;
[0015]相应地,从所述网页信息中提取第二网页地址,之后包括:
[0016]当所述第二网页地址达到所述预设网页深度时,结束;
[0017]当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
[0018]所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
[0019]相应地,根据第一网页地址,访问所述第一网页地址指示的网页,包括:
[0020]根据所述捜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
[0021]所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;[0022]相应地,获取访问的所述网页的网页信息,包括:
[0023]根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
[0024]根据第一网页地址,访问所述第一网页地址指示的网页,之后包括:
[0025]检测所述搜索配置信息是否发生变化,当所述搜索配置信息中的任ー项发生变化时,根据变化后的捜索配置信息更新所述搜索配置信息。
[0026]所述搜索配置信息还包括预设网页类型,
[0027]相应地,从所述网页信息中提取第二网页地址,包括:
[0028]遍历所述网页信息中的网页地址;
[0029]从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
[0030]获取访问的所述网页的网页信息,之后包括:
[0031]当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息,如果是,则丢弃所述网页信息,如果否,则保存所述网页信息。
[0032]所述网页信息为所访问网页的源代码。
[0033]一种搜索网页的装置,所述装置包括:
[0034]访问模块,用于根据第一网页地址访问所述第一网页地址指示的网页;
[0035]第一获取模块,用于获取访问的所述网页的网页信息;
[0036]提取模块,用于从所述网页信息中提取第二网页地址。
[0037]所述装置还包括:
[0038]第二获取模块,用于获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址;
[0039]和/或,
[0040]第三获取模块,用于获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
[0041]所述搜索配置信息还包括预设网页深度;
[0042]相应地,所述装置还包括:
[0043]第一判断模块,用于判断所述第二网页地址是否达到所述预设网页深度;
[0044]当所述第二网页地址达到所述预设网页深度吋,结束;
[0045]当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
[0046]所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页
数量;
[0047]相应地,所述访问模块具体用于根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
[0048]所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
[0049]相应地,所述第一获取模块具体用于根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
[0050]所述装置还包括:
[0051]检测模块,用于检测所述搜索配置信息是否发生变化,所述搜索配置信息中的任一项发生变化时,则触发用于根据变化后的捜索配置信息更新所述搜索配置信息的更新模块。
[0052]所述搜索配置信息还包括预设网页类型,
[0053]相应地,所述提取模块包括:
[0054]遍历单元,用于遍历所述网页信息中的网页地址;
[0055]提取单元,用于从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
[0056]所述装置还包括:
[0057]第二判断模块,用于当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息;
[0058]处理模块,用于根据所述第二判断模块判断的结果处理所述网页信息;
[0059]当所述第二判断模块确定已经保存过所述网页信息,则触发所述处理模块丢弃所述网页信息,当所述判断模块确定未保存过所述网页信息,则触发所述处理模块保存所述网页信息。
[0060]所述网页信息为所访问网页的源代码。
[0061]本发明实施例提供的技术方案带来的有益效果是:
[0062]通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法捜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。
【专利附图】

【附图说明】
[0063]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0064]图1是本发明实施例提供的一种搜索网页的方法流程图;
[0065]图2是本发明实施例提供的一种搜索网页的方法流程图;
[0066]图3是本发明实施例提供的一种搜索网页的装置结构示意图。
【具体实施方式】
[0067]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进ー步地详细描述。
[0068]实施例一
[0069]图1是本发明实施例提供的一种搜索网页的方法的流程图。该实施例的执行主体为搜索网页的装置,该装置可位于具有网络功能的終端或服务器上,參见图1,该实施例具体包括:
[0070]101、根据第一网页地址,访问所述第一网页地址指示的网页;
[0071]102、获取访问的所述网页的网页信息;[0072]103、从所述网页信息中提取第二网页地址。
[0073]可选地,
[0074]根据第一网页地址,访问所述第一网页地址指示的网页,之前包括:
[0075]获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址;
[0076]和/或,
[0077]获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
[0078]可选地,
[0079]所述搜索配置信息还包括预设网页深度;
[0080]相应地,从所述网页信息中提取第二网页地址,之后包括:
[0081]当所述第二网页地址达到所述预设网页深度时,结束;
[0082]当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
[0083]可选地,
[0084]所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页
数量;
[0085]相应地,根据第一网页地址,访问所述第一网页地址指示的网页,包括:
[0086]根据所述捜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
[0087]可选地,
[0088]所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
[0089]相应地,获取访问的所述网页的网页信息,包括:
[0090]根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
[0091]可选地,
[0092]根据第一网页地址,访问所述第一网页地址指示的网页,之后包括:
[0093]检测所述搜索配置信息是否发生变化,当所述搜索配置信息中的任ー项发生变化时,根据变化后的捜索配置信息更新所述搜索配置信息。
[0094]可选地,
[0095]所述搜索配置信息还包括预设网页类型,
[0096]相应地,从所述网页信息中提取第二网页地址,包括:
[0097]遍历所述网页信息中的网页地址;
[0098]从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
[0099]在本发明实施例中,通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法捜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。
[0100]实施例ニ
[0101]图2是本发明实施例提供的一种搜索网页的方法的流程图,该实施例的执行主体为搜索网页的装置,该装置可位于具有网络功能的終端或服务器上,參见图2,该实施例具体包括:
[0102]201:获取预先配置的捜索配置信息,该搜索配置信息至少包括第一网页地址;
[0103]在本实施例中,捜索配置信息的获取可以有多种方式,包括但不限于下述两种:
(1)为技术人员提供用于设置捜索配置信息的接ロ,由技术人员在操作过程中输入数据,当该装置接收到数据时,将数据作为捜索配置信息。(2)该搜索配置信息还可以为技术人员在开发该捜索功能的过程中设置的默认搜索配置信息,每当启动该搜索功能时,即将该默认搜索配置信息获取为预先配置的搜索配置信息。
[0104]第一网页地址是该捜索网页过程开始时所使用的网址,第一网页地址可以是技术人员在操作过程中,通过为技术人员提供的用于设置捜索配置信息的接ロ,输入网页的网址,该装置通过接ロ接收到网页的网址后,将该接收到的网页的网址作为第一网页地址;该第一网页地址也可以是技术人员在开发该捜索功能的过程中设置的,例如:技术人员在开发该搜索功能的过程中,将第一网页地址设置为WWW.a.com,姆当启动该搜索功能时,获取预先配置的搜索配置信息,该搜索配置信息包含第一网页地址www.a.com。
[0105]需要说明的是,该搜索配置信息至少包括两个或两个以上第一网页地址,也即是,在该搜索网页过程开始时所使用的第一网页地址可以是ー个,还可以是两个或两个以上,本发明对此不做具体限定。
[0106]本领域技术人员可以获知,当用户有搜索网页的需求时,启动捜索网页功能,步骤201即为该捜索网页过程的第一歩。
[0107]202、根据第一网页地址,访问所述第一网页地址指示的网页;
[0108]本领域技术人员可以获知,根据网页地址访问所指示的网页是现有技术,在本发明中不做赘述。
[0109]进ー步地,捜索配置信息还包括预设线程数,预设线程数是用于指示同时访问的网页数量,其中,该预设线程数由技术人员进行设置或调整,本发明实施例对此不做具体限定。
[0110]相应地,步骤202具体包括:当捜索配置信息包括两个或两个以上第一网页地址时,終端同时访问两个或两个以上第一网页地址中符合预设线程数所指示的网页。
[0111]例如,当捜索配置信息包括的预设线程数为10,则当搜索配置信息包括两个或两个以上第一网页地址时,終端同时对两个或两个以上第一网页地址中10个地址所指示的网页进行访问。
[0112]进ー步地,終端记录每次捜索网页过程时所使用的线程数及该次搜索网页过程的捜索速度,根据线程数和捜索速度进行分析,获取使得捜索网页过程捜索速度最快、效果最好的线程数作为最优线程数,在后续的搜索过程中,可应用该最优线程数,以使搜索网页的效率大大提尚。
[0113]203、获取访问的所述网页的网页信息;
[0114]其中,网页信息是指当前坊问网页的源代码。源代码(source code)是指未编译的按照一定的程序设计语言规范书写的文本文件。在对网页进行访问时,获取该网页的源代码。
[0115]进ー步地,当获取到访问的所述网页的网页信息时,获取该网页的URL(UniversalResource Locator,统ー资源定位符),相应地,当获取到访问的网页的网页信息时,判断是否保存过该网页的网页信息。具体地,,判断是否保存过该网页的网页信息包括:判断是否保存过该网页的URL,如果是,则认为保存过该网页的网页信息,丢弃(或不保存)获取到的所述网页信息;如果否,则认为未保存过该网页的网页信息,保存获取到的所述网页信息。需要说明的是,由于每个网页的URL具有唯一性,即ー个网页对应ー个唯一的URL,因此可将网页的URL作为判断是否已保存过该网页的网页信息的条件。
[0116]当捜索配置信息包括两个或两个以上第一网页地址时,分别获取所访问的两个或两个以上第一网页地址中每ー个第一网页地址所指示网页的网页信息。
[0117]进ー步地,捜索配置信息还包括日志配置信息,日志配置信息用于指示保存的信息类型,该日志配置信息可以由技术人员进行设置和调整,本发明实施例对此不做具体限定。由于每个网页的网页信息很多,終端仅对获取到的网页信息中符合日志配置信息所指示的信息类型的信息进行保存,达到了有针对性保存信息,并节约了存储空间。
[0118]204、从所述网页信息中提取第二网页地址;
[0119]具体地,该步骤204包括:遍历该网页的网页信息,在遍历过程中从所述网页信息中提取第二网页地址。
[0120]其中,在遍历过程中从所述网页信息中提取第二网页地址,具体包括:提取获取到的源代码中的超文本引用外部链接中的网页地址,将超文本引用外部链接中的网页地址作为第二网页地址。本领域技术人员可以获知,该超文本引用外部链接是指〈a href =〃URL〃>name</a>。
[0121]进ー步地,所述搜索配置信息还包括预设网页类型,该预设网页类型用于指示该次捜索的目标网页类型,该预设网页类型可以根据网页链接的后缀区分,如后缀为CSS,jsp, pngo
[0122]相应地,该步骤204包括:根据预设网页类型,遍历所述网页信息中的网页地址;从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。例如,当用户需要对后缀为CSS的网页进行搜索时,可将网页类型预设为CSS,根据预设网页类型,遍历所述网页信息中的网页地址;从所述网页信息的网页地址中提取后缀为CSS的第二网页地址。
[0123]进ー步地,捜索配置信息还包括预设网页深度,其中,该网页深度为网站域名的级另IJ,该级别可以包括一级网页、ニ级网页、三级网页等等。
[0124]例如:登录首页为www.a.com/的网页,在首页里有很多子网页可供选择,其中“视频”网页的网址为V.a.com/,则定义此“视频”网页为一级网页;在“视频”网页里按分类索引有“电影”、“电视剧”、“动漫”、“综艺”等,其中“电影”网页的网址为V.a.com/movie/index, html/,则定义此“电影”网页为ニ级网页;在“电影”网页里按类型索引有“动作”、“喜剧”、“爱情”等,其中“动作”网页的网址为 V.a.com/list2/l_0_-l_-l_l_0_0_20_-l_-l.html/,则定义此“动作”网页为三级网页,依次类推;
[0125]在所述网页信息中提取到第二网页地址之后,该实施例还包括:判断该第二网页地址的网页深度是否达到捜索配置信息所包括的预设网页深度;当第二网页地址达到捜索配置信息里的网页深度吋,则结束捜索网页过程;当第二网页地址未达到捜索配置信息里的网页深度吋,则继续搜索网页过程。[0126]例如,捜索配置信息所包括的预设网页深度为ー级网页,比如捜索到的首页为WWW.b.com,则首页所包括的所有子网页地址指示的网页均为ー级网页,当提取到的第二网页地址已经包括了所有的ー级网页时,则认为该第二网页地址的网页深度达到了捜索配置信息所包括的预设网页深度。
[0127]需要说明的是,由于每个网页所含有的网页信息都不同,因此网页信息中所包含的第二网页地址也就不同,因此需要对各个网页的网页信息分别进行提取。
[0128]205:把第二网页地址作为第一网页地址,并执行202 ;
[0129]通过把第二网页地址作为第一网页地址,并执行202,以达到循环往复的搜索网页,直到第二网页地址达到捜索配置信息的网页深度,则搜索结束,因而达到了捜索大量网页的目的,使得网页搜索可以持续进行,井根据已得到的第二网页地址获取到更多的网页;
[0130]进ー步地,该实施例还包括:实时检测搜索配置信息是否发生变化,当在捜索网页的过程中,检测到捜索配置信息的任一项发生变化时,则更新所述搜索配置信息。其中,搜索配置信息具体包括第一网页地址、预设线程数、日志配置信息、网页类型和网页深度中的任ー项或几项,
[0131]例如:检测到捜索配置信息中的第一网页地址发生变化,则在步骤202中,根据变化后的第一网页地址访问该所述变化后的第一网页地址指示的网页,之后再继续进行后续步骤;又如,在步骤202之前,检测到捜索配置信息中的预设线程数发生变化,则步骤202中,終端同时访问第一网页地址指示的网页的数量要根据变化后的预设线程数进行同时访问,之后再继续进行后续步骤;又如,在步骤203之前,检测到捜索配置信息中的日志配置信息发生变化,则步骤203中,保存的网页信息要根据变化后的日志配置信息进行保存,之后再继续进行后续步骤;又如,在步骤204之前,检测到捜索配置信息中的网页类型发生变化,则步骤204中,从所述网页信息的网页地址中提取的第二网页地址要根据变化后的网页类型进行提取,之后再继续进行后续步骤;再如,在步骤204之前,检测到捜索配置信息中的网页深度发生变化,则步骤204中,第二网页地址要达到变化后的网页深度,之后再继续进行后续步骤。
[0132]进ー步地,该步骤205之后,还包括:
[0133]根据获取的网页信息,对网页信息进行分析,从而可以获知网页信息的中各个类型信息的数据量,井根据访问需要以及各个类型信息的数据量对网页浏览方法进行设置和调整,可以优化网页,提高网页浏览的速度。
[0134]在本发明实施例中,通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法捜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。进ー步地,从网页信息中提取大量第二网页地址后,把第二网页地址作为第一网页地址,再继续访问第一网页地址所指示的网页,使得对网页的捜索可以循环往复。
[0135]实施例三
[0136]图3是本发明实施例提供的一种搜索网页的装置结构示意图,參见图3,该装置包括:
[0137]访问模块301,用于根据第一网页地址访问所述第一网页地址指示的网页;
[0138]第一获取模块302,用于获取访问的所述网页的网页信息;
[0139]提取模块303,用于从所述网页信息中提取第二网页地址。
[0140]可选地,所述装置还包括:
[0141]第二获取模块304,用于获取预先配置的捜索配置信息,所述搜索配置信息包括第ー网页地址;
[0142]和/或,
[0143]第三获取模块305,用于获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
[0144]可选地,所述搜索配置信息还包括预设网页深度;
[0145]相应地,所述装置还包括:
[0146]第一判断模块306,用于判断所述第二网页地址是否达到所述预设网页深度;
[0147]当所述第二网页地址达到所述预设网页深度吋,结束;
[0148]当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
[0149]可选地,所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;
[0150]相应地,所述访问模块301具体用于根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
[0151 ] 可选地,所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;
[0152]相应地,所述第一获取模块302具体用于根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
[0153]可选地,所述装置还包括:
[0154]检测模块307,用于检测所述搜索配置信息是否发生变化,所述搜索配置信息中的任一项发生变化时,则触发用于根据变化后的捜索配置信息更新所述搜索配置信息的更新模块308。
[0155]可选地,所述搜索配置信息还包括预设网页类型,
[0156]相应地,所述提取模块303包括:
[0157]遍历单元,用于遍历所述网页信息中的网页地址;
[0158]提取单元,用于从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
[0159]可选地,所述装置还包括:
[0160]第二判断模块309,用于当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息;
[0161]处理模块310,用于根据所述第二判断模块判断的结果处理所述网页信息;
[0162]当所述第二判断模块309确定已经保存过所述网页信息,则触发所述处理模块310丢弃所述网页信息,当所述第二判断模块309确定未保存过所述网页信息,则触发所述处理模块310保存所述网页信息。[0163]可选地,所述网页信息为所访问网页的源代码。
[0164]需要说明的是:上述实施例提供的捜索网页的装置在捜索网页时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种搜索网页的方法和一种搜索网页的装置实施例属于同ー构思,其具体实现过程详见方法实施例,这里不再赘述。
[0165]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0166]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于ー种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0167]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种搜索网页的方法,其特征在于,所述方法包括: 根据第一网页地址,访问所述第一网页地址指示的网页; 获取访问的所述网页的网页信息; 从所述网页信息中提取第二网页地址。
2.根据权利要求1所述的方法,其特征在于,根据第一网页地址,访问所述第一网页地址指示的网页,之前包括: 获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址; 和/或, 获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
3.根据权利要求2所述的方法,其特征在干, 所述搜索配置信息还包括预设网页深度; 相应地,从所述网页信息中提取第二网页地址,之后包括: 当所述第二网页地址达到所述预设网页深度时,结束; 当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
4.根据权利要求2所述的方法,其特征在干,` 所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量; 相应地,根据第一网页地址,访问所述第一网页地址指示的网页,包括: 根据所述捜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
5.根据权利要求2所述的方法,其特征在干, 所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型; 相应地,获取访问的所述网页的网页信息,包括: 根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
6.根据权利要求2-5任一项所述的方法,其特征在于,根据第一网页地址,访问所述第ー网页地址指示的网页,之后包括: 检测所述搜索配置信息是否发生变化,当所述搜索配置信息中的任ー项发生变化吋,根据变化后的捜索配置信息更新所述搜索配置信息。
7.根据权利要求1所述的方法,其特征在干, 所述搜索配置信息还包括预设网页类型, 相应地,从所述网页信息中提取第二网页地址,包括: 遍历所述网页信息中的网页地址; 从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
8.根据权利要求1所述的方法,其特征在于,获取访问的所述网页的网页信息,之后包括: 当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息,如果是,则丢弃所述网页信息,如果否,则保存所述网页信息。
9.根据权利要求1所述的方法,其特征在于,所述网页信息为所访问网页的源代码。
10.一种搜索网页的装置,其特征在于,所述装置包括: 访问模块,用于根据第一网页地址访问所述第一网页地址指示的网页; 第一获取模块,用于获取访问的所述网页的网页信息; 提取模块,用于从所述网页信息中提取第二网页地址。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括: 第二获取模块,用于获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址; 和/或, 第三获取模块,用于获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。
12.根据权利要求11所述的装置,其特征在干, 所述搜索配置信息还包括预设网页深度; 相应地,所述装置还包 括: 第一判断模块,用于判断所述第二网页地址是否达到所述预设网页深度; 当所述第二网页地址达到所述预设网页深度时,结束; 当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。
13.根据权利要求11所述的装置,其特征在干, 所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量; 相应地,所述访问模块具体用于根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。
14.根据权利要求11所述的装置,其特征在干, 所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型; 相应地,所述第一获取模块具体用于根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。
15.根据权利要求11-14任一项所述的装置,其特征在于,所述装置还包括: 检测模块,用于检测所述搜索配置信息是否发生变化,所述搜索配置信息中的任ー项发生变化时,则触发用于根据变化后的捜索配置信息更新所述搜索配置信息的更新模块。
16.根据权利要求11所述的装置,其特征在干, 所述搜索配置信息还包括预设网页类型, 相应地,所述提取模块包括: 遍历单元,用于遍历所述网页信息中的网页地址; 提取单元,用于从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括: 第二判断模块,用于当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息;处理模块,用于根据所述第二判断模块判断的结果处理所述网页信息; 当所述第二判断模块确定已经保存过所述网页信息,则触发所述处理模块丢弃所述网页信息,当所述第二判断模块确定未保存过所述网页信息,则触发所述处理模块保存所述网页信息。
18.根据权利要求10 所述的装置,其特征在于,所述网页信息为所访问网页的源代码。
【文档编号】G06F17/30GK103455492SQ201210171234
【公开日】2013年12月18日 申请日期:2012年5月29日 优先权日:2012年5月29日
【发明者】袁建发, 廖志, 叶方正, 宁京, 王伟, 郭宗飞, 李洁 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1