网页链接检测方法及装置的制造方法_2

文档序号:9551304阅读:来源:国知局
61]所述第一预设条件至少包括:所述待检测网页网址格式正确。
[0062]本实施例中,首先判断待检测网页网址格式是否正确。因为,如果不考虑待检测网页网址的格式是否正确,直接对该网页内容进行解析,则即便解析结果中有待检测链接,则也会因为网页格式不正确而无法被访问,因此该过程是毫无意义的,而且,浪费了服务器的资源,降低了整个检测过程的效率。
[0063]步骤S103:判断所述待检测链接是否符合第二预设条件,若是,则执行步骤S104,若否,则执行步骤S105;
[0064]所述第二预设条件至少包括:所述待检测链接存在于所述待检测网页a标签中;
[0065]在保证网页网址正确的前提下,判断待检测链接是否存在于待检测网页的a标签中。a标签用于定义超链接,用于实现从一张页面链接到另一张页面。如果待检测链接只是在网页上所有显示,但是并没有存在于a标签中,则该链接是无效的,是不具有被访问的功能的。
[0066]步骤S104:所述待检测链接有效;
[0067]步骤S105:所述待检测链接无效。
[0068]本发明实施例提供的网页链接检测方法中,先通过判断网页网址格式是否正确的方式,筛选掉网页格式错误的网页,进而避免对这些网页上的链接进行检测,提高了检测的效率,节省了服务器的开销。
[0069]并且,本发明实施例中,对于待检测链接的检测过程,通过判断待检测链接是否存在于a标签中,来准确的判断该链接是否有效,进一步提升了检测结果的准确性。
[0070]在上述实施例中,判断所述待检测网页网址是否符合第一预设条件的过程如图2所示,包括:
[0071]步骤S201:判断所述待检测网页网址是否以预设字符为开头,若是,则执行步骤S202,若否,则执行步骤S204 ;
[0072]本实施例中的预设字符为http:1I。
[0073]步骤S202:判断所述待检测网页网址是否以预设域名后缀为结尾,若是,则执行步骤S203,若否,则执行步骤S204。
[0074]本实施例中的预设域名后缀可以为.com,.cn等。
[0075]步骤S203:所述待检测网页网址符合第一预设条件;
[0076]步骤S204:所述待检测网页网址不符合第一预设条件。
[0077]只有当网页网址为以http://为开头,以.com,.cn等域名等级后缀为结尾时,才能认定该网页网址的格式为正确。
[0078]本发明提供的又一实施例中,第一预设条件除包括:所述待检测网页网址格式正确外,还包括:待检测网页网址的域名等级为预设等级。
[0079]结合该特征,在本实施例中,判断所述待检测网页网址是否符合第一预设条件的过程如图3所示,包括:
[0080]步骤S301:判断所述待检测网页网址是否以预设字符为开头,以预设域名后缀为结尾,若是,则执行步骤S302,若否,则执行步骤S304 ;
[0081]步骤S302:判断所述待检测网页网址的域名等级是否为预设等级,若是,则执行步骤S303,若否,则执行步骤S304 ;
[0082]在本实施例中,在网页网址格式正确的基础上,再次判断该网页网址的域名等级,如果其等级为预设等级,例如独立域名等级或二级域名等级,则确定其符合条件。
[0083]步骤S303:所述待检测网页网址符合所述预设第一条件;
[0084]步骤S304:所述待检测网页网址不符合所述预设第一条件。
[0085]本实施例中设定的预设等级为独立域名等级或二级域名等级。之所以设置该预设等级,是因为,当前页面在搜索引擎中,有些域名等级拥有较高的权重,例如,独立域名等级和二级域名等级,如果网页网址为独立域名等级或者二级域名等级,则说明该网页具有一定的权威性,相应的,添加在其上的链接同理具有较高的可靠性和有效性。所以,对于网页网址不为预设等级的情况,则说明,网页的等级较低,待检测链接无效的可能性较高,因此,可以利用这一特征,删除一部分网页,不对其进行后续处理,进一步降低了工作量,提高了处理效率。
[0086]在本实施例中,可以通过检测待检测网页网址中的出现的字符“.”的次数来判断。如果字符”出现1次,则可以确定为独立域名等级。如果字符”出现两次,则可以确定为二级域名等级。
[0087]本发明实施例并不限定预设等级为独立域名等级或二级域名等级,其也可以为其他等级的域名等级。
[0088]在上述各个实施例中,第二预设条件还可以包括所述待检测网页标签没有隐藏属性。
[0089]则判断所述待检测链接符合所述第二预设条件的过程如图4所示,包括:
[0090]步骤S401:判断所述待检测链接是否存在于所述待检测网页a标签中,若是,则执行步骤S402,若否,则执行步骤S404 ;
[0091]步骤S402:判断所述待检测网页标签是否有隐藏属性,若是,则执行步骤S403,若否,则执行步骤S404。
[0092]隐藏属性是指待检测链接被放置于JavaScript、frame框架等html语法中或者使用了 nofollow标签语法,这些在网页源码中可以通过检测获取到。如果网页标签有隐藏属性,则隐藏属性中的内容不能被搜索引擎的爬虫阅读或者检测到,意味着隐藏属性中的内容对搜索引擎的爬虫不可见,也就是说,存在于a标签内的待检测链接不能被正常显示,因而也就不能被访问。而如果a标签内没有隐藏属性,则该标签可以有效显示,待检测链接也可以被正常访问。
[0093]步骤S403:所述待检测链接符合所述第二预设条件;
[0094]步骤S404:所述待检测链接不符合所述第二预设条件。
[0095]本实施例提供的方案中,通过判断a标签是否有隐藏属性,进一步筛选了待检测链接,筛除掉了不能被正常显示的情况,从而使得检测结果的准确性进一步提升。
[0096]本发明实施例还提供了另一网页链接检测方法,其流程如图5所示,包括:
[0097]步骤S501:获取待检测网页网址及待检测链接;
[0098]步骤S502:判断所述待检测网页网址格式是否正确,若是,则执行步骤S503,若否,则执行步骤S506 ;
[0099]步骤S503:判断所述待检测网页网址的域名等级是否为预设等级,若是,则执行步骤S504,若否,则执行步骤S505 ;
[0100]所述预设等级为独立域名等级或二级域名等级。
[0101]步骤S504:所述待检测链接有效。
[0102]步骤S505:所述待检测链接无效。
[0103]本发明实施例提供的网页链接检测方法中,本发明实施例提供的网页链接检测方法中,先通过判断网页网址格式是否正确的方式,筛选掉网页格式错误的网页,进而避免对这些网页上的链接进行检测,提高了检测的效率。并且,本实施例中,对网页格式正确的待检测网页进行进一步的判断,当其域名等级为预设等级时,则可以通过域名等级来确定该网页包含的待检测链接的有效性。即,可以直接确定待检测链接为有效。从而大大缩短了检测过程,减小了服务器的开销。
[0104]本发明同时提供了一种网页链接检测装置,其结构如图6所示,包括:
[0105]获取模块601,用于获取待检测网页网址及待检测链接;
[0106]第一判断模块602,用于判断所述待检测网页网址是否符合第一预设条件,所述第一预设条件至少包括:所述待检测网页网址格式正确;
[0107]第二判断模块603,用于在第一判断模块判断出所述待检测网页网址符合所述第一预设条件时,判断所述待检测链接是否符合第二预设条件,所述第二预设条件至少包括:所述待检测链接存在于所述待检测网页a标签中;
[0108]第一结果确定模块604,用于在所述待检测链接符合所述第二预设条件的情况下,所述待检测链接有效;
[0109]第二结果确定模块605,用于在所述待检测网页网址不符合第一预设条件,或,所述待检测链接不符合所述第二预设条件的情况下,所述待检测链接无效。
[0110]进一步的,所述第一判断模块包括:
[0111]第一判断单元,用于判断所述待检测网页网址是否以预设字符为开头,以预设域名后缀为结尾。
[0112]可替换的,所述第一判断模块如图7所示,包括:
[0113]第一判断单元6031,用于判断所述待检测网页网址是否以预设字符为开头,以预设域名后缀为结尾;
[0114]第二判断单元6032,用于在所述待检测网页网址以预设字符为开头,以预设域名后缀为结尾的情况下,判断所述待检测网页网址的域名等级是否为预设等级。
[0115]本发明实施例提供的网页链接检测装置中,先通过判断网页网址格式是否正确的方式,筛选掉网页格式错误的网页,进而避免对这些网页上的链接进行检测,提高了检测的效率,节省了服务器的开销。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1