一种网页数据处理方法及装置制造方法

文档序号:6545440阅读:133来源:国知局
一种网页数据处理方法及装置制造方法
【专利摘要】本申请实施例公开了一种网页数据处理方法及装置,其通过获取同一网页地址对应的预设网页和待测网页,并分别在上述预设网页和待测网页中存在实际内容的区域设置第一标识,以上述预设网页为基准,判断待测网页中设置有第一标识的区域是否与预设网页中设置有第一标识的区域匹配,根据判断结果判定该待测网页是否存在过滤问题。本申请能够自动检测多个网站、多个网页地址对应的网页的过滤问题;在某网页地址对应的网页排版样式和/或框架代码改变后,只需相应改变该网页地址对应的预设网页即可继续准确执行自动检测。因此,相对于人工检测法,本申请能够快速、及时地检测出网页存在的过滤问题,提高检测效率,尤其适用于待测网页数量巨大的场合。
【专利说明】一种网页数据处理方法及装置
【技术领域】
[0001]本申请涉及移动通信【技术领域】,特别是涉及一种网页数据处理方法及装置。
【背景技术】
[0002]网站运营者通常会在网页内植入某些商家的数据,例如广告,以相应获得这些商家的赞助,进而保障网站的正常运行及盈利;但对于用户来说,网页中植入的这些数据均属于非有效内容,其存在给用户带来了诸多不便,如:用户在浏览一个新网页时,首先需要区分其中的广告等非有效内容和有效内容;或者,由于广告内容对相应网页区域中有效内容的遮挡,导致用户难以获取该有效内容。为了给用户提供一个洁净的网络环境,多数浏览器都设置有过滤功能,以滤除网页中植入的非有效内容,例如过滤广告;其过滤原理一般为:根据待过滤网页的排版样式、框架代码等特征制定对应的过滤规则,通过该过滤规则来识别网页中的非有效内容(例如广告),并阻断非有效内容在网页中的加载过程或将非有效内容在页面中隐藏,不进行显示。
[0003]但实际应用中,由于网页的排版样式会随着网站的更新而发生变化,或者,网站维护者为避免其植入的数据被过滤而刻意更改网页的排版样式或框架代码等特征,导致预设的过滤规则不再适用于更新后的网页,从而出现过滤失效、误过滤有效内容等过滤问题。因此,需要及时发现上述过滤问题,以便优化过滤方法,提高过滤准确度。
[0004]一般的,通过人工检测法来确定网页是否存在过滤问题,能够保证检测结果的准确性,但由于网站数量巨大,且每个网站每天可能更新十几次甚至更多,该人工检测法无法保证及时检测到每次过滤问题,检测效率极低。

【发明内容】

[0005]本申请实施例中提供了一种网页数据处理方法及装置,以解决人工检测网页过滤问题所存在的检测不及时、效率低的问题,实现快速有效地发现过滤问题。
[0006]为了解决上述技术问题,本申请实施例公开了如下技术方案:
[0007]第一方面,提供一种网页数据处理方法,包括:获取待测网页,以及所述待测网页的网页地址对应的预设网页;分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配;如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。
[0008]结合第一方面,在第一方面第一种可能的实现方式中,所述第一标识为预设颜色,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;当所述实际内容为文字时,设置所述文字的颜色为所述预设颜色;当所述实际内容为图片时,删除所述图片。
[0009]结合第一方面,在第一方面第二种可能的实现方式中,所述第一标识为边框,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别在所述预设网页和待测网页中存在实际内容的区域设置边框;其中,所述边框与所述存在实际内容的区域的边界重合。
[0010]结合第一方面,在第一方面第三种可能的实现方式中,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:分别计算所述预设网页中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积;计算所述第一总面积和第二总面积之间的第三比值;判断所述第三比值是否在预设范围内;如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0011]结合第一方面第三种可能的实现方式,在第一方面第四种可能的实现方式中,在判定所述待测网页存在过滤问题后,所述方法还包括:如果所述第三比值小于所述预设范围的最小值,则判定所述待测网页存在过滤失效;如果所述第三比值大于所述预设范围的最大值,则判定所述待测网页存在误过滤。
[0012]结合第一方面第一种可能的实现方式,在第一方面第五种可能的实现方式中,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同;计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值;判断所述第一比值是否小于第一预设比值;如果所述第一比值小于第一预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0013]结合第一方面第五种可能的实现方式,在第一方面第六种可能的实现方式中,在判定所述待测网页存在过滤问题后,所述方法还包括:判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同;如果所述第一区域的颜色与预设颜色相同,则判定所述第一区域存在过滤失效,否则判定所述第一区域存在误过滤。
[0014]结合第一方面第二种可能的实现方式,在第一方面第七种可能的实现方式中,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:计算所述预设网页中设置有所述边框的区域和待测网页中设置有所述边框的区域不重叠的部分的面积,与所述预设网页中设置有所述边框的区域的总面积之间的第二比值;判断所述第二比值是否小于第二预设比值;如果所述第二比值小于第二预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0015]结合第一方面第七种可能的实现方式,在第一方面第八种可能的实现方式中,在判定所述待测网页存在过滤问题后,所述方法还包括:当所述预设网页中,与所述待测网页中设置有所述边框的第一区域相对应的区域未设置所述边框时,判定所述第一区域存在过滤失效;当所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,判定所述第二区域存在误过滤。
[0016]结合第一方面,或者第一方面的第一种至第八种可能的实现方式中的任意一种,在第一方面第九种可能的实现方式中,在判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配之前,所述网页数据处理方法还包括:分别将所述预设网页和待测网页划分为一一对应的多个比较区域;
[0017]相应的,所述判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。
[0018]第二方面,提供了一种网页数据处理装置,包括:网页获取单元,用于分别获取待测网页,以及所述待测网页的网页地址对应的预设网页;网页标记单元,用于分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;网页匹配单元,用于判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配;结果确定单元,用于在所述预设网页与待测网页中设置有所述第一标识的区域相匹配时,判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。
[0019]结合第二方面,在第二方面第一种可能的实现方式中,所述第一标识包括预设颜色,所述网页标记单元包括:背景设置单元,用于分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;文字处理单元,用于当所述预设网页和/或待测网页中的实际内容为文字时,设置所述文字的颜色为所述预设颜色;图片处理单元,用于当所述预设网页和/或待测网页中的实际内容为图片时,删除所述图片。
[0020]结合第二方面,在第二方面第二种可能的实现方式中,所述第一标识包括边框,所述网页标记单元包括:边框设置单元,用于分别在所述预设网页和待测网页中存在实际内容的区域设置边框;其中,所述边框与所述存在实际内容的区域的边界重合。
[0021]结合第二方面,在第二方面第三种可能的实现方式中,所述网页匹配单元包括:面积计算单元,用于分别计算所述预设网页中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积;第三计算单元,用于计算所述第一总面积和第二总面积之间的第三比值;第三判定单元,用于判断所述第三比值是否在预设范围内;如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0022]结合第二方面第三种可能的实现方式,在第二方面第四种可能的实现方式中,所述网页数据处理装置,还包括:第三子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,比较所述第三比值、所述预设范围的最小值,以及所述预设范围的最大值,并在所述第三比值小于所述预设范围的最小值时,判定所述待测网页存在过滤失效,在如果所述第三比值大于所述预设范围的最大值时,判定所述待测网页存在误过滤。
[0023]结合第二方面第一种可能的实现方式,在第二方面第五种可能的实现方式中,所述网页匹配单元包括:颜色比较单元,用于比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同;第一计算单元,用于计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值;第一判定单元,用于判断所述第一比值是否小于第一预设比值,并在所述第一比值大于第一预设比值时,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。[0024]结合第二方面第五种可能的实现方式,在第二方面第六种可能的实现方式中,所述网页数据处理装置还包括:第一子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同,并在所述第一区域的颜色与预设颜色相同时,判定所述第一区域存在过滤失效,否则判定所述第一区域存在误过滤
[0025]结合第二方面第二种可能的实现方式,在第二方面第七种可能的实现方式中,所述网页匹配单元包括:第二计算单元,用于计算所述预设网页和待测网页中多边形图框不重叠的部分的面积与所述预设网页中多边形图框的总面积之间的第二比值;第二判定单元,用于在所述第二比值不大于第二预设比值时,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。
[0026]结合第二方面第七种可能的实现方式,在第二方面第八种可能的实现方式中,所述网页数据处理装置还包括:第二子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,执行如下判定:如果所述预设网页中,与所述待测网页中设置有所述边框的第一区域相对应的区域未设置所述边框,则判定所述第一区域存在过滤失效;如果所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,则判定所述第二区域存在误过滤。
[0027]结合第二方面,或者第二方面的第一种至第八种可能的实现方式中的任意一种,在第二方面第九种可能的实现方式中,所述网页数据处理装置还包括:区域分割单元,用于分别将所述预设网页和待测网页划分为一一对应的多个比较区域;
[0028]相应的,所述网页匹配单元包括:第一子匹配单元,用于分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。
[0029]第三方面,提供了一种具有处理器可执行的程序代码的计算机可读介质,应用于一网页数据处理设备,所述程序代码使处理器执行下述步骤:获取待测网页,以及所述待测网页的网页地址对应的预设网页;分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配;如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。
[0030]由以上技术方案可见,本申请实施例通过获取同一网页地址对应的预设网页和待测网页,并分别在上述预设网页和待测网页中存在实际内容的区域设置第一标识,以上述预设网页为基准,判断待测网页中设置有第一标识的区域是否与预设网页中设置有第一标识的区域匹配,根据判断结果判定该待测网页是否存在过滤问题;应用本申请实施例,只需为不同的网页地址设置相应的预设网页,就能够自动检测多个网站、多个网页地址对应的网页的过滤问题;在某网页地址对应的网页排版样式和/或框架代码改变后,只需相应改变该网页地址对应的预设网页即可继续准确执行自动检测。因此,相对于人工检测法,本实施例能够快速、及时地检测出网页存在的过滤问题(如过滤失效、误过滤等),提高检测效率,尤其适用于待测网页数量巨大的场合。
【专利附图】

【附图说明】[0031]为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本申请实施例提供的一种网页数据处理方法的流程示意图;
[0033]图2为本申请实施例提供的一种实现图1中步骤S13的方法流程图;
[0034]图3为本申请实施例提供的基于图2所示方法的判断过滤问题类型的方法流程图;
[0035]图4(a)为通过本申请实施例处理得到的一种预设网页的示意图;
[0036]图4(b)为通过本申请实施例处理得到的一种待测网页的示意图;
[0037]图4(c)为通过本申请实施例处理得到的另一种待测网页的示意图;
[0038]图4(d)为通过本申请实施例处理得到的另一种待测网页的示意图;
[0039]图4(e)为通过本申请实施例处理得到的另一种待测网页的示意图;
[0040]图5为本申请实施例提供的另一种网页数据处理方法的流程示意图;
[0041]图6(a)为未经本申请实施例处理的一种网页示意图;
[0042]图6(b)为对图6(a)所示网页执行图5所示步骤S22后的示意图;
[0043]图6 (C)为对图6(b)所不网页中的实际内容进一步处理后的不意图;
[0044]图7为本申请实施例提供的实现图5中步骤S23的一种方法流程图;
[0045]图8为图7所示实施例中预设比较点的示意图;
[0046]图9为本申请实施例提供的实现图5中步骤S23的另一种方法流程图;
[0047]图10为本申请实施例提供的基于网页隔行扫描实现图9中步骤S341?S342的一种方法流程图;
[0048]图11为本申请实施例提供的另一种网页数据处理方法的流程示意图;
[0049]图12为本申请实施例提供的以边框为第一标识的一种网页示意图;
[0050]图13为本申请实施例提供的实现图11中步骤S33的一种方法流程图;
[0051]图14为本申请实施例提供的另一种网页数据处理方法的流程示意图;
[0052]图15为本申请实施例提供的一种预设网页和待测网页的分区结果示意图;
[0053]图16为本申请实施例提供的一种网页数据处理装置的结构示意图;
[0054]图17为本申请实施例提供的另一种网页数据处理装置的结构示意图。
【具体实施方式】
[0055]本申请实施例提供一种网页数据处理方法及装置,以解决人工检测网页过滤问题所存在的检测不及时、效率低的问题。
[0056]为了使本【技术领域】的人员更好地理解本申请实施例中的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
[0057]图1为本申请实施例提供的一种网页数据处理方法的流程图。参照图1,本申请实施例提供的网页数据处理方法包括如下步骤:
[0058]Sll:获取待测网页,以及所述待测网页的网页地址对应的预设网页;
[0059]其中,上述预设网页和待测网页为上述网页地址在不同时刻所对应的两个网页,该预设网页可以为某一历史时刻上述网页地址对应的不存在问题的网页,即该网页对应的是过滤正常的情况下的网页,不存在误过滤或过滤失效的问题。
[0060]S12:分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;
[0061]上述实际内容既包括有效内容,也包括广告等非有效内容。
[0062]S13:判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,如果匹配,则执行步骤S14,否则执行步骤S15 ;
[0063]S14:判定所述待测网页不存在过滤问题;
[0064]S15:判定所述待测网页存在过滤问题。
[0065]由上述步骤可知,本申请实施例通过获取同一网页地址对应的预设网页和待测网页,并分别在上述预设网页和待测网页中存在实际内容的区域设置第一标识,以上述预设网页为基准,判断待测网页中设置有第一标识的区域是否与预设网页中设置有第一标识的区域匹配,根据判断结果判定该待测网页是否存在过滤问题;应用本申请实施例,只需为不同的网页地址设置相应的预设网页,就能够自动检测多个网站、多个网页地址对应的网页的过滤问题;在某网页地址对应的网页排版样式和/或框架代码改变后,只需相应改变该网页地址对应的预设网页即可继续准确执行自动检测。因此,相对于人工检测法,本实施例能够快速、及时地检测出网页过滤问题(如误过滤或过滤失效的问题),提高检测效率,尤其适用于待测网页数量巨大的场合。
[0066]在本申请一个可行的实施例中,可以将经过步骤S12处理后的预设网页和待测网页存储为图片格式,对该图片格式的预设网页和待测网页执行S13所述的判断步骤。
[0067]在本申请另一个可行的实施例中,还可以不将预设网页和待测网页图片化,而是直接根据经过步骤S12处理后的结果,实现S13所述的判断步骤。
[0068]本实施例所述的待测网页中设置有第一标识的区域与预设网页中设置有第一标识的区域相匹配,是指如果预设网页中的某个区域存在第一标识,则待测网页中的对应区域也应当存在第一标识,同时,如果预设网页中的某个区域不存在第一标识,则待测网页中的对应区域也应当不存在第一标识。
[0069]实际应用中,步骤S13所述的判断待测网页中设置有第一标识的区域与预设网页中设置有第一标识的区域是否相匹配的实施方式有多种,图2示意出了一种可行的实施方式。
[0070]参见图2,本申请一个可行实施例提供的网页数据处理方法中,判断待测网页中设置有第一标识的区域与预设网页中设置有第一标识的区域是否相匹配,包括以下步骤:
[0071]S331、分别计算所述预设网页中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积;
[0072]S332、计算所述第一总面积和第二总面积之间的第三比值;
[0073]S333、判断所述第三比值是否在预设范围内,如果是,则执行步骤S334,否则执行步骤S335 ;
[0074]S334、判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。
[0075]S335、判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0076]严格来讲,当待测网页和预设网页中设置有所述第一标识的区域完全匹配时,所述第一总面积应当等于第二总面积,即所述第三比值应当为1,也即所述预设范围应当设置为一阈值,该阈值为I ;但考虑到计算误差的存在、或者为避免频繁修改过滤规则带来的工作负担,可以设定只要所述第三比值在以“I”为核心的预设范围内,则认为所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。其中,所述预设范围的最大值和最小值的确定,可以根据实际检测需求而定,检测精度要求越高,则预设范围的最小值越大、最大值越小;例如,在检测精度要求不高的情况下,可以设置所述预设范围为[0.75,1.35],在检测精度要求较高的情况下,可以设置所述预设范围为[0.95,1.05]。当然,上述预设范围的具体数值仅为基于本申请原理的一种可行的实施方式,不应当认为是对本申请的保护范围的限制。
[0077]在本申请的另一可行实施例中,当通过图2所示实施例,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,即所述待测网页存在过滤问题,还可以继续执行图3所示步骤,以判断过滤问题的具体类型:
[0078]S631、判断所述第三比值是否小于所述预设范围的最小值,如果是,则执行步骤S632,否则执行步骤S633 ;
[0079]S632、判定所述待测网页存在过滤失效;
[0080]S633、判断所述第三比值是否大于所述预设范围的最大值,如果是,则判定所述待测网页存在误过滤。
[0081]上述实施例中列举的两个预设范围的实例[0.75,1.35]和[0.95,1.05],每个预设范围的最大值和最小值与I的差值均相等;可选的,还可以根据对两种类型的过滤问题的不同检测精度,分别设置所述预设范围的最大值和最小值;例如,如果对过滤失效现象的检测精度要求较高,而对误过滤现象的检测精度要求较低,则设置较大的最小值和较大的最大值,如可以设为[0.95,1.35],
[0082]下面参照图4(a)?图4(e)对图2和图3所示的本申请实施例进行阐述。
[0083]图4(a)为通过步骤S12处理后的预设网页的一种示意图,设置有上述第一标识的区域有4个,分别在图4(a)标号为A1、B1、C1和D1,以便于描述;其中,A1、B1、C1和Dl的面积值分别为2、1、1、1.5 ;则该预设网页中设置有第一标识的区域的总面积,即上述第一总面积 SI = A1+B1+C1+D1 = 5.5。
[0084]情景一:若通过步骤S12处理后的待测网页的示意图如图4(b)所示,即待测网页中设置有第一标识的区域亦有4个,标号分别为A2、B2、C2和D2,且Al和A2、B1和B2、C1和C2、D1和D2分别相匹配。其中,A2、B2、C2和D2的面积分别为2、1、1、1.5 ;则可以计算图4(b)所示的待测网页中设置有第一标识的区域的总面积,即上述第二总面积S2 = A2+B2+C2+D2=5.5 ;进而可以计算得到上述第三比值为S1/S2 = 1,即图4(b)所示情况下,第三比值在预设范围内,可以判定该待测网页不存在过滤问题,与直接对比图4(a)和图4(b)得到的结果一致。
[0085]情景二:若通过步骤S12处理后的待测网页的示意图如图4(c)所示,即待测网页中设置有第一标识的区域仅有3个,标号分别为A3、B3和C3。其中,A3、B3和C3的面积分别为2、1、1 ;则可以计算,图4(b)所示的待测网页中设置有第一标识的区域的总面积,即步骤S331中的第二总面积S3 = A3+B3+C3 = 4 ;进而可以计算得到上述第三比值为S1/S3 =1.375。若所述预设范围设置为[0.75,1.35],则图4(c)所示情况下,计算得到的第三比值不在预设范围内,判定网页存在过滤问题。进一步的,由于1.375>1.35,即第三比值大于预设范围的最大值,可以判定图4(c)所示的待测网页存在误过滤,与直接对比图4(a)和图4(b)得到的结果一致。
[0086]情景三:若通过步骤S12处理后的待测网页的示意图如图4(d)所示,即待测网页中设置有第一标识的区域有4个,标号分别为A4、B4、C4和D4。其中,A4、B4、C4和D4的面积分别为2、1、1、2 ;则可以计算图4(b)所示的待测网页中设置有第一标识的区域的总面积,即上述第二总面积S4 = A4+B4+C4+D4 = 6 ;进而可以计算得到上述第三比值为SI/S4?0.92。若所述预设范围设置为[0.75,1.35],则图4(d)所示情况下,第三比值在预设范围内,可以判定该待测网页不存在过滤问题。虽然此情况下,计算得到的第三比值并不为1,即图4(a)的预设网页与图4(d)的待测网页并不是完全匹配,但由于差异较小,在检测精度要求不高的情况下,也可以认为图4(d)的待测网页不存在过滤问题。
[0087]情景四:若通过步骤S12处理后的待测网页的示意图如图4(e)所示,即待测网页中设置有第一标识的区域亦有4个,标号分别为A5、B5、C5和D5。其中,A5、B5、C5和D5的面积分别为2、1、1、4 ;则可以计算图4(e)所示的待测网页中设置有第一标识的区域的总面积,即上述第二总面积S5 = A5+B5+C5+D5 = 8 ;进而可以计算得到上述第三比值为SI/S5?0.69。若所述预设范围设置为[0.75,1.35],则图4(e)所示情况下,计算得到的第三比值不在预设范围内,判定网页存在过滤问题。进一步的,由于0.69<0.75,即第三比值小于预设范围的最小值,可以判定图4(e)所示的待测网页存在过滤失效,与直接对比图4(a)和图4(e)得到的结果一致。
[0088]可选的,在本申请另一可行的实施例中,在得到上述第一总面积和第二总面积后,还可以计算二者的面积差(第一总面积减去第二总面积)与上述第一总面积(或第二总面积)的第四比值,如果该第四比值的绝对值小于预设阈值,则判定所述待测网页不存在过滤问题,反之存在过滤问题;进一步的,如果该第四比值的绝对值不小于(即大于或等于)预设阈值,且该第四比值小于零,则判定所述待测网页存在过滤失效;如果该第四比值的绝对值不小于(即大于或等于)预设阈值,且该第四比值大于零,则判定所述待测网页存在误过滤现象。
[0089]图5为本申请另一实施例提供的网页数据处理方法的流程图。参照图5,该实施例所述的网页数据处理方法包括如下步骤:
[0090]S21:获取待测网页,以及所述待测网页的网页地址对应的预设网页;
[0091]S22:分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;
[0092]S23:判断所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域是否相匹配,如果匹配,则执行步骤S24,否则执行步骤S25 ;
[0093]S24:判定所述待测网页不存在过滤问题;
[0094]S25:判定所述待测网页存在过滤问题。
[0095]对应于图1所示实施例,图5所示实施例以预设颜色为所述第一标识,用于标记网页中存在实际内容的区域。
[0096]在本申请另一可行的实施例中,在将预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色的同时,还可以对上述两个网页中的实际内容执行如下处理:当实际内容为文字时,将该文字的颜色也设置为上述预设颜色;当实际内容为图片时,删除该图片。
[0097]由于两种不同的颜色叠加后会得到不同于这两种颜色的第三种颜色、网页中的图片内容会覆盖对应区域的背景颜色,因此,通过上述对实际内容的处理,消除文字本身的颜色以及图片颜色对网页颜色的影响,保证网页中存在实际内容的区域的颜色与该区域的背景颜色相同,进而可以直接获取相应的网页的颜色,根据所获取到的颜色判断待测网页与预设网页是否匹配,不需要判断获取到的颜色是否为对应区域的背景颜色,或者通过其他复杂的方式获取对应区域的背景颜色。
[0098]例如,以黑色为上述预设颜色,对图6(a)所示的网页执行步骤S22,网页中存在实际内容的区域的背景颜色变成黑色,可以得到图6(b)所示网页;由图6(b)可见,若网页中的文字的颜色与预设颜色(黑色)不同,则文字的颜色与对应区域的背景颜色叠加后得到的该区域的实际颜色亦与预设颜色(黑色)不同,若网页中存在图片,则该图片会完全覆盖该区域的背景颜色,导致该区域的实际颜色只能表现为图片中的颜色不便于颜色对比;因此,本申请实施例在图6(b)所示处理结果的基础上,通过删除网页中的图片内容、将网页中的文字的颜色设置为与背景颜色相同的预设颜色(黑色),得到图6(c)所示的处理结果;由图6(c)可见,最终处理得到的网页中存在实际内容的区域统一显示为纯黑色块,利于后续步骤的执行。
[0099]在本申请的一个可行的实施例中,可以采用图2所示的方法实现S23中所述的判断所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域是否相匹配,即:分别计算所述预设网页中背景颜色为预设颜色的区域的总面积M1,以及待测网页中背景颜色为预设颜色的区域的总面积M2,并计算比值M1/M2,如果M1/M2在预设范围内,则判定所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域相匹配,否则判定所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域不匹配,存在过滤问题。相应的,在判定所述待测网页存在过滤问题后,还可以通过图3所示方法进一步确定过滤问题的类型(过滤失效或者误过滤)。
[0100]在本申请另一可行的实施例中,还可以通过图7所示的流程来实现S23中所述的判断所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域是否相匹配:
[0101]S311:比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同;
[0102]所述预设比较点是指网页中坐标为预设坐标值的像素点,例如,参照图8,可以以网页的左上角为原点建立xy坐标系,水平向右的方向为X轴方向,竖直向下的方向为y轴方向;其中,坐标为(3,2)的像素点Pl即可作为一个预设比较点,坐标为(8,4)的像素点P2亦可作为一个预设比较点;同一预设比较点分别映射到预设网页和待测网页中得到的两个区域(像素点)为一对相对应的区域,步骤S311即对每对相对应的区域的颜色进行比较。如果所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色相同,说明该预设比较点对应的两个区域相匹配,即或者均存在有效内容,或者均不存在有效内容。
[0103]为保证检测的准确度,上述预设比较点的总个数不应过少,具体个数值可以根据实际应用需求设定。
[0104]S312:计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值;[0105]S313:判断所述第一比值是否小于第一预设比值,如果所述第一比值小于第一预设比值,则执行步骤S314,否则执行步骤S315 ;
[0106]S314:判定所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域匹配;
[0107]S315:判定所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域不匹配。
[0108]所述第一比值越大,说明颜色比较结果为不同的预设比较点个数越多,相应的,预设网页和待测网页之间不匹配的区域越大。因此,可根据检测精度要求(允许的预设网页和待测网页之间不匹配区域占整个网页的最大比例)设置所述第一预设比值,当第一比值大于该第一预设比值时,说明预设网页和待测网页之间不匹配区域所占比例过大,从而可以判定待测网页存在过滤问题,反之,可以判定待测网页不存在过滤问题。
[0109]在本申请一个可行的实施例中,当通过图7所示方法判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,即所述待测网页存在过滤问题,还可以继续执行以下步骤,以判定过滤问题的具体类型:
[0110]判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同;
[0111]如果所述第一区域的颜色与预设颜色相同,则判定所述第一区域存在过滤失效问题,否则判定所述第一区域存在误过滤问题。
[0112]例如,预设比较点Pl(3,2)的颜色比较结果为不同,即待测网页中坐标为(3,2)的像素点的颜色,与预设网页中坐标为(3,2)的像素点的颜色不同;在此前提下,如果待测网页中坐标为(3,2)的像素点的颜色与预设颜色相同,相应的预设网页中坐标为(3,2)的像素点的颜色与预设颜色不同,说明预设网页中不存在实际内容的区域,在待测网页中的对应区域内存在实际内容,因此,可以判定待测网页在该预设比较点对应的区域处存在非有效内容,即出现过滤失效。相反的,如果待测网页中坐标为(3,2)的像素点的颜色与预设颜色不同,预设网页中坐标为(3,2)的像素点的颜色与预设颜色相同,说明预设网页中存在实际内容的区域,在待测网页中的对应区域内不存在实际内容,因此,可以判定待测网页在该预设比较点对应的区域处的有效内容被滤除,即出现误过滤。
[0113]可选的,在本申请另一可行的实施例中,基于图2所示方法的原理,可以通过图9所示的方法流程实现步骤S23所述的判断所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域是否相匹配;参见图9,该方法包括以下步骤:
[0114]S341、将所述预设网页和待测网页中,与同一预设比较点相对应的区域的背景颜色分别与所述预设颜色比较;
[0115]S342、记录所述预设网页中背景颜色与所述预设颜色相同的区域的个数M1,以及所述待测网页中背景颜色与所述预设颜色相同的区域的个数M2 ;
[0116]S343、计算所述Ml和M2的比值M1/M2 ;
[0117]S344、判断Ml/M2是否在预设范围内,如果是,则执行步骤S345,否则执行步骤S346 ;
[0118]S345、判定所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域相匹配;[0119]S346、判定所述预设网页与所述待测网页中背景颜色为所述预设颜色的区域不匹配。
[0120]严格来讲,当所述预设网页与待测网页中背景颜色为所述预设颜色的区域完全匹配时,应当有Ml =M2,即M1/M2 = 1,也即步骤S344中的预设范围应当设置为一阈值,该阈值为I。但根据实际应用中的检测精度要求,可以设定该预设范围为一包含“I”的数值区间;且检测精度要求越高,该预设范围的最小值越大、最大值越小。
[0121]进一步的,当通过图9所示方法判定所述预设网页与待测网页中背景颜色为所述预设颜色的区域不匹配,即所述待测网页存在过滤问题时,还可以继续执行如下步骤,以判定过滤问题的具体类型:
[0122]如果M1>M2,则判定所述待测网页存在误过滤;如果M1〈M2,则判定所述待测网页存在过滤失效。
[0123]为更好的实现自动检测、快速完成预设网页和待测网页的比较,本申请的一个具体实施例中分别对待测网页和预设网页执行图10所示的基于网页隔行扫描的方法流程,以获取Ml和M2,实现图9中所示的步骤S341?S342,。
[0124]参见图10,该方法包括如下步骤:
[0125]S1:以待扫描网页的左上角为坐标原点,设定扫描参数,包括:横坐标X(初始值为O),纵坐标Y (初始值为O),横向扫描步长Λ W,纵向扫描步长Λ H,网页的宽度W,以及网页的高度H ;
[0126]S2:判断坐标为(X,Y)的预设比较点的颜色是否与预设颜色相同,如果是,则执行步骤S3,否则执行步骤S4;
[0127]S3:将预设比较点(X,Y)对应的比较结果记录为1,并执行步骤S5 ;
[0128]S4:将预设比较点(X,Y)对应的比较结果记录为0,并执行步骤S5 ;
[0129]S5:将纵坐标Y的值增加一个纵向扫描步长Λ H ;
[0130]即执行赋值运算Y = Y+ Λ H。
[0131]S6:判断纵坐标Y是否大于H,如果是,则执行步骤S7,否则返回步骤S2 ;
[0132]S7:将横坐标X的值增加一个横向扫描步长Λ W,将纵坐标Y的值设置为O ;
[0133]即执行赋值运算X = X+ Λ W,Y = O。
[0134]S8:判断横坐标X是否大于W,如果是,则执行步骤S9,否则返回步骤S2 ;
[0135]S9:计算比较结果为“I”的个数Μ;其中,当所述待扫描网页为所述预设网页时,M=Ml,当所述待扫描网页为所述待测网页时,M = M2。
[0136]可见,图10所述方法,以扫描点为所述预设比较点,通过调节横向扫描步长Λ W,和/或纵向扫描步长Λ H,可以调节扫描点的总个数,即调节预设比较点的个数,简单灵活;同时,在扫描过程中自动比较每个预设比较点对应区域的颜色是否与预设颜色相同,还可以提闻处理效率。
[0137]可选的,在本申请的另一个可行的实施例中,图10所示方法中的比较结果可以通过数字矩阵的方式存储例如,扫描过程中,横坐标X取值共20个,纵坐标Y的取值共5个,则可以得到如下所示5行20列的数字矩阵:
[0138]0,0,0,0,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0
[0139]O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O[0140]0,0,0,0,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0
[0141]0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
[0142]0,0,0,0,1,1,1,0,0,1,1,1,1,1,0,0,0,1,1,I
[0143]上述数字矩阵中,每个数字对应一个扫描点,即一个预设比较点。
[0144]图11为本申请另一实施例提供的网页数据处理方法的流程图。参照图11,该实施例所述的网页数据处理方法包括如下步骤:
[0145]S31、获取待测网页,以及所述待测网页的网页地址对应的预设网页;
[0146]S32、分别在所述预设网页和待测网页中存在实际内容的区域设置边框;
[0147]其中,所述边框与所述存在实际内容的区域的边界重合。图12示出了对图6(a)所示网页中的“专栏”所在区域设置所述边框后的网页示意图;需要说明的是,本申请实施例采用的所述边框不仅仅局限于图12中采样的虚线框。
[0148]S33、判断所述预设网页与所述待测网页中设置有所述边框的区域是否相匹配,如果匹配,则执行步骤S34,否则执行步骤S35 ;
[0149]S34:判定所述待测网页不存在过滤问题;
[0150]S35:判定所述待测网页存在过滤问题。
[0151]对应于图1所示实施例,图11所示实施例以边框为所述第一标识,用于标记网页中存在实际内容的区域。
[0152]可选的,上述步骤S33中判断所述预设网页与所述待测网页中设置有所述边框的区域是否相匹配,可以通过图13所示的方法实现:
[0153]S321、计算所述预设网页中设置有所述边框的区域和待测网页中设置有所述边框的区域不重叠的部分的面积,与所述预设网页中设置有所述边框的区域的总面积之间的第二比值;
[0154]S322、判断所述第二比值是否小于第二预设比值,如果是,则执行步骤S323,否则执行步骤S324 ;
[0155]S323:判定所述预设网页与所述待测网页中设置有所述边框的区域匹配;
[0156]S324:判定所述预设网页与所述待测网页中设置有所述边框的区域不匹配。
[0157]所述第二比值越大,说明不重叠的部分越多,相应的,预设网页和待测网页之间不匹配的区域越大,反之,第二比值越小,说明重叠的部分越多,预设网页和待测网页之间匹配的区域越大。
[0158]需要说明的是,本申请实施例所述的用于标记网页中存在实际内容的区域的第一标识的具体形式,不仅局限于图5所示实施例中的预设颜色,以及图11所示实施例中的多边形图框,本领域普通技术人员在没有做出创造性劳动前提下所获得的通过其他标记方式实现的所有其他实施例,都应当属于本申请的保护范围。
[0159]在本申请一个可行的实施例中,当通过图13所示方法判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,即所述待测网页存在过滤问题,还可以继续执行以下步骤,以判定过滤问题的具体类型:
[0160]当所述预设网页中,与所述待测网页中设置有所述边框的第一区域相对应的区域未设置所述边框时,判定所述第一区域存在过滤失效;
[0161]当所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,判定所述第二区域存在误过滤。
[0162]图14为本申请的另一可行实施例提供的网页数据处理方法的流程图,包括如下步骤:
[0163]S41、获取待测网页,以及所述待测网页的网页地址对应的预设网页;
[0164]S42、分别将所述预设网页和待测网页中存在实际内容的区域的设置第一标识;
[0165]S43、分别将所述预设网页和待测网页划分为一一对应的多个比较区域;
[0166]如图15所示的一种预设网页和待测网页的分区结果示意图,该预设网页被划分为Q1、Q2、Q3和Q4四个比较区域,相应的,待测结果亦被划分为四个区域,分别为对应于Ql的区域Zl,对应于Q2的区域Z2,对应于Q3的区域Z3,以及对应于Q4的区域TA。
[0167]S44、分别判断所述预设网页与所述待测网页之间相对应的比较区域中设置有所述第一标识的区域是否相匹配,如果匹配,则执行步骤S45,否则执行步骤S46 ;
[0168]以图15为例,即分别比较Ql和Zl中设置有所述第一标识的区域是否匹配,Q2和Z2中设置有所述第一标识的区域是否匹配,Q3和Z3中设置有所述第一标识的区域是否匹配,以及Q4和TA中设置有所述第一标识的区域是否匹配。
[0169]S45、判定所述比较区域中属于所述待测网页的比较区域不存在过滤问题;
[0170]S46、判定所述比较区域中属于所述待测网页的比较区域存在过滤问题。
[0171]上述技术方案中,通过对预设网页和待测网页对应分区,进而分别判断每对区域中设置有所述第一标识的区域是否匹配,相对于以整个网页为比较对象,该方案可以减小检测误差。
[0172]通过以上的方法实施例的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0173]与本申请提供的网页数据处理方法实施例相对应,本申请还提供了一种网页数据处理装置。
[0174]图16为本申请一种可行的实施例提供的网页数据处理装置的结构示意图。参见图16,该网页数据处理装置包括:网页获取单元810、网页标记单元820、网页匹配单元830和结果确定单兀840。
[0175]其中,网页获取单元810,用于分别获取待测网页,以及所述待测网页的网页地址对应的预设网页。
[0176]网页标记单元820,用于分别在所述预设网页和待测网页中存在实际内容的区域
设置第一标识。
[0177]网页匹配单元830,用于判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配。
[0178]结果确定单元840,用于在所述预设网页与待测网页中设置有所述第一标识的区域相匹配时,判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。[0179]由上述实施例可见,本申请实施例通过获取同一网页地址对应的预设网页和待测网页,并分别在上述预设网页和待测网页中存在实际内容的区域设置第一标识,以上述预设网页为基准,判断待测网页中设置有第一标识的区域是否与预设网页中设置有第一标识的区域匹配,根据判断结果判定该待测网页是否存过滤问题;应用本申请实施例,只需为不同的网页地址设置相应的预设网页,就能够自动检测多个网站、多个网页地址对应的网页的过滤问题;在某网页地址对应的网页排版样式和/或框架代码改变后,只需相应改变该网页地址对应的预设网页即可继续准确执行自动检测。因此,相对于人工检测法,本实施例能够快速、及时地检测出过滤问题,提高检测效率,尤其适用于待测网页数量巨大的场合。
[0180]在本申请的一个可行实施例中,网页匹配单元830可以包括:
[0181]面积计算单元,用于分别计算所述预设网页中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积;
[0182]第三计算单元,用于计算所述第一总面积和第二总面积之间的第三比值;
[0183]第三判定单元,用于判断所述第三比值是否在预设范围内;如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0184]另外,所述网页处理装置还可以包括:第三子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,比较所述第三比值、所述预设范围的最小值,以及所述预设范围的最大值,并在所述第三比值小于所述预设范围的最小值时,判定所述待测网页存在过滤失效,在如果所述第三比值大于所述预设范围的最大值时,判定所述待测网页存在误过滤。
[0185]在本申请的另一个可行实施例中,网页标记单元820可以包括:
[0186]背景设置单元,用于分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;
[0187]文字处理单元,用于当所述预设网页和/或待测网页中的实际内容为文字时,设置所述文字的颜色为所述预设颜色;
[0188]图片处理单元,用于当所述预设网页和/或待测网页中的实际内容为图片时,删除所述图片。
[0189]相应的,上述实施例中,网页匹配单元830可以包括:
[0190]颜色比较单元,用于比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同;
[0191]第一计算单元,用于计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值;
[0192]第一判定单元,用于判断所述第一比值是否小于第一预设比值,并在所述第一比值大于第一预设比值时,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。
[0193]另外,上述实施例提供的网页数据处理装置还可以包括:第一子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同,并在所述第一区域的颜色与预设颜色相同时,判定所述第一区域存在过滤失效,否则判定所述第一区域存在误过滤。
[0194]在本申请的另一个可行实施例中,网页标记单元820可以包括:
[0195]第二计算单元,用于计算所述预设网页和待测网页中多边形图框不重叠的部分的面积与所述预设网页中多边形图框的总面积之间的第二比值;
[0196]第二判定单元,用于在所述第二比值不大于第二预设比值时,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。
[0197]相应的,网页匹配单元830可以包括:
[0198]第二计算单元,用于计算所述预设网页和待测网页中多边形图框不重叠的部分的面积与所述预设网页中多边形图框的总面积之间的第二比值;
[0199]第二判定单元,用于在所述第二比值不大于第二预设比值时,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。
[0200]另外,上述实施例提供的网页数据处理装置还可以包括:第二子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,执行如下判定:
[0201]如果所述预设网页中,与所述待测网页中设置有所述边框的第一区域相对应的区域未设置所述边框,则判定所述第一区域存在过滤失效;如果所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,则判定所述第二区域存在误过滤。
[0202]一般的,网页匹配单元830直接以整个网页为对象,判读是否匹配;而在本申请的另一个可行实施例中,所述网页数据处理装置还可以包括:区域分割单元,用于分别将所述预设网页和待测网页划分为一一对应的多个比较区域;相应的,网页匹配单元830包括:第一子匹配单元,用于分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。
[0203]上述实施例中,通过对待测网页和预设网页分区,并分别判断每个区域是否匹配,可以减小判断过程中数值计算等因素带来的误差,提高检测准确度。
[0204]为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0205]另外,本申请还提供一种具有处理器可执行的程序代码的计算机可读介质,在被执行时,所述程序代码使得处理器执行下述步骤:
[0206]获取待测网页,以及所述待测网页的网页地址对应的预设网页;
[0207]分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识;
[0208]判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配;
[0209]如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。
[0210]在本申请的一个可行实施例中,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:分别计算所述预设网页中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积;计算所述第一总面积和第二总面积之间的第三比值;判断所述第三比值是否在预设范围内;如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0211]另外,在判定所述待测网页存在过滤问题后,还可以执行如下步骤:如果所述第三比值小于所述预设范围的最小值,则判定所述待测网页存在过滤失效;如果所述第三比值大于所述预设范围的最大值,则判定所述待测网页存在误过滤。
[0212]在本申请的另一个可行实施例中,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;当所述实际内容为文字时,设置所述文字的颜色为所述预设颜色;当所述实际内容为图片时,删除所述图片。
[0213]相应的,所述判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同;计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值;判断所述第一比值是否小于第一预设比值;如果所述第一比值小于第一预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0214]另外,在判定所述待测网页存在过滤问题后,还可以执行如下步骤:判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同;如果所述第一区域的颜色与预设颜色相同,则判定所述第一区域存在过滤失效问题,否则判定所述第一区域存在误过滤问题。
[0215]在本申请的另一个可行实施例中,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别在所述预设网页和待测网页中存在实际内容的区域设置边框;其中,所述边框与所述存在实际内容的区域的边界重合。
[0216]相应的,所述判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:计算所述预设网页中设置有所述边框的区域和待测网页中设置有所述边框的区域不重叠的部分的面积,与所述预设网页中设置有所述边框的区域的总面积之间的第二比值;判断所述第二比值是否小于第二预设比值;如果所述第二比值小于第二预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
[0217]另外,在判定所述待测网页存在过滤问题后,还可以执行如下步骤:当所述预设网页中,与所述待测网页中设置有所述边框的第一区域相对应的区域未设置所述边框时,判定所述第一区域存在过滤失效;当所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,判定所述第二区域存在误过滤。
[0218]在本申请的另一个可行实施例中,在判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配之前,还可以执行步骤:分别将所述预设网页和待测网页划分为一一对应的多个比较区域。
[0219]相应的,所述判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括:分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。[0220]此外,参照图17,本申请另一实施例提供的网页数据处理装置,包括处理器101以及计算机可读介质102 ;其中,计算机可读介质102中存储有处理器101能够执行的程序代码,处理器101读取计算机可读介质102内的程序代码用于实现上述步骤或单元功能。
[0221]此外,应该明白的是,本文所述的计算机可读介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM (DRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)、双数据速率 SDRAM (DDR SDRAM)、增强 SDRAM (ESDRAM)、同步链路 DRAM (SLDRAM)以及直接 RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
[0222]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0223]以上所述仅是本申请的【具体实施方式】,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【权利要求】
1.一种网页数据处理方法,其特征在于,包括: 获取待测网页,以及所述待测网页的网页地址对应的预设网页; 分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识; 判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配; 如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。
2.根据权利要求1所述的网页数据处理方法,其特征在于, 所述第一标识为预设颜色,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;当所述实际内容为文字时,设置所述文字的颜色为所述预设颜色;当所述实际内容为图片时,删除所述图片;或者, 所述第一标识为边框,所述分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识,包括:分别在所述预设网页和待测网页中存在实际内容的区域设置边框;其中,所述边框与所述存在实际内容的区域的边界重合。
3.根据权利要求1所述的网页数据处理方法,其特征在于,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 分别计算所述预设网页 中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积; 计算所述第一总面积和第二总面积之间的第三比值; 判断所述第三比值是否在预设范围内; 如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
4.根据权利要求3所述的网页数据处理方法,其特征在于,在判定所述待测网页存在过滤问题后,所述方法还包括: 如果所述第三比值小于所述预设范围的最小值,则判定所述待测网页存在过滤失效; 如果所述第三比值大于所述预设范围的最大值,则判定所述待测网页存在误过滤。
5.根据权利要求2所述的网页数据处理方法,其特征在于,当所述第一标识为预设颜色时,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同; 计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值; 判断所述第一比值是否小于第一预设比值; 如果所述第一比值小于第一预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
6.根据权利要求5所述的网页数据处理方法,其特征在于,在判定所述待测网页存在过滤问题后,所述方法还包括:判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同; 如果所述第一区域的颜色与预设颜色相同,则判定所述第一区域存在过滤失效,否则判定所述第一区域存在误过滤。
7.根据权利要求2所述的网页数据处理方法,其特征在于,当所述第一标识为边框时,判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 计算所述预设网页中设置有所述边框的区域和待测网页中设置有所述边框的区域不重叠的部分的面积,与所述预设网页中设置有所述边框的区域的总面积之间的第二比值; 判断所述第二比值是否小于第二预设比值; 如果所述第二比值小于第二预设比值,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
8.根据权利要求7所述的网页数据处理方法,其特征在于,在判定所述待测网页存在过滤问题后,所述方法还包括: 当所述预设网页中,与所述待测 页中设置有所述边框的第一区域相对应的区域未设置所述边框时,判定所述第一区域存在过滤失效; 当所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,判定所述第二区域存在误过滤。
9.根据权利要求1至8任一项所述的网页数据处理方法,其特征在于,在判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配之前,所述网页数据处理方法还包括: 分别将所述预设网页和待测网页划分为一一对应的多个比较区域; 相应的,所述判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配,包括: 分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。
10.一种网页数据处理装置,其特征在于,包括: 网页获取单元,用于分别获取待测网页,以及所述待测网页的网页地址对应的预设网页; 网页标记单元,用于分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识; 网页匹配单元,用于判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配; 结果确定单元,用于在所述预设网页与待测网页中设置有所述第一标识的区域相匹配时,判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。
11.根据权利要求10所述的网页数据处理装置,其特征在于, 所述第一标识包括预设颜色,所述网页标记单元包括: 背景设置单元,用于分别将所述预设网页和待测网页中存在实际内容的区域的背景颜色设置为预设颜色;文字处理单元,用于当所述预设网页和/或待测网页中的实际内容为文字时,设置所述文字的颜色为所述预设颜色; 图片处理单元,用于当所述预设网页和/或待测网页中的实际内容为图片时,删除所述图片;或者, 所述第一标识包括边框,所述网页标记单元包括: 边框设置单元,用于分别在所述预设网页和待测网页中存在实际内容的区域设置边框;其中,所述边框与所述存在实际内容的区域的边界重合。
12.根据权利要求10所述的网页数据处理装置,其特征在于,所述网页匹配单元包括: 面积计算单元,用于分别计算所述预设网页中设置有所述第一标识的区域的第一总面积,以及所述待测网页中设置有所述第一标识的区域的第二总面积; 第三计算单元,用于计算所述第一总面积和第二总面积之间的第三比值; 第三判定单元,用于判断所述第三比值是否在预设范围内;如果所述第三比值在预设范围内,则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配。
13.根据权利要求12所述的网页数据处理装置,其特征在于,还包括: 第三子确定单元 ,用于在所述结果确定单元判定所述待测网页存在过滤问题后,比较所述第三比值、所述预设范围的最小值,以及所述预设范围的最大值,并在所述第三比值小于所述预设范围的最小值时,判定所述待测网页存在过滤失效,在如果所述第三比值大于所述预设范围的最大值时,判定所述待测网页存在误过滤。
14.根据权利要求11所述的网页数据处理装置,其特征在于, 当所述第一标识为预设颜色时,所述网页匹配单元包括: 颜色比较单元,用于比较所述预设网页和待测网页中与同一预设比较点相对应的区域的颜色是否相同; 第一计算单元,用于计算所述颜色比较结果为不相同的预设比较点的个数与预设比较点的总个数之间的第一比值; 第一判定单元,用于判断所述第一比值是否小于第一预设比值,并在所述第一比值大于第一预设比值时,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配; 当所述第一标识为边框时,所述网页匹配单元包括: 第二计算单元,用于计算所述预设网页和待测网页中多边形图框不重叠的部分的面积与所述预设网页中多边形图框的总面积之间的第二比值; 第二判定单元,用于在所述第二比值不大于第二预设比值时,判定所述预设网页与所述待测网页中设置有所述第一标识的区域不匹配,否则判定所述预设网页与所述待测网页中设置有所述第一标识的区域相匹配。
15.根据权利要求14所述的网页数据处理装置,其特征在于, 当所述第一标识为预设颜色时,所述网页数据处理装置还包括: 第一子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,判断所述待测网页中,颜色比较结果为不同的预设比较点对应的第一区域的颜色,是否与所述预设颜色相同,并在所述第一区域的颜色与预设颜色相同时,判定所述第一区域存在过滤失效,否则判定所述第一区域存在误过滤; 当所述第一标识为边框时,所述网页数据处理装置还包括: 第二子确定单元,用于在所述结果确定单元判定所述待测网页存在过滤问题后,执行如下判定: 如果所述预设网页中,与所述待测网页中设置有所述边框的第一区域相对应的区域未设置所述边框,则判定所述第一区域存在过滤失效; 如果所述预设网页中,与所述待测网页中未设置所述边框的第二区域相对应的区域设置有所述边框时,则判定所述第二区域存在误过滤。
16.根据权利要求10至15任一项所述的网页数据处理装置,其特征在于,还包括: 区域分割单元,用于分别将所述预设网页和待测网页划分为一一对应的多个比较区域; 相应的,所述网页匹配单元包括: 第一子匹配单元,用于分别判断所述预设网页与所述待测网页之间相对应的每对比较区域中设置有所述第一标识的区域是否相匹配。
17.一种具有处理器可执行的程序代码的计算机可读介质,应用于一网页数据处理设备,其特征在于,所述程序代码使处理器执行下述步骤: 获取待测网页,以及所述待测网页的网页地址对应的预设网页; 分别在所述预设网页和待测网页中存在实际内容的区域设置第一标识; 判断所述预设网页与所述待测网页中设置有所述第一标识的区域是否相匹配; 如果所述预设网页与待测网页中设置有所述第一标识的区域相匹配,则判定所述待测网页不存在过滤问题,否则判定所述待测网页存在过滤问题。
【文档编号】G06F17/30GK104008131SQ201410182175
【公开日】2014年8月27日 申请日期:2014年4月30日 优先权日:2014年4月30日
【发明者】王晓振 申请人:广州市动景计算机科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1