网页过滤方法和装置的制造方法

文档序号:9887651阅读:219来源:国知局
网页过滤方法和装置的制造方法
【技术领域】
[0001] 本发明涉及互联网技术领域,特别涉及一种网页过滤方法和装置。
【背景技术】
[0002] 随着互联网的普及,很多厂商会在网页中发布广告,以宣传其生产的产品,这就导 致网页中包括各种各样的广告,严重影响用户正常浏览网页。
[0003] 为了过滤掉网页中的广告,网站运营人员可以根据每个网页中的广告,人工配置 过滤模板,并上传至网站服务器,网站服务器可以根据该过滤模板,对网页进行过滤。该过 滤模板可以为黑名单或者白名单,当该过滤模板为黑名单时,网站服务器提取网页中与该 过滤模板匹配的网页内容,将提取到的网页内容过滤掉,当该过滤模板为白名单时,网站服 务器提取网页中与该过滤模板匹配的网页内容,将网页中的其他网页内容过滤掉。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下缺陷:为海量的网页 配置过滤模板时,需要耗费过多的人力成本。

【发明内容】

[0005] 为了解决现有技术的问题,本发明实施例提供了一种网页过滤方法和装置。所述 技术方案如下:
[0006] 第一方面,提供了一种网页过滤方法,所述方法包括:
[0007] 获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节 占.
[0008] 对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值 用于表示所述节点是指定类型节点的可能性大小;
[0009] 将可能性特征值大于指定阈值的节点确定为所述指定类型节点;
[0010] 基于已确定的指定类型节点,对待展示网页进行过滤。
[0011] 第二方面,提供了一种网页过滤装置,所述装置包括:
[0012] 网页集合获取模块,用于获取待分析的网页集合,所述网页集合中包括多个网页, 每个网页中包括多个节点;
[0013] 计算模块,用于对于每个网页中的每个节点,计算所述节点的可能性特征值,所述 可能性特征值用于表示所述节点是指定类型节点的可能性大小;
[0014] 指定类型节点确定模块,用于将可能性特征值大于指定阈值的节点确定为所述指 定类型节点;
[0015] 过滤模块,用于基于已确定的指定类型节点,对待展示网页进行过滤。
[0016] 本发明实施例提供的技术方案带来的有益效果是:
[0017] 本发明实施例提供的方法和装置,通过计算网页集合中每个网页中每个节点的可 能性特征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确 定的指定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省 了时间成本和人力成本。
【附图说明】
[0018] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0019] 图1是本发明实施例提供的一种网页过滤方法的流程图;
[0020] 图2是本发明实施例提供的一种网页过滤方法的流程图;
[0021] 图3是本发明实施例提供的网页示意图;
[0022] 图4是本发明实施例提供的指定树形结构示意图;
[0023] 图5是本发明实施例提供的可能性特征值计算流程图;
[0024] 图6是本发明实施例提供的一种网页过滤装置结构示意图;
[0025] 图7是本发明实施例提供的一种服务器结构示意图。
【具体实施方式】
[0026] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
[0027] 图1是本发明实施例提供的一种网页过滤方法的流程图。该发明实施例的执行主 体为服务器,参见图1,该方法包括:
[0028] 101、获取待分析的网页集合,该网页集合中包括多个网页,每个网页中包括多个 节点。
[0029] 102、对于每个网页中的每个节点,计算该节点的可能性特征值,该可能性特征值 用于表示该节点是指定类型节点的可能性大小。
[0030] 10 3、将可能性特征值大于指定阈值的节点确定为该指定类型节点。
[0031] 104、基于已确定的指定类型节点,对待展示网页进行过滤。
[0032] 本发明实施例提供的方法,通过计算网页集合中每个网页中每个节点的可能性特 征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指 定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间 成本和人力成本。
[0033] 可选地,该对于每个网页中的每个节点,计算该节点的可能性特征值包括:
[0034] 根据每个节点的内容,计算该节点与该网页集合中除该网页以外的其他网页中每 个节点的相似度;
[0035] 对该节点与该其他网页中每个节点的相似度进行统计,得到该节点的可能性特征 值。
[0036] 可选地,该方法还包括:
[0037] 根据每个节点在对应网页中的位置,对该多个网页中的多个节点进行分组,得到 多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。
[0038] 可选地,该对于每个网页中的每个节点,计算该节点的可能性特征值包括:
[0039] 对于每个节点集合中的每个节点,根据每个节点的内容,计算该节点与该节点集 合中的其他节点的相似度;
[0040] 对该节点与该节点集合中的其他节点的相似度进行统计,得到该节点的可能性特 征值。
[0041] 可选地,该获取待分析的网页集合包括:
[0042] 获取在当前时间点之前的指定时长内生成的多个网页;
[0043] 对该多个网页进行分组,得到多个网页集合。
[0044] 可选地,该对该多个网页进行分组,得到多个网页集合包括:
[0045] 按照每个网页的发布账号,对该多个网页进行分组,得到多个网页集合;或者,
[0046] 按照每个网页的存储目录,对该多个网页进行分组,得到多个网页集合;或者,
[0047] 按照每个网页的子域名称,对该多个网页进行分组,得到多个网页集合。
[0048] 可选地,该基于已确定的指定类型节点,对待展示网页进行过滤包括:
[0049] 将已确定的指定类型节点输出至黑名单模板配置文件中;
[0050] 当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
[0051] 基于该黑名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包 括的指定类型节点。
[0052] 可选地,该基于已确定的指定类型节点,对待展示网页进行过滤包括:
[0053] 将该多个网页中除该指定类型节点以外的节点输出至白名单模板配置文件中;
[0054] 当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
[0055] 基于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包 括的指定类型节点。
[0056] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再 --赘述。
[0057] 图2是本发明实施例提供的一种网页过滤方法的流程图。该发明实施例的执行主 体为服务器,参见图2,该方法包括:
[0058] 201、该服务器对待分析的多个网页进行分组,得到多个网页集合。
[0059] 在本发明实施例中,该服务器用于为终端提供网页,该终端可以为固定终端或者 移动终端,如计算机、
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1