网页过滤方法和装置的制造方法_5

文档序号:9887651阅读:来源:国知局
页的发布账号,对该多个网页进行分组,得到多个网页集合;或者,
[0146] 按照每个网页的存储目录,对该多个网页进行分组,得到多个网页集合;或者,
[0147] 按照每个网页的子域名称,对该多个网页进行分组,得到多个网页集合。
[0148] 可选地,还包含用于进行以下操作的指令:
[0149] 将已确定的指定类型节点输出至黑名单模板配置文件中;
[0150] 当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
[0151] 基于该黑名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包 括的指定类型节点。
[0152] 可选地,还包含用于进行以下操作的指令:
[0153] 将该多个网页中除该指定类型节点以外的节点输出至白名单模板配置文件中;
[0154] 当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
[0155] 基于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包 括的指定类型节点。
[0156] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再 --赘述。
[0157] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件 来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读 存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0158] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种网页过滤方法,其特征在于,所述方法包括: 获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节点; 对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值用于 表示所述节点是指定类型节点的可能性大小; 将可能性特征值大于指定阈值的节点确定为所述指定类型节点; 基于已确定的指定类型节点,对待展示网页进行过滤。2. 根据权利要求1所述的方法,其特征在于,所述对于每个网页中的每个节点,计算所 述节点的可能性特征值包括: 根据每个节点的内容,计算所述节点与所述网页集合中除所述网页以外的其他网页中 每个节点的相似度; 对所述节点与所述其他网页中每个节点的相似度进行统计,得到所述节点的可能性特 征值。3. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 根据每个节点在对应网页中的位置,对所述多个网页中的多个节点进行分组,得到多 个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。4. 根据权利要求3所述的方法,其特征在于,所述对于每个网页中的每个节点,计算所 述节点的可能性特征值包括: 对于每个节点集合中的每个节点,根据每个节点的内容,计算所述节点与所述节点集 合中的其他节点的相似度; 对所述节点与所述节点集合中的其他节点的相似度进行统计,得到所述节点的可能性 特征值。5. 根据权利要求1所述的方法,其特征在于,所述获取待分析的网页集合包括: 获取在当前时间点之前的指定时长内生成的多个网页; 对所述多个网页进行分组,得到多个网页集合。6. 根据权利要求5所述的方法,其特征在于,所述对所述多个网页进行分组,得到多个 网页集合包括: 按照每个网页的发布账号,对所述多个网页进行分组,得到多个网页集合;或者, 按照每个网页的存储目录,对所述多个网页进行分组,得到多个网页集合;或者, 按照每个网页的子域名称,对所述多个网页进行分组,得到多个网页集合。7. 根据权利要求1所述的方法,其特征在于,所述基于已确定的指定类型节点,对待展 示网页进行过滤包括: 将已确定的指定类型节点输出至黑名单模板配置文件中; 当接收到网页过滤展示请求时,获取所述网页过滤展示请求对应的原始网页; 基于所述黑名单模板配置文件,对所述原始网页进行过滤,以过滤掉所述原始网页中 包括的指定类型节点。8. 根据权利要求1所述的方法,其特征在于,所述基于已确定的指定类型节点,对待展 示网页进行过滤包括: 将所述多个网页中除所述指定类型节点以外的节点输出至白名单模板配置文件中; 当接收到网页过滤展示请求时,获取所述网页过滤展示请求对应的原始网页; 基于所述白名单模板配置文件,对所述原始网页进行过滤,以过滤掉所述原始网页中 包括的指定类型节点。9. 一种网页过滤装置,其特征在于,所述装置包括: 网页集合获取模块,用于获取待分析的网页集合,所述网页集合中包括多个网页,每个 网页中包括多个节点; 计算模块,用于对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能 性特征值用于表示所述节点是指定类型节点的可能性大小; 指定类型节点确定模块,用于将可能性特征值大于指定阈值的节点确定为所述指定类 型节点; 过滤模块,用于基于已确定的指定类型节点,对待展示网页进行过滤。10. 根据权利要求9所述的装置,其特征在于,所述计算模块用于根据每个节点的内 容,计算所述节点与所述网页集合中除所述网页以外的其他网页中每个节点的相似度;对 所述节点与所述其他网页中每个节点的相似度进行统计,得到所述节点的可能性特征值。11. 根据权利要求9所述的装置,其特征在于,所述装置还包括: 节点分组模块,用于根据每个节点在对应网页中的位置,对所述多个网页中的多个节 点进行分组,得到多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。12. 根据权利要求11所述的装置,其特征在于,所述计算模块用于对于每个节点集合 中的每个节点,根据每个节点的内容,计算所述节点与所述节点集合中的其他节点的相似 度;对所述节点与所述节点集合中的其他节点的相似度进行统计,得到所述节点的可能性 特征值。13. 根据权利要求9所述的装置,其特征在于,所述网页集合获取模块用于获取在当前 时间点之前的指定时长内生成的多个网页;对所述多个网页进行分组,得到多个网页集合。14. 根据权利要求13所述的装置,其特征在于,所述网页集合获取模块具体用于按照 每个网页的发布账号,对所述多个网页进行分组,得到多个网页集合;或者,按照每个网页 的存储目录,对所述多个网页进行分组,得到多个网页集合;或者,按照每个网页的子域名 称,对所述多个网页进行分组,得到多个网页集合。15. 根据权利要求9所述的装置,其特征在于,所述过滤模块用于将已确定的指定类型 节点输出至黑名单模板配置文件中;当接收到网页过滤展示请求时,获取所述网页过滤展 示请求对应的原始网页;基于所述黑名单模板配置文件,对所述原始网页进行过滤,以过滤 掉所述原始网页中包括的指定类型节点。16. 根据权利要求9所述的装置,其特征在于,所述过滤模块用于将所述多个网页中除 所述指定类型节点以外的节点输出至白名单模板配置文件中;当接收到网页过滤展示请求 时,获取所述网页过滤展示请求对应的原始网页;基于所述白名单模板配置文件,对所述原 始网页进行过滤,以过滤掉所述原始网页中包括的指定类型节点。
【专利摘要】本发明公开了一种网页过滤方法和装置,属于互联网技术领域。所述方法包括:获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节点;对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值用于表示所述节点是指定类型节点的可能性大小;将可能性特征值大于指定阈值的节点确定为所述指定类型节点;基于已确定的指定类型节点,对待展示网页进行过滤。本发明通过计算网页集合中每个网页中每个节点的可能性特征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间成本和人力成本。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105653550
【申请号】
【发明人】朱龙军, 孙钟前
【申请人】腾讯科技(深圳)有限公司
【公开日】2016年6月8日
【申请日】2014年11月14日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1