网页过滤方法和装置的制造方法_4

文档序号:9887651阅读:来源:国知局
间隔确定,可以为一天或者几天等,本发明实施例对此不做限定。
[0107] 为了避免该更新过程对该服务器的当前业务造成影响,该服务器获取到该多个网 页时,可以离线地执行上述步骤201-204,在此过程中,该服务器可以基于旧的模板配置文 件,对待展示网页进行过滤,当该服务器获取到更新的模板配置文件时,再加载该更新的模 板配置文件,基于该更新的模板配置文件,对待展示网页进行过滤。
[0108] 目前的相关技术中,由人工配置过滤模板,当网站服务器更新了网页时,原来配置 的过滤模板就会失效,运营人员需要监控每个网页的更新情况,才能发现失效的模板,再重 新配置新的模板,耗费了过多的人力成本。且在实际应用中,运营人员很难及时发现失效的 模板,时效性差。而在本发明实施例中,该服务器每隔该指定时长,自动地获取新生成的多 个网页,重复滚动地执行训练步骤,及时地更新模板配置文件,整个训练过程无监督且自动 化可重复,大大减少了人力成本,保证了模板配置文件的时效性,且采用离线训练的方式, 避免了对当前业务的影响。
[0109] 本发明实施例提供的方法,通过计算网页集合中每个网页中每个节点的可能性特 征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指 定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间 成本和人力成本。进一步地,自动地获取新生成的多个网页,重复执行训练步骤,及时地更 新模板配置文件,大大减少了人力成本,保证了模板配置文件的时效性,且采用离线训练的 方式,避免了对当前业务的影响。
[0110] 图6是本发明实施例提供的一种网页过滤装置结构示意图,参见图6,该装置包 括:
[0111] 网页集合获取模块601,用于获取待分析的网页集合,该网页集合中包括多个网 页,每个网页中包括多个节点;
[0112] 计算模块602,用于对于每个网页中的每个节点,计算该节点的可能性特征值,该 可能性特征值用于表示该节点是指定类型节点的可能性大小;
[0113] 指定类型节点确定模块603,用于将可能性特征值大于指定阈值的节点确定为该 指定类型节点;
[0114] 过滤模块604,用于基于已确定的指定类型节点,对待展示网页进行过滤。
[0115] 本发明实施例提供的装置,通过计算网页集合中每个网页中每个节点的可能性特 征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指 定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间 成本和人力成本。
[0116] 可选地,该计算模块602用于根据每个节点的内容,计算该节点与该网页集合中 除该网页以外的其他网页中每个节点的相似度;对该节点与该其他网页中每个节点的相似 度进行统计,得到该节点的可能性特征值。
[0117] 可选地,该装置还包括:
[0118] 节点分组模块,用于根据每个节点在对应网页中的位置,对该多个网页中的多个 节点进行分组,得到多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位 置。
[0119] 可选地,该计算模块602用于对于每个节点集合中的每个节点,根据每个节点的 内容,计算该节点与该节点集合中的其他节点的相似度;对该节点与该节点集合中的其他 节点的相似度进行统计,得到该节点的可能性特征值。
[0120] 可选地,该网页集合获取模块601用于获取在当前时间点之前的指定时长内生成 的多个网页;对该多个网页进行分组,得到多个网页集合。
[0121] 可选地,该网页集合获取模块601具体用于按照每个网页的发布账号,对该多个 网页进行分组,得到多个网页集合;或者,按照每个网页的存储目录,对该多个网页进行分 组,得到多个网页集合;或者,按照每个网页的子域名称,对该多个网页进行分组,得到多个 网页集合。
[0122] 可选地,该过滤模块604用于将已确定的指定类型节点输出至黑名单模板配置文 件中;当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;基于该 黑名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节 点。
[0123] 可选地,该过滤模块604用于将该多个网页中除该指定类型节点以外的节点输出 至白名单模板配置文件中;当接收到网页过滤展示请求时,获取该网页过滤展示请求对应 的原始网页;基于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中 包括的指定类型节点。
[0124] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再 --赘述。
[0125] 需要说明的是:上述实施例提供的网页过滤装置在对网页进行过滤时,仅以上述 各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的 功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或 者部分功能。另外,上述实施例提供的网页过滤装置与网页过滤方法实施例属于同一构思, 其具体实现过程详见方法实施例,这里不再赘述。
[0126] 图7是本发明实施例提供的一种服务器结构示意图,该服务器可以用于上述实 施例示出的网页过滤方法中服务器所执行的功能。具体来讲:参见图7,该服务器700可 因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Unit,CPU) 722(例如,一个或一个以上处理器)和存储器732, 一个或一个以上 存储应用程序742或数据744的存储介质730 (例如一个或一个以上海量存储设备)。其 中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序 可以包括一个或一个以上模块(图示没标出)。
[0127] 服务器700还可以包括一个或一个以上电源726, 一个或一个以上有线或无线网 络接口 750, 一个或一个以上输入输出接口 758,和/或,一个或一个以上操作系统741,例如 Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM 等等。
[0128] 一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器 执行,该一个或者一个以上程序包含用于进行以下操作的指令:
[0129] 获取待分析的网页集合,该网页集合中包括多个网页,每个网页中包括多个节 占.
[0130] 对于每个网页中的每个节点,计算该节点的可能性特征值,该可能性特征值用于 表示该节点是指定类型节点的可能性大小;
[0131] 将可能性特征值大于指定阈值的节点确定为该指定类型节点;
[0132] 基于已确定的指定类型节点,对待展示网页进行过滤。
[0133] 可选地,还包含用于进行以下操作的指令:
[0134] 根据每个节点的内容,计算该节点与该网页集合中除该网页以外的其他网页中每 个节点的相似度;
[0135] 对该节点与该其他网页中每个节点的相似度进行统计,得到该节点的可能性特征 值。
[0136] 可选地,还包含用于进行以下操作的指令:
[0137] 根据每个节点在对应网页中的位置,对该多个网页中的多个节点进行分组,得到 多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。
[0138] 可选地,还包含用于进行以下操作的指令:
[0139] 对于每个节点集合中的每个节点,根据每个节点的内容,计算该节点与该节点集 合中的其他节点的相似度;
[0140] 对该节点与该节点集合中的其他节点的相似度进行统计,得到该节点的可能性特 征值。
[0141] 可选地,还包含用于进行以下操作的指令:
[0142] 获取在当前时间点之前的指定时长内生成的多个网页;
[0143] 对该多个网页进行分组,得到多个网页集合。
[0144] 可选地,还包含用于进行以下操作的指令:
[0145] 按照每个网
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1