网页过滤方法和装置的制造方法_3

文档序号:9887651阅读:来源:国知局
t Object Model)树形 结构或者其他树形结构,本发明实施例对此不做限定。
[0078] 在该指定树形结构中,该多个节点具有层级关系,每个节点具有一个上一层节点, 且可能具有多个下一层节点。例如,网页中的一段文本节点可以包括多行的文本节点。
[0079] 以计算第一网页的第一节点的可能性特征值为例,第二网页为该网页集合中除该 第一网页以外的任一网页,对于该第二网页中的每个节点来说,该第一节点与该节点相似 时,与该节点的上一层节点也可能相似,此时,为了提高可能性特征值的精确度,该服务器 可以选取与该第一节点相似的最大节点,将该第一节点与该最大节点的相似度应用于计算 该可能性特征值的过程。
[0080] 图4是本发明实施例提供的第二网页的指定树形结构示意图,图5是本发明实施 例提供的可能性特征值计算流程图,参见图4和图5,该服务器计算该第一节点的可能性特 征值时,可以执行以下步骤(1)-(9):
[0081] (1)该服务器选取该第二网页的指定树形结构中最下层的节点111。
[0082] (2)该服务器计算该第一节点与节点111的第一相似度,判断该第一相似度是否 大于第一阈值,如果是,执行步骤(4),如果否,执行步骤(3)。
[0083] 在本发明实施例中,当该第一相似度大于该第一阈值时,表示该第一节点与节点 111相似,当该第一相似度不大于该第一阈值时,表示该第一节点与节点111不相似。其中, 该第一阈值可以由技术人员预先确定,或者由该服务器通过对该第一节点与每个最下层节 点的相似度进行统计确定,本发明实施例对此不做限定。
[0084] (3)该服务器选取另一个最下层的节点112,继续执行步骤(2),直至选取到每个 最下层的节点。
[0085] (4)该服务器选取位于节点111上一层的节点11。
[0086] (5)该服务器计算该第一节点与节点11的第二相似度,判断该第二相似度是否大 于该第一阈值,如果是,执行步骤(8),如果否,执行步骤(6)。
[0087] (6)该服务器将该第一相似度作为待统计的相似度。
[0088] 当该第一相似度大于该第一阈值,而该第二相似度不大于该第一阈值时,可以确 定该第一节点与节点111相似,与节点11不相似,则该服务器确定选取该第一相似度,作为 后续统计该第一节点可能性特征值的相似度。
[0089] (7)该服务器从该指定树形结构的最下层节点中,选取一个与节点11位于不同分 支的节点121,继续执行步骤(2)。
[0090] (8)该服务器选取位于节点11上一层的节点1,继续执行步骤(5),直至选取到最 上层的节点。
[0091] (9)对于该网页集合中除该第一网页以外的每个网页,该服务器重复执行上述步 骤,当得到每个网页对应的待统计相似度时,对得到的多个相似度进行统计,得到该第一节 点的可能性特征值。
[0092] 上述步骤(1)-(9)仅是给出了该服务器计算可能性特征值的示例性步骤,在实际 应用中,该服务器还可以采用其他方式,确定每个网页中与该第一节点相似的最大节点,获 取每个网页对应的待统计相似度,从而计算出该可能性特征值,本发明实施例对此不做限 定。
[0093] 203、该服务器将该网页集合中可能性特征值大于指定阈值的节点确定为该指定 类型节点。
[0094] 其中,该指定阈值可以由该服务器通过对每个节点的可能性特征值以及该网页集 合中的节点数量进行分析得到,不同网页集合对应的指定阈值可以相同,也可以不同,本发 明实施例对此不做限定。
[0095] 在本发明实施例中,可以认为可能性特征值大于该指定阈值的节点与该网页集合 中其他网页的很多节点相似,即该节点在该网页集合中出现"频繁",则将该节点作为该指 定类型节点。而可能性特征值不大于该指定阈值的节点与该网页集合中其他网页的很少节 点相似,即该节点在该网页集合中出现不"频繁",则该节点不是该指定类型节点。
[0096] 204、该服务器基于已确定的指定类型节点,对待展示网页进行过滤。
[0097] 当该服务器确定了该网页集合中的指定类型节点时,即可对与该网页集合属于同 一组别的待展示网页进行过滤,过滤掉该待展示网页中的指定类型节点。具体地,该服务器 根据确定的指定类型节点,生成模板配置文件,后续再基于该模板配置文件,对待展示网页 进行过滤。
[0098] 在本发明实施例中,当用户希望在过滤掉指定类型节点的前提下浏览网页时,可 以在该终端上触发访问过滤网页的操作,当该终端获取到访问过滤网页的操作时,向该服 务器发送网络过滤展示请求,该网页过滤展示请求携带网页地址,该服务器接收到该网页 展示请求时,可以根据该网页地址,获取该网页展示请求对应的原始网页,按照该指定规 贝1J,确定与该原始网页属于同一组别的网页集合,获取该网页集合对应的模板配置文件,再 基于该模板配置文件,对该原始网页进行过滤,过滤掉该原始网页中包括的指定类型节点, 将过滤后的网页发送给该终端,该终端接收到该过滤后的网页时,展示该过滤后的网页。该 过滤后的网页中包括网页本身的内容,而不包括与该网页内容无关的指定类型节点,使得 用户浏览该网页时,可以避免指定类型节点的干扰,为用户提供了更加清爽的浏览体验。
[0099] 其中,该模板配置文件可以为白名单或者黑名单,相应的,该步骤204可以包括以 下步骤204a和204b中的任一项:
[0100] 204a、该服务器将已确定的指定类型节点输出至黑名单模板配置文件中,当接收 到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页,基于该黑名单模板配 置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
[0101] 该服务器可以为该网页集合生成黑名单模板配置文件,将已确定的指定类型节 点输出至该黑名单模板配置文件中,保存该黑名单模板配置文件,则该黑名单模板配置文 件中的节点是应过滤掉的指定类型节点,当该服务器接收到终端发送的网页过滤展示请求 时,获取对应的原始网页,基于该黑名单模板配置文件,过滤掉该原始网页中该黑名单模板 配置文件中包括的节点,从而过滤掉该原始网页中包括的指定类型节点。
[0102] 204b、该服务器将该多个网页中除该指定类型节点以外的节点输出至白名单模板 配置文件中,当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页,基 于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类 型节点。
[0103] 该服务器可以为该网页集合生成白名单模板配置文件,将该多个网页中除该指定 类型节点以外的节点输出至白名单模板配置文件中,保存该白名单模板配置文件,则该白 名单模板配置文件中的节点是应保留的网页节点,当该服务器接收到终端发送的网页过滤 展示请求时,获取对应的原始网页,基于该白名单模板配置文件,过滤掉该原始网页中该白 名单模板配置文件中不包括的节点,从而过滤掉该原始网页中包括的指定类型节点。
[0104] 当用户使用移动终端时,该步骤204可以应用于该服务器的转码过程中,当该服 务器获取到该原始网页时,基于该模板配置文件,对该原始网页进行转码,使得转码后的网 页中不包括指定类型节点。
[0105] 需要说明的是,本发明实施例仅以该服务器将当前生成的网页作为待分析的网页 为例进行说明,而在实际应用中,该服务器很可能会由于业务升级、反抓取等原因而更新网 页,一旦网页被更新,网页中的内容或者网页内容的位置可能会发生变化,则网页中的指定 类型节点也会发生变化。为了保证模板配置文件的时效性,该服务器也要对该模板配置文 件进行更新。
[0106] 可选地,该服务器获取在当前时间点之前的指定时长内生成的多个网页,也即是, 每隔该指定时长,该服务器即获取在当前时间点之前的指定时长内生成的多个网页,对该 多个网页执行上述步骤201-204,得到更新的模板配置文件,基于该更新的模板配置文件, 对待展示网页进行过滤。其中,该指定时长可以由该服务器根据更新网页的时间点之间的
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1