一种网站镜像的检测方法及装置的制造方法_3

文档序号:9350100阅读:来源:国知局
算出C - k/A+D - t/B+w>0,即镜像网站的样本与原始网站是相似的, 其它非镜像网站的样本总是计算出C - k/A+D - t/B+w〈 = 0,即非镜像网站的样本与原始网 站是不相似,这样就可以得到符合此次训练集的一组参数值,在接下来的检测方法中采用 上述训练集得到的一组参数值即可。
[0041] 上文中所述的遍历的节点总数以及遍历的节点总面积为遍历一个疑似网站中总 的节点总数以及总的节点总面积,而相似的节点总数以及相似的节点总面积是以具有相似 性的节点对中的节点数进行计算。
[0042] 第四实施例
[0043] 如图4所示,本实施例中的网站镜像的检测装置包括:网站标题验证模块10 :用于 计算待检测网站的标题信息与原始网站的标题信息的相似度,若相似度超过设定阈值,则 待检测网站为疑似网站,以及网页结构比对模块20 :用于比对疑似网站的网页结构中的可 视化元素和原始网站的网页结构中的可视化元素,若满足预设条件,则判定疑似网站为镜 像网站。
[0044] 优选地,网页标题验证模块10,还用于:将待检测网站的标题和原始网站的标题 分别进行中英文分词;提取待检测网站的标题和原始网站的标题中的中英文单词,分别建 立待检测索引和原始索引;分别比对待检测索引中的单词和原始索引中的单词,以计算待 检测网站的标题信息与原始网站的标题信息的相似度。
[0045] 通过以下实例说明本发明的网站镜像的检测方法检测的准确性,并且检测效率较 尚。
[0046] 步骤一:原始网站的所有者通过爬取搜索引擎结果的方式,获得大量含有本网站 主要关键词的待检测网站列表,本例中共包含1142个待检测网站。
[0047] 步骤二:将1142个待检测网站的URL以及原始网站的主页进行前级验证步骤和后 级验证步骤,最终自动检测发现52个镜像网站和1090个非镜像网站,并输出每个镜像网站 的标题及检测结果,供人工核验。
[0048] 步骤三:本实例为了核验本发明方法的具体效果,人工对1142个待检测网站进行 了核验,最终结果如下:
[0049] 表一
[0050]
[0051] 因此,可知此例中:
[0052] 查准率(准确率)为51/52 = 98. 08%,
[0053] 查全率(召回率)为51/54 = 94. 44%。
[0054] 通过【具体实施方式】的说明,应当可对本发明为达成预定目的所采取的技术手段及 功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本 发明加以限制。
【主权项】
1. 一种网站镜像的检测方法,其特征在于,包括: 计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定 阈值,则所述待检测网站为疑似网站; 比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视 化元素,若满足预设条件,则判定所述疑似网站为镜像网站。2. 根据权利要求1所述的检测方法,其特征在于,所述计算待检测网站的标题信息与 原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网 站之前,所述方法还包括: 加载待检测网站的网页内容; 从待检测网站的网页内容中提取标题。3. 根据权利要求2所述的检测方法,其特征在于,所述计算待检测网站的标题信息与 所述原始网站的标题信息的相似度,具体包括: 将待检测网站的标题和原始网站的标题分别进行中英文分词; 提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原 始索引; 分别比对所述待检测索引中的单词和所述原始索引中的单词,以计算待检测网站的标 题信息与所述原始网站的标题信息的相似度。4. 根据权利要求1至3中任一项所述的检测方法,其特征在于,比对所述疑似网站的网 页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则 判定所述疑似网站为镜像网站之前,所述方法还包括: 筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的 关键节点,筛选所述原始网站中原始网页的文档对象模型DOM树节点,保留反映DOM树形结 构的原始节点; 在所述关键节点和原始节点上分别附加位置属性,构建疑似网页的可视化元素树和原 始网页的可视化元素树。5. 根据权利要求4所述的检测方法,其特征在于,所述筛选所述疑似网站中疑似网页 的文档对象模型DOM树节点,保留反映DOM树形结构的关键节点,具体包括: 确定所述疑似网页的视觉边界; 删除分隔栏; 删除节点面积小于设定下限值的关键节点; 删除节点面积小于阈值的关键节点所包含的所有子节点,以归并零碎区域; 删除节点面积大于设定上限值并且包含所有子节点的关键节点。6. 根据权利要求4所述的检测方法,其特征在于,所述位置属性包括位置四元组:关键 节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面 上边缘的像素距离为顶坐标top、关键节点或者原始节点显示的矩形区域的左上角顶点对 应地与疑似网页或者原始网页的页面左边缘的像素距离为左坐标left、关键节点或者原始 节点显示的矩形区域的像素高度height以及关键节点或者原始节点显示的矩形区域的像 素宽度width。7. 根据权利要求6所述的检测方法,其特征在于,所述比对所述疑似网站的网页结构 中的可视化元素和所述原始网站的网页结构中的可视化元素,具体包括: 判断关键节点和原始节点的相似性; 分别将疑似网页的可视化元素树上的关键节点和原始网页的可视化元素树上的原始 节点分别变为线性列表; 依次比对线性列表上的关键节点和原始节点,则关键节点的节点面积等同于原始节点 的节点面积,并且满足以下条件的节点对具有相似性: 1) 、水平位置差异符合整体位移,且顶坐标相同; 2) 、垂直位置差异符合整体位移,且左坐标相同; 3) 、水平和垂直位置差异均符合整体位移; 4) 、水平位置差异符合整体位移,且底坐标至网页底部的距离相同。8. 根据权利要求7所述的检测方法,其特征在于,若满足预设条件,则判定所述疑似网 站为镜像网站,具体包括: 若满足:C - k/A+D - t/B+w>0时,判定所述疑似网页与所述原始网页相似,所述疑似网 站为镜像网站,其中: 遍历节点占比:A =遍历的节点总数/镜像节点总数; 遍历面积占比:B =遍历的节点总面积/镜像节点总面积; 相似结点占比:C =相似的节点总数/遍历的节点总数; 相似面积占比:D =相似的节点总面积/遍历的节点总面积; 参数k、t、w的取值在实际应用中根据训练集进行计算。9. 一种网站镜像的检测装置,其特征在于,包括: 网站标题验证模块:用于计算待检测网站的标题信息与原始网站的标题信息的相似 度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站; 网页结构比对模块:用于比对所述疑似网站的网页结构中的可视化元素和所述原始网 站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站。10. 根据权利要求8所述的检测装置,其特征在于,所述网页标题验证模块,还用于: 将待检测网站的标题和原始网站的标题分别进行中英文分词; 提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原 始索引; 分别比对所述待检测索引中的单词和所述原始索引中的单词,以计算待检测网站的标 题信息与所述原始网站的标题信息的相似度。
【专利摘要】本发明提出了一种网站镜像的检测方法及装置。所述检测方法包括:计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站,在保证检测准确性的同时,提高网站镜像检测的效率。
【IPC分类】G06F17/30
【公开号】CN105069169
【申请号】CN201510547203
【发明人】易立, 杜翠兰, 钮艳, 项菲, 刘晓辉, 李鹏霄, 刘洋, 任彦, 郭晶
【申请人】国家计算机网络与信息安全管理中心
【公开日】2015年11月18日
【申请日】2015年8月31日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1