一种网站镜像的检测方法及装置的制造方法

文档序号:9350100阅读:159来源:国知局
一种网站镜像的检测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网应用技术领域,尤其涉及一种网站镜像的检测方法及装置。
【背景技术】
[0002] "网站"是构成互联网的重要主体之一。对于网站所有者而言,网站的排名和流量 是网站的核心价值,能够与在线广告投放等商业模式相结合,为网站所有者带来可观的商 业利益。然而,现在互联网上出现一种称为"网站恶意镜像"的侵权行为,对网站所有者的 利益造成严重损害。该行为是指:侵权者将原始网站的内容复制到自己掌握的多个域名上, 形成原始网站的多个恶意镜像网站,当这些镜像网站被搜索引擎检索收录后,用户通过搜 索引擎查找相关信息时,就会被分流到侵权者掌握的大量镜像网站上,不仅使侵权者轻易 获取大量流量以及其背后的商业价值,而且还对原始网站的排名和流量造成严重影响,侵 害了原始网站所有者的权益。
[0003] 原始网站所有者发现其拥有的网站恶意镜像后,一般通过屏蔽镜像域名被访问等 方式,防止侵权者继续盗取原始网站的内容。但由于互联网上存在大量的免费域名资源,因 此侵权者很容易以低廉的成本更换域名后,再次盗取原始网站的内容,建立恶意镜像网站。 因此,需要一种网站镜像的检测方法及装置,以解决现有技术中存在的上述技术问题。

【发明内容】

[0004] 本发明提供一种网站镜像的检测方法及装置,在保证检测准确性的同时,提高网 站镜像检测的效率。
[0005] 本发明采用的技术方案是:
[0006] -种网站镜像的检测方法,其包括:计算待检测网站的标题信息与原始网站的标 题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;比对所述疑 似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预 设条件,则判定所述疑似网站为镜像网站。
[0007] 优选地,所述计算待检测网站的标题信息与原始网站的标题信息的相似度,若所 述相似度超过设定阈值,则所述待检测网站为疑似网站之前,所述方法还包括:加载待检测 网站的网页内容;从待检测网站的网页内容中提取标题。
[0008] 优选地,所述计算待检测网站的标题信息与所述原始网站的标题信息的相似度, 具体包括:将待检测网站的标题和原始网站的标题分别进行中英文分词;提取待检测网站 的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原始索引;分别比对所 述待检测索引中的单词和所述原始索引中的单词,以计算待检测网站的标题信息与所述原 始网站的标题信息的相似度。
[0009] 优选地,比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结 构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站之前,所述方法还包 括:筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的关 键节点,筛选所述原始网站中原始网页的文档对象模型DOM树节点,保留反映DOM树形结构 的原始节点;在所述关键节点和原始节点上分别附加位置属性,构建疑似网页的可视化元 素树和原始网页的可视化元素树。
[0010] 优选地,所述筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反 映DOM树形结构的关键节点,具体包括:确定所述疑似网页的视觉边界;删除分隔栏;删除 节点面积小于设定下限值的关键节点;删除节点面积小于阈值的关键节点所包含的所有子 节点,以归并零碎区域;删除节点面积大于设定上限值并且包含所有子节点的关键节点。
[0011] 优选地,所述位置属性包括位置四元组:关键节点或者原始节点显示的矩形区域 的左上角顶点对应地与疑似网页或者原始网页的页面上边缘的像素距离为顶坐标top、关 键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页 面左边缘的像素距离为左坐标left、关键节点或者原始节点显示的矩形区域的像素高度 height以及关键节点或者原始节点显示的矩形区域的像素宽度width。
[0012] 优选地,所述比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网 页结构中的可视化元素,具体包括:判断关键节点和原始节点的相似性:分别将疑似网页 的可视化元素树上的关键节点和原始网页的可视化元素树上的原始节点分别变为线性列 表;依次比对线性列表上的关键节点和原始节点,则关键节点的节点面积等同于原始节点 的节点面积,并且满足以下任一条件的节点对具有相似性:A、水平位置差异符合整体位移, 且顶坐标相同;B、垂直位置差异符合整体位移,且左坐标相同;C、水平和垂直位置差异均 符合整体位移;D、水平位置差异符合整体位移,且底坐标至网页底部的距离相同。
[0013] 优选地,若满足预设条件,则判定所述疑似网站为镜像网站,具体包括:若满足: C - k/A+D - t/B+w>0时,判定所述疑似网页与所述原始网页相似,所述疑似网站为镜像网 站,其中:遍历节点占比:A =遍历的节点总数/镜像节点总数;遍历面积占比=遍历的 节点总面积/镜像节点总面积;相似结点占比:C =相似的节点总数/遍历的节点总数;相 似面积占比:D =相似的节点总面积/遍历的节点总面积;参数k、t、w的取值在实际应用中 根据训练集进行计算。
[0014] 本发明还提供了一种网站镜像的检测装置,其包括:网站标题验证模块:用于计 算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值, 则所述待检测网站为疑似网站;网页结构比对模块:用于比对所述疑似网站的网页结构中 的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述 疑似网站为镜像网站。
[0015] 优选地,所述网页标题验证模块,还用于:将待检测网站的标题和原始网站的标题 分别进行中英文分词;提取待检测网站的标题和原始网站的标题中的中英文单词,分别建 立待检测索引和原始索引;分别比对所述待检测索引中的单词和所述原始索引中的单词, 以计算待检测网站的标题信息与所述原始网站的标题信息的相似度。
[0016] 采用上述技术方案,本发明至少具有下列效果:
[0017] 本发明的网站镜像的检测方法可以准确的检测出原始网站的镜像网站,并且检测 效率较高。
【附图说明】
[0018] 图1为本发明第一实施例网站镜像的检测方法的流程图;
[0019] 图2为本发明第二实施例网站镜像的检测方法的流程图;
[0020] 图3为本发明第三实施例网站镜像的检测方法的流程图;
[0021] 图4为本发明第四实施例网站镜像的检测装置的方框图。
【具体实施方式】
[0022] 为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图 及较佳实施例,对本发明进行详细说明如后。
[0023] 本发明提供的网站镜像的检测方法包括前级检测步骤和后级检测步骤,下面将详 细地描述本发明的网站镜像的检测方法及其各个步骤。
[0024] 第一实施例
[0025] 如图1所示,本实施例的网站镜像的检测方法包括:前级验证步骤SlO:计算待检 测网站的标题信息与原始网站的标题信息的相似度,若相似度超过设定阈值,则待检测网 站为疑似网站。
[0026] 后级验证步骤S20 :比对疑似网站的网页结构中的可视化元素和原始网站的网页 结构中的可视化元素,若满足预设条件,则判定疑似网站为镜像网站。
[0027] 前级验证步骤仅是对待检测网站的标题信息进行验证,与原始网站的标题信息的 相似度,该步骤检测速度快,具有较高的准确性。而后级验证步骤是对符合前级验证步骤的 疑似网站的网页结构进行验证,复杂性较高,速度较慢,但具有非常高的准确性。前后两级 验证,使得前级验证步骤能够从输入的大量待检测网站中快速排除明显不具有相似度的待 检测网站,后级验证步骤再对剩余的具有相似度的少量疑似网站样本进行精确判定,这样 从总体上在保证网站镜像准确性的同时,尽可能提高检测效率。
[0028] 作为优选地,计算待检测网站的标题信息与原始网站的标题信息的相似度,具体 包括:步骤S100:将待检测网站的标题和原始网站的标题分别进行中英文分词;步骤S101: 提取待检测网站的标题和原始网站的标题中的中英文单词,分别建
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1