一种针对特定网站类别的网页指纹识别方法

文档序号:9527445阅读:1101来源:国知局
一种针对特定网站类别的网页指纹识别方法
【技术领域】
[0001] 本发明涉及一种针对特定网站类别的网页指纹识别方法,属于数据挖掘和信息安 全技术领域。
【背景技术】
[0002] 随着信息化建设的深入和互联网的深层发展,以互联网为载体的各种行为与交流 愈发活跃,但是,事物都有它的两面性,人们在享受互联网带来的信息获取和活动交流便利 的同时,各种形式的互联网犯罪也呈现出愈演愈烈之势,例如:网络间谍、网络诈骗、网络色 情、网络赌博等,这些网络犯罪活动严重危害了国家安全和社会稳定。为了应对这些潜在的 安全威胁,对目标人群的网络行为进行判别和监控就变得异常重要。但是,由于目前互联网 行为是跨境互联网行为,即使访问操作的web服务器的物理地点并不在境内,由于我国长 城防火墙的限制以及用户本身对于保密性的考虑,用户在进行跨境互联网操作时往往采用 基于匿名通信技术的通信工具。由于传统的网络行为监控大多基于流量分析技术,这些基 于数据包载荷特征的流量分类技术在数据包载荷为明文时是有效的,但由于匿名通信技术 的广泛使用,该技术使用加密算法对数据包载荷部分进行加密,数据探针无法获得数据包 明文信息,使得基于数据包载荷的流量分类方法失效,目前,传统的加密流量分析主要采用 基于统计学的流量分析技术,网页指纹识别技术是该技术在实际场景下的具体应用。
[0003] 在许多网络信息交互活动中,网站是重要的信息载体,而网页作为网站的基本元 素扮演着非常重要的角色,人们进入网站浏览网页,以获取信息或是在网页上留下自己的 信息,因此,对于网络行为的监控而言,判定目标人群浏览的网站类别十分重要,而网站类 别的判别离不开网页类别的判别。当目标访问某网页,浏览器开始加载网页时,虽然匿名 通信工具将加载流中数据包的载荷部分用加密算法进行了加密,但是数据包其它特征信息 并没有被掩盖,如:数据包大小值、数据包传输方向以及各个数据包传输次序和传输时间 间隔,网页指纹识别技术正是通过分析通信链路加密流量中的这些信道特征来识别目标浏 览的网页类别,所谓的网页"指纹"指的是加载网页时,通信链路中加载数据流产生的信道 特征实例,由于加载不同内容的网页时,通信链路中加载数据流信道特征和网页内容呈现 一一对应关系,在预先收集浏览相关网页的加密会话数据流,抽取统计规律信息构造训练 集,使用有监督分类算法对目标产生的加密网页加载数据流进行分类,从而识别出目标访 问的网页类别。
[0004] 网页指纹识别技术还在不断成熟的过程中,当前最核心的问题是如何提高在实际 环境下的网页指纹识别性能和适用性,这里的环境包括系统使用环境和系统应用环境,在 实际应用中往往需要判断网页指纹是否属于某个特定网站,而适用性主要指的是网页指 纹识别方法应对新型web技术的能力,现在大多数浏览器都默认开启缓存机制,而缓存机 制的存在会形成不稳定的网页指纹,造成判断指纹准确性的降低。
[0005] 因此,在满足实际缓存条件下,特定网站类别网页指纹识别需求,对提高网页指纹 识别技术实际应用环境的适用性至关重要。而本发明能够很好地解决上面的问题。

【发明内容】

[0006] 本发明目的在于提出了一种针对特定网站类别的网页指纹识别方法,该方法针对 特定网站类别网页指纹在缓存环境下的识别问题,主要采用基于分类效果的特征选择方法 以及基于训练集划分和结果集成相结合的分类方法,解决了特定网站类别网页指纹识别时 出现的不平衡分类问题,改进了网页指纹收集方法,该方法能够应用于应对缓存机制下的 网页指纹识别。
[0007] 本发明解决其技术问题所采取的技术方案是:一种针对特定网站类别的网页指纹 识别方法,包括基于分类效果值的特征选择方法与训练集划分和结果集成相结合的分类方 法,以及基于用户操作的网页指纹收集方法,
[0008] 方法流程:
[0009] 步骤1 :训练数据收集。在通信链路上对目标可能访问的所有网站的不同浏览器 操作方式下的网页指纹数据进行采集。
[0010] 步骤2 :数据预处理。消除噪音数据与冗余数据,包括重传数据包、坏数据包,冗余 数据包括协议控制数据。
[0011] 步骤3 :构造训练集。首先进行特征提取操作,根据指纹特征从预处理后的网页加 载数据流中提取出相应的特征值,然后将各特征、特征值组合成特征值向量,并将该网页加 载实例所属的网站类别作为该特征值向量的分类类别添加在特征向量末尾构成训练实例, 最终所有的训练实例构成了指纹原始训练集。
[0012] 步骤4 :特征选择。本发明提出了一种基于分类效果值的特征选择方法,该方法将 指纹数据集分为正类和负类,其中需要识别的网站类别为正类,其它网站类别为负类,如下 表所示:
[0013]
[0014] 其中,Q表示需要识别的正类,_.表示样本集中除了需要识别的网站以外的所有 类别。A表示正类中含有特征t的样本频率;B表示正类中不含有特征t的样本频率;C表 示负类中含有特征t的样本频率,D表示负类中不含有特征t的样本频率。本发明使用衡 量流属性和网站类别相关性的DCR(DistinguishClassificationResult)算法为:
[0015]
[0016] 其中,^表示正类指纹实例中含有特征属性t的比值,该值越大,特征属性t表 示正类的能力就越强;表示含有特征属性t的指纹实例中正类实例比例,该值越大, 表示该流属性区分类别的效果较好。
_示正类中含有特征属性t的样本数 较多,而负类中含有特征属性t的样本数较少,该值越大,表明该特征属性类别区分的效果/-Γ 较好。#表示该特征属性t在正类中平均出现的频数和在负类中平均出现的频数的比值, l·、. i 该比值越大表示该特征属性和正类有着较强的相关性。将计算出每个指纹数据集中每个特 征正类的分类效果值按照分类效果值大小进行降序排序,选择排名前N个特征作为最终分 类用特征。
[0017] 步骤5 :训练集划分。首先将整个训练集按正类和负类划分为正类训练集和负类 训练集,用C和f分别表示正类训练集和负类训练集:
[0018]
[0019] 其中,Cl表示第i个正类样本,η表示正类样本数;ξ表示第i个负类样本,m表示 负类样本数。之后,对负类训练集使用随机划分法进行划分:
[0020]
[0021] 其中,6代表划分后的第i块负类子训练集,h表示第i块负类子训练集的样本 数目。其中划分的块数N由以下公式决定:I,m是负类训练集样本数,η是正类训练 集样本数。最后,将正类训练集和各个负类子训练集合并,得到Ν个子训练集:
[0022]
[0023] 其中,1\是最终划分完成后的子训练集。由于在子训练集中,正类样本数目等于负 类样本数目,可以在这些训练集上使用传统分类器进行分类。
[0024] 步骤6 :分类。训练集划分完毕后,使用传统分类器在各个训练子集上对目标产生 的待分类指纹数据进行分类。本发明使用的是基于余弦相似度匹配算法的ΚΝΝ分类器,当 目标网页加载流量到达后,返回步骤2和步骤3的操作,将其转化为待分类网页指纹实例, 之后使用特征选择出的特征参与相似度计算,计算待分类指纹实例与训练集中各实例间的 余弦相似度值,筛选出与待分类指纹最相似的Κ个指纹,其相似度计算公式为:
[0025]
[0026] 其中,山为待分类指纹,d,为训练集中某指纹,Wlk为待分类指纹中第k个特征值, W]k为训练集指纹中第k个特征值。之后分别计算待分类指纹K个邻居的类别权重,计算公 式:
其中山为待分类指纹"为K个相邻指纹中的一 个,彻从为相似度匹配算法,为类别函数,当不属于类别&时,该函数值为 1,否则为〇。最后通过比较各类的类别权重,确定该待分类指纹的网站类别。
[0
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1