基于直推图的加密流量识别与分类方法及系统

文档序号:31049661发布日期:2022-08-06 06:31阅读:70来源:国知局
基于直推图的加密流量识别与分类方法及系统

1.本发明属于网络流量管理领域,涉及加密网络流量识别和分类技术,具体涉及一种基于直推图的加密流量识别与分类方法及系统。


背景技术:

2.加密流量识别和分类技术是网络流量管理技术的主要分支之一。该技术通过收集不同网络应用产生的流量数据,建立对不同类别网络应用流量的识别模型,以识别和分类待测流量归属的网络应用。随着对称加密与非对称加密体系的逐渐成熟,网络流量普遍采用标准的tls/ssl加密技术进行数据加密,这使得原本以明文传输的数据变得不透明,传统的基于深度包检测的网络流量检测与分类方法不再适用于当前的应用场景。新型的加密流量分类技术借鉴机器学习与深度学习强大的表征能力,使用加密流量的侧信道特征作为训练样本建立加密网络流量的识别与分类模型。这类新型的加密流量分类技术提取加密网络会话的统计特征或时序特征等,包括会话包大小,频率分布,时间序列等侧信道信息,作为会话的表征向量,学习不同网络应用流量的特征分布,以识别和分类不同应用的加密流量。
3.由于侧信道信息与学习模型的局限性,目前主流的智能加密流量识别分类技术并不能很好地应用于实际部署。目前的加密流量识别与分类技术的训练用料是加密流量的侧信道信息,在不同网络环境下的侧信道信息是不稳定的,这导致了模型学习到的单一分布无法适应收到扰动的侧信道特征分布。目前的加密流量识别与分类模型的训练和测试方法是——在已知的单一网络环境下初始化模型,初始化后的模型在不同的网络环境下部署测试,这同样导致了模型学习到的单一分布无法适应收到扰动的侧信道特征分布。因此,新型智能加密流量识别和分类技术存在着以下难以解决的挑战:由于网络拓扑架构的复杂性与不确定性,目前的加密流量识别与分类技术无法保证稳定的普适性。不同网络环境下,由于存在不可预知的网络波动,网络延迟,网络带宽与拓扑结构,来自同一网络应用的加密流量在同组特征向量下的特征分布容易受到干扰,不稳定的特征分布使得目前的在单一网络下初始化的加密流量识别与分类模型无法达到稳定的识别和分类效果。


技术实现要素:

4.本发明的目的在于提供一种基于直推图的加密流量识别与分类方法,重点利用设计的直推图推理算法,将已知标签的加密流量簇结点的标签信息扩散到未知标签的加密流量簇结点,从而分类待测加密流量所属的网络应用。
5.本发明采用的技术方案如下:
6.一种基于直推图的加密流量识别与分类方法,包括以下步骤:
7.对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;
8.通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;
9.对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
10.将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
11.进一步地,上述基于直推图的加密流量识别与分类方法,包括加密流量直推图的构建算法和基于直推图的迭代“聚合扩散”图推理算法。通过加密流量直推图的构建算法构建加密流量直推图,通过基于直推图的迭代“聚合扩散”图推理算法将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
12.进一步地,所述加密流量直推图的构建算法包括以下步骤:
13.首先,将网络流量捕获器在不同的网络环境下部署,收集来自不同网络环境下不同网络应用产生的加密流量数据;然后,使用预定义的五元组作为键值分别将不同网络环境下的流量数据以会话为单位分割;对于不同网络环境下的网络会话集合,将具有相同地址特征的网络会话聚合,形成多个网络会话簇结点集合;将已知类别标签的结点集合与其他未知类别标签的结点集合合并,得到完整的结点集合;计算结点之间的特征相似度,构建结点之间的关系边,形成初始化的加密流量直推图;对于直推图中的跨域结点,修正其真实的类别信息,更新初始化的直推图。
14.进一步地,所述基于直推图的迭代“聚合扩散”图推理算法包括以下步骤:
15.在每一轮推理中,对直推图中已知标签的加密流量簇结点使用“聚合”算法,所述“聚合”算法包括:对于已知类别标签的结点的具有相同类别标签的邻接结点,以关系边为权重系数,向中心结点聚合特征信息,遍历所有已知标签的结点后,更新已知类别标签与邻接结点的关系边权重,以强化具有同类别标签结点之间的关系边权重,并弱化具有不同类别标签结点之间的关系边权重;
16.对直推图中未知类别标签的加密流量簇结点使用“扩散”算法,所述“扩散”算法包括:对于未知类别标签的待测结点,使用其邻接的具有已知类别标签的结点以关系边权重加权,计算每一个类别对该待测结点的影响置信度;选取高于判别阈值的最高影响置信度代表的类别标签,作为该待测结点的预测类别,然后将该已预测类别的结点加入到已知类别标签的结点集合中;对于最高影响置信度低于判别阈值的结点,不作预测;直到直推图中所有未知类别标签的结点完成类别标签预测,或者两轮迭代后直推图保持稳定后,基于直推图的迭代“聚合扩散”图推理算法停止;
17.获得预测的类别标签的待测结点中的网络会话被分类为该结点获得的类别标签,实现加密流量的识别分类任务;直推图中未获得预测的类别标签的待测结点,其包含的网络会话被判定为新类,即未在训练集中出现的网络应用所产生的加密流量会话。
18.进一步地,在加密流量直推图的构建算法中采用的流量收集技术包括:将网络流量收集器部署在不同的网络环境下的路由结点,其中训练样本通过在可控网络下监控已知网络应用获得,待测的测试样本在未知网络下部署收集。
19.进一步地,在加密流量直推图的构建算法中采用的流量分片技术包括:对于收集到的加密流量集合,以会话或流等流量计量单位为基本单位进行流量分片。
20.进一步地,在加密流量直推图的构建算法中采用的网络会话聚合技术包括:对于每一个分片后的会话,提取其会话的网络层目的地址作为地址特征,对于在已知网络下与
未知网络下收集的加密流量数据,分别聚合具有相同地址的特征。
21.以下是网络会话聚合技术的形式化表示:
[0022][0023][0024][0025][0026]
c=c
train
∪c
test
[0027]
其中,是已知的可控网络下聚合的流量会话簇结点集合,其会话标签是已知的;是未知网络下聚合的流量会话簇结点集合,其中会话的标签需要预测。对于已知网络与未知网络下的流量会话,分别通过地址特征提取函数f
ip
提取地址特征,并聚合具有相同地址特征的网络会话;然后,将将两类结点集合合并到总体的结点集合c中。其中,是已知的可控网络中任意一个网络会话,是已知的可控网络中任意两个不同的网络会话;是未知网络中任意一个网络会话,是未知网络中任意两个不同的网络会话;c
train
是已知的可控网络下聚合的所有簇;c
test
是未知网络中聚合的所有簇。
[0028]
进一步地,在加密流量直推图的构建算法中采用的关系边构建技术包括:对于总体的结点集合中的每一个结点,计算其与剩余的所有结点之间的特征相似度。其中,对于每一个结点,提取其地址特征、握手特征与域名特征作为其表征向量。通过计算结点之间的多维特征相似度,构建结点之间的关系边。
[0029]
以下是结点特征的形式化表示:
[0030][0031]
其中,地址特征握手特征与域名特征共同构成结点的特征向量ζi,其中握手特征是指在标准加密的加密流量会话中,加密协商握手时明文的握手信息中的证书特征,域名特征是指在网络会话中包含在流量包之中的域名信息,其中,对于未加密的网络会话,域名特征指在流量包载荷中出现的域名信息,对于加密网络会话,域名特征指在握手信息中证书信息中包含的域名信息。
[0032]
以下是结点之间关系边构建技术的形式化表示:
[0033][0034]
其中,是计算两个节点之前相似度的函数,γ是结点i与结点j的共同特征,是结点i中,共同特征对应的特征系数,γn是两个结点之间的共同特征的键值,[γn]是键值对应的数量值,n是对应键值序号的下标,key(
·
)是键值提取函数,提取特征集合中的键值。分别计算两个结点之间每一维特征的相似性,加权求和后构建两个结点之
间的关系边。
[0035]
进一步地,在加密流量直推图的构建算法中,所述初始化的直推图的构建技术包括:得到的结点集合与结点之间关系边的集合,共同构建初始化的直推图。
[0036]
进一步地,在加密流量直推图的构建算法中采用的跨域结点修正技术包括:已知类别标签信息训练集合中存在跨域请求的结点,其中,所述的跨域请求结点指的是在由跨域流量会话聚合而成的结点,在某些网络应用中捕获的流量会话请求了该网络应用服务器外的资源,从而导致了跨域流量的出现;对于跨域结点,将其原有的错误标签修正为实际请求的网络应用服务器对应的类别标签。
[0037]
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用图推理迭代算法:该算法是迭代式算法,每一轮迭代包含“聚合”算法与“扩散”算法的两种图推理算法;在每一轮迭代中,首先对直推图使用“聚合”算法,然后对直推图使用“扩散”算法。
[0038]
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中所述的“聚合”算法:对于已知类别标签的结点的具有相同类别标签的邻接结点,以关系边为权重系数,向中心结点聚合特征信息,遍历所有已知标签的结点后,更新已知类别标签与邻接结点的关系边权重,以强化具有同类别标签结点之间的关系边权重,并弱化具有不同类别标签结点之间的关系边权重。
[0039]
以下是“聚合”算法的形式化表达:
[0040][0041][0042][0043]
其中,是第n轮直推图中结点i到结点j的关系边,通过加权求和结点i与相邻结点中的同类结点的关系边,求得结点i与结点j之间的权重系数对于每一个已知类别标签的结点i,在第n轮迭代中,聚合其邻接的同类的k个结点的特征向量,并更新第n轮结点i的特征向量得到第n+1轮结点i的特征向量然后,通过重新计算结点i的特征向量在n+1轮的特征向量与邻接结点的特征向量的关系,更新n+1轮的关系边其中a是相邻结点的下标,σ(
·
)是计算两个结点相似度的函数。
[0044]
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中所述的“扩散”算法:对于未知类别标签的待测结点,使用其邻接的具有已知类别标签的结点以关系边权重加权,计算每一个类别对该待测结点的影响置信度,选取高于判别阈值的最高影响置信度代表的类别标签,作为该待测结点的预测类别,然后将该已预测类别的结点加入到已知类别标签的结点集合中,对于最高影响置信度低于判别阈值的结点,不作预测。
[0045]
以下是“扩散”算法的形式化表达:
[0046][0047][0048]
其中,conveci是未知类别标签的待测结点的影响置信度向量,长度为训练集中包含的网络应用类别数量n;对于未知类别标签的待测结点i,遍历其邻接的已知类别标签的结点,获取之间的关系边,加权求和对应的每一个类别的影响置信度;然后,选取影响置信度向量conveci中最高置信度max(conveci);如果最高置信度max(conveci)大于判别阈值τ,则对应的下标k所对应的类别标签作为该未知类别标签的结点的预测类别yi;反之,则跳过该未知类别标签的待测结点,不作预测。其中yi是预测类别标签,n是邻接的已知类别标签的结点的数量,是邻接的已知类别标签的结点的关系边权重。
[0049]
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用的图推理算法迭代终止技术包括:直推图中所有未知类别标签的结点完成类别标签预测,或者两轮迭代后直推图保持稳定后,基于直推图的迭代“聚合扩散”图推理算法停止。
[0050]
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用的网络会话分类技术包括:对于已被预测的,未知网络下的加密流量簇结点,簇中聚合的待测网络会话被预测为该结点获得的预测类别标签,以实现加密流量的识别与预测。
[0051]
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用的新类识别分类技术包括:直推图中未获得预测类别标签的待测结点,其包含的网络会话被判定为新类,即未在训练集中出现的网络应用所产生的加密流量会话。
[0052]
一种采用上述方法的基于直推图的加密流量识别与分类系统,包括:
[0053]
加密流量直推图构建模块,用于采用加密流量直推图的构建算法构建加密流量直推图,包括:对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
[0054]
图推理模块,用于采用基于直推图的迭代“聚合扩散”图推理算法,将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
[0055]
利用本发明的方法可以在网络流量训练样本多样性不足的情况下,使用单一网络收集的流量数据作为训练集,高效稳定地识别与分类通用网络下收集的网络应用流量,并识别出训练集合中未包含的新类网络应用流量数据:
[0056]
1、本发明提出了一种加密网络流量直推图的构建方法,将训练集与测试集网络流量数据以地址特征聚合,构建包含了训练集与测试集结点的直推图。
[0057]
2、本发明提出了一种基于直推图的加密流量识别与分类算法,配合构建的加密网络流量直推图,迭代的“聚合扩散”图推理算法将训练集中的结点类别标签扩散到测试集中未知类别标签的结点,以实现加密流量的识别和分类。
[0058]
3、本发明使用了提出的基于直推图的加密流量识别与分类算法,具备识别训练集中未包含的网络应用产生的新类流量的能力。
附图说明
[0059]
图1是提出的基于直推图的加密流量识别与分类方法的流程图。
[0060]
图2是提出的基于直推图的迭代“聚合扩散”图推理算法中所述的“聚合扩散”图推理算法的示意图。
具体实施方式
[0061]
下面通过具体实施例和附图,对本发明做进一步详细说明。
[0062]
本发明提供的基于直推图的加密流量识别与分类算法,适用于准确稳定地识别和分类不同网络应用产生的加密流量,即使这些加密流量产生于不同的网络环境下。本发明的流程图与示意图如图1、2所示。图1是本发明提供的基于直推图的加密流量识别与分类算法的流程图,图2是本发明提供的基于直推图的迭代“聚合扩散”图推理算法中所述的“聚合扩散”图推理算法的示意图。本发明中,“直推图”是指将已知网络与未知网络下的网络流量共同构建关系图,在同一个关系图中直接推理未知网络下的流量标签信息。
[0063]
本发明分类多个网络应用在不同网络下收集的加密流量数据,以网络会话为基本单位构建直推图,将已知类别的会话结点的标签信息通过强连接边扩散到待分类预测的会话结点,实现未知标签结点的网络应用类别预测。
[0064]
实例1使用基于直推图的加密流量识别与分类算法识别分类未知网络下的加密流量
[0065]
以独立收集的数据集crossnet2022作为数据集,crossnet2022数据集包含了两个网络环境下收集的加密流量数据,对于每个网络环境下收集相同网络应用产生的加密流量数据,这些流量产生于20种常用的网络应用:
[0066]
1)首先,对于其中一个网络环境下收集的20种网络应用的加密流量数据,以{目的ip,目的端口,源ip,源端口,传输层协议}的五元组为键值进行网络会话分割。将收集的原始数据包集合分割为单个网络会话;
[0067]
2)提取1)中得到网络会话集合中每一个网络会话的网络层的目的ip地址,即服务器地址,作为其地址特征;
[0068]
3)对于2)中提取了地址特征的网络会话集合,聚合具有相同地址特征的网络会话,形成网络会话簇结点集合;
[0069]
4)对于crossnet2022的a,b两个网络下的数据集,通过1)-3)的操作获得两组结点集合,将其中a中的结点作为训练集,具有类别标签信息,b中的结点作为测试集,为没有类别标签的待测结点,将a,b两组结点集合合并;
[0070]
5)对于4)中得到的合并的结点集合,提取每个结点的三维特征向量{地址特征,握手特征,域名特征};
[0071]
6)计算结点之间的特征相似度,构建结点之间的关系边,形成初始化的直推图;
[0072]
7)对于6)获得的直推图中的跨域结点,识别并修正其正确真实的类别标签信息;
[0073]
8)对于7)中获得的修正后的直推图,使用迭代的“聚合扩散”图推理算法,在每一轮迭代中,迭代每一个已知类别标签的结点,聚合同类别的邻接结点信息到该结点,并重新计算该结点与邻接结点的关系边,然后对于未知类别标签的待测结点,使用其邻接的具有已知类别标签的结点以关系边权重加权,计算每一个类别对该待测结点的影响置信度,选
取高于判别阈值的最高影响置信度代表的类别标签,作为该待测结点的预测类别,然后将该已预测类别的结点加入到已知类别标签的结点集合中,对于最高影响置信度低于判别阈值的结点,不作预测;
[0074]
9)直推图中所有未知类别标签的结点完成类别标签预测,或者两轮迭代后直推图保持稳定后,基于直推图的迭代“聚合扩散”图推理算法停止;
[0075]
10)对于已被预测的,未知网络下的加密流量簇结点,簇中聚合的待测网络会话被预测为该结点获得的预测类别标签,以实现加密流量的识别与预测。
[0076]
比较本发明提出的基于直推图的加密流量识别与分类算法与其他方法的结果,对比结果如表1所示。表1是在crossnet2022数据集中,a网络的数据作为训练集,b网络作为测试集,使用的度量参数分类准确率(accuracy)。
[0077]
表1
[0078]
数据集本发明方法flowprintxgboostrbrnfc-netcrossnet202290.4666.3820.4234.2935.08
[0079]
实例2使用基于直推图的加密流量识别与分类算法识别与分类训练集中未包括的网络应用的新类加密流量
[0080]
使用crossnet2022的两个子数据集作为实例样本,其中crossnet2022_a中的15个类作为训练集,其标签是已知的;crossnet2022_b中的数据作为测试集,包含所有的20个类别,需要识别crossnet2022_a中不包含的5个类别。
[0081]
1)重复实例1中的1)-9);
[0082]
2)直推图中未获得预测类别标签的待测结点,其包含的网络会话被判定为新类,即未在训练集中出现的网络应用所产生的加密流量会话。
[0083]
比较本发明方法与其他方法的结果,所有方法在crossnet2022_a中初始化和训练,在crossnet2022_b中进行新类识别测试,表2是加密流量新类识别的准确率。具体的,表2是在crossnet2022数据集中,a网络的数据作为训练集,b网络作为测试集,使用的度量参数分类准确率(accuracy)。
[0084]
表2
[0085]
数据集本发明方法flowprintxgboostrbrnfc-netcrossnet202295.1178.4867.4559.6861.17
[0086]
根据表1和表2的结果,分别体现了本发明方法提出的基于直推图的加密流量识别与分类算法的优越性。
[0087]
基于同一发明构思,本发明的另一实施例提供一种采用本发明方法的基于直推图的加密流量识别与分类系统,包括:
[0088]
加密流量直推图构建模块,用于采用加密流量直推图的构建算法构建加密流量直推图,包括:对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
[0089]
图推理模块,用于采用基于直推图的迭代“聚合扩散”图推理算法,将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
[0090]
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
[0091]
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如rom/ram、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
[0092]
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1