一种基于BiLSTM的Tor加密流量分类方法

文档序号:35817739发布日期:2023-10-22 08:05阅读:34来源:国知局
一种基于BiLSTM的Tor加密流量分类方法

本发明涉及数据处理、加密流量分类,具体涉及一种基于bilstm的tor加密流量分类方法。


背景技术:

1、加密流量识别是当前庞大复杂网络中管理、流量分析和异常识别的基础,随着互联网的普及和飞速发展,网络安全已经上升到国家层面。谷歌2020年发布的报告中提到,截至到2019年5月,google有94%的网络流量是经过加密传输的,到2023年谷歌97%网站默认http加密,100%网站支持http加密。互联网中大量的数据使用加密技术传输,这对网络行为的监管带来了困难,很多不法分子利用加密流量来隐藏真实的攻击目的,因此有效地检测、识别、处理加密流量已经成为维护网络安全的一道重要防线。

2、tor系统是洋葱路由技术的具体体现,tor有两种实体,分别是tor用户(tor user)和tor节点(tor node)。tor节点提供中继服务,是tor网络的主体。tor用户在系统中运行本地代理onion proxy(op)程序,该程序选择中继节点,通过中继节点建立通道,接收应用tcp数据流,并将该数据流通过已建立通道传输。通过tor网络传输的用户通信,既有合理合法的用户行为,也有滥用的行为。由于tor网络的机制是出口节点代表用户访问最终的目的服务,因此当出现滥用行为时,目的服务看到的是出口节点发起的恶意行为,其直接结果往往是目的服务阻止出口节点访问,从而使所有通过该出口节点访问同样目的服务的通信都被阻止。tor网络中部分传输流量的内容为不安全的应用协议,如telnet、pop3等。因此部分恶意tor节点,当其作为传输通道的出口节点时,则运行相应的记录程序,对传输的敏感数据进行记录。如记录的telnet或pop3协议中密码传输的用户名和口令,并用作商业的用途,出售给相关的公司和机构。现在国内一些科技公司开发了检测ip代理的软件,用来检测tor连接,防止欺诈、加强流量过滤、避免虚假账号注册等问题。

3、流量分类起初使用端口映射的方式对流量进行识别分类,建立端口与应用流量的对照表,进行查询,以此来达到加密流量分类的目的,但是,随着端口跳变复用技术的出现,端口映射的方式不再适合。基于深度包检测是需要解析流量数据的包头以及负载内容,维护流量类别与特殊字段的匹配库,但是随着流量的密文传输,基于深度包检测的流量分类性能大大降低。由于以上两种分类方式的弊端,相关研究人员把注意力转向机器学习领域,为数据包构建包含流持续时间、传输字节数、数据包数、数据包间隔时长,等统计特征,取得了不错的效果,但是基于机器学习的流量识别在特征的选择过程中比较依赖专家知识经验,导致分类的准确率在很大程度上取决于特征选取的质量,相比于机器学习特征选择方面的缺陷,深度学习直接通过自动提取特征的方式对输入数据进行特征建模。

4、因此,现需要一种基于深度学习的、能够自动提取特征的、分类准确率更高的tor加密流量分类方法。


技术实现思路

1、本发明的主要目的在于提供一种基于bilstm的tor加密流量分类方法,以解决现有技术中的tor加密流量分类方法的分类准确率不高的问题。

2、为实现上述目的,本发明提供了一种基于bilstm的tor加密流量分类方法,具体包括如下步骤:s1,对数据集进行预处理;s2,对gsk算法进行并行策略改进,得到pgsk算法;s3,对pgsk算法进行紧凑策略改进,得到pcgsk算法;s4,使用pcgsk算法对bilstm的最大迭代次数、初始学习率和隐藏层进行参数优化;s5,对优化后的bilstm引入注意力机制,加强重要特征的比重;s6,使用pcgsk-bilstm对tor数据集进行分类。

3、进一步地,步骤s1具体包括:提取原始数据集的流量统计特征,包括流持续时间、每秒流字节数、平均数据包大小。

4、进一步地,步骤s2中,具体包括如下步骤:

5、s2.1,将种群分为g组,每组的种群数为n/g;

6、s2.2,利用gsk算法评估每组最优的个体,并找到每组最优解;

7、s2.3,将g组的每组最优解进行对比,选择g组最优解中的全组最优解作为全局最优解并记录;

8、s2.4,根据适应度函数的值进行排序,将每组中适应度函数值最差的替换为适应度函数值最好的。

9、进一步地,步骤s3中,具体包括如下步骤:

10、s3.1,先使用pv和cdf的反函数生成一个解x1;

11、s3.2,使用位置更新公式更新x1得到x2;

12、s3.3,比较x2和x1,适应度较好的作为winner,适应度较差的作为loser;

13、s3.4,利用winner和loser更新pv并更新全局最优解,并进行下一轮循环。

14、pv更新公式为:

15、

16、

17、其中,i表示第i维,np为虚拟的种群数量,t表示迭代次数,μ和σ是截断正态分布参数,winner[i]表示适应度较好的解,loser[i]表示适应度较差的解。

18、进一步地,步骤s5具体为:使用两个全连接层,第一个全连接层使用relu激活函数,第二个全连接层采用sigmoid激活函数,以使权重映射到(0,1)之间。

19、本发明具有如下有益效果:

20、本发明提供的方法,解决了tor加密流量分类方法准确率较低的问题。为了解决tor加密流量分类方法在分类性能上存在的不足,使用pcgsk算法对bilstm的最大迭代次数、初始学习率和隐藏层进行参数优化,使分类准确率有所提高。



技术特征:

1.一种基于bilstm的tor加密流量分类方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于bilstm的tor加密流量分类方法,其特征在于,步骤s1具体包括:提取原始数据集的流量统计特征,包括流持续时间、每秒流字节数、平均数据包大小。

3.根据权利要求1所述的一种基于bilstm的tor加密流量分类方法,其特征在于,步骤s2中,具体包括如下步骤:

4.根据权利要求1所述的一种基于bilstm的tor加密流量分类方法,其特征在于,步骤s3中,具体包括如下步骤:

5.根据权利要求1所述的一种基于bilstm的tor加密流量分类方法,其特征在于,步骤s5具体为:使用两个全连接层,第一个全连接层使用relu激活函数,第二个全连接层采用sigmoid激活函数,以使权重映射到(0,1)之间。


技术总结
本发明提供了一种基于BiLSTM的Tor加密流量分类方法,具体包括如下步骤:S1,对数据集进行预处理;S2,对GSK算法进行并行策略改进,得到PGSK算法;S3,对PGSK算法进行紧凑策略改进,得到PCGSK算法;S4,使用PCGSK算法对BiLSTM的最大迭代次数、初始学习率和隐藏层进行参数优化;S5,对优化后的BiLSTM引入注意力机制,加强重要特征的比重;S6,使用PCGSK‑BiLSTM对Tor数据集进行分类。本发明的技术方案克服现有技术中Tor加密流量分类方法的分类准确率不高的问题。

技术研发人员:赵慧奇,李营,范方,马耀文,张华杰,类蕊,刘璐,郭玉龙,孙顺发,玄其林
受保护的技术使用者:山东科技大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1