一种基于GCNN和MoE的加密网络流量分类方法

文档序号：34568170发布日期：2023-06-28 11:29阅读：25来源：国知局

本发明属于计算机人工智能领域，具体涉及一种基于gcnn和moe的加密网络流量分类方法。

背景技术：

1、随着近年来互联网通信技术的日益发展，包括5g在内的通信技术的普及使智能和移动设备的增长显著。人们普遍预测，到2023年，包括智能手机在内的物联网(iot)设备的数量将达到数百亿，网络已经成为人们工作和生活的一部分。在当今的网络管理系统中，网络流量分类是一项关键工作，主要目标是预测网络数据流协议和应用程序类型。

2、近年来，随着保护传输数据和用户的隐私安全需求的快速发展，越来越多的应用程序的协议开始使用加密技术发送数据，加密流量在网络中的占比也急剧增长，加密的技术也越来越复杂。加密流量分类是互联网诞生以来，一直被认为是最重要的网络安全方向之一。但是由于加密技术的普及和网络吞吐量的高速增长，实现快速准确的对加密流量进行分类变得越来越困难。加密技术的出现在另一方面也导致出现各种恶意流量和网络异常流量的可能性增大，黑客攻击也利用加密技术进行大量的恶意攻击活动，当网络中出现大量的加密流量，怎么样才能快速对加密流量进行分类，进一步进行精细化的流量分析，就会显得非常重要。

3、现有的移动应用程序分类工作大多克服了加密流量的挑战。例如，appscnner方法使用了一种基于流的检测方法，该方法从分组报头中提取侧信道特征，并计算统计特征，以训练用于在移动应用分类的机器学习模型上。还有，flowprint方法通过考虑移动设备与其他目的地(如cdn和第三方服务)之间的通信图以及相关属性(如目的ip、目的端口和tls证书)来构建应用程序的指纹。在推断阶段，将过去收集的指纹与新指纹进行比较，以确定应用程序。然而，由于在构建应用程序所有可能行为的通信图方面存在挑战，考虑了短的通信时间情况。因此，如果用户改变其使用行为或使用应用程序的不同功能，则可能无法正常运作。

4、综合当前基于深度学习的网络流量分类研究情况，发现在利用深度学习方法对网络流量进行分类过程中仍存在一些挑战：

5、1.超过80％的移动通信量是加密的或采用传输层安全性(tls)，因此可能无法使用分析应用层协议某些领域的基于有效载荷的方法对通信量进行分类；

6、2.基于端口的分类方法无法对移动流量进行分类，因为应用程序主要使用https传递数据，并使用xml或json等文本格式来回发送数据。一些信息(如文件数量或文件大小)不可用于采用网页分类。

7、3.用户行为随时间动态变化，这取决于所使用的功能。在移动应用的短时间(例如，5分钟)内捕获的流量可能不代表其完整的流量行为。

技术实现思路

1、为了解决上述问题，本发明提出一种基于gcnn和moe的加密网络流量分类方法，具体包括以下步骤：

2、s1、将一段时间内的移动应用程序的流量数据划分为对个长度相同的流量块；

3、s2、将流量块转换为具有节点特征和边缘权重的图数据集；

4、s3、构建基于图卷积神经网络gcnn和混合专家系统的移动应用程序的加密网络流量分类模型，并对该模型进行训练；

5、s4、将待测数据的图数据集输入加密网络流量分类模型，得到分类结果。

6、进一步的，将一段时间内的移动应用程序的流量数据划分为对个长度相同的流量块时，设置持续时间和重叠时间，通过持续时间和重叠时间划分流量块，具体包括：每个流量块的长度设置为持续时间的长度，除了第一个流量块与最后一个流量块以外，每个流量块与其前一个流量块有长度为重叠时间的重叠、与其后一个流量块也有长度为重叠时间的重叠。

7、进一步的，将流量块转换为具有节点特征和边缘权重的图数据集的过程包括以下步骤：

8、移除流量块中的dns协议；

9、获取移动应用程序中的ip地址和端口号并将ip地址合并到端口号；

10、构建移动应用程序的图数据时，

11、获取一个mapp图形所需的最大节点数n，并根据两个节点之间权重生成每一个mapp的所有图形数据；

12、每一个mapp的全部图形数据保存在2个csv格式的文件中，将节点特征存放在features.csv文件中，将节点之间权重存放在weights.csv文件中。

13、进一步的，基于图卷积神经网络gcnn和混合专家系统的移动应用程序的加密网络流量分类模型包括多个级联的gcn层、sortpooling层、expert网络、softmax层，四个级联的gcn层的输出的图潜在表示输入sortpooling层选出图潜在表示值最大k个值，expert网络包括多个expert单元，将选出的图潜在表示分别输入多个expert单元，将累加每个expert单元的输出与该expert单元对应权值的乘积后输入softmax层，softmax层得出分类结果。

14、进一步的，若存在l个gcn层级联，则第l+1个的gcn层的输出表示为：

15、

16、其中，为第l+1个图卷积层的输出，cl为在第l层提取的每个图节点的特征数量，n为节点数量，l＝0...l-1,z0＝x，表示节点特征矩阵，c表示节点特征矩阵中节点的特征数量；为图的对角矩阵；为添加自环的邻接矩阵；为第l层的可训练参数。

17、进一步的，用g表示一个图数据，表示为为图数据中的节点集合，ε为图数据中的边集合，若a为图数据的邻接矩阵，则添加自环的邻接矩阵表示为：

18、

19、其中，i为单位矩阵。

20、进一步的，通过节点之间的互相关性建立节点之间的边关系，即若两个节点的互相关性不为0，则两个节点之间存在边关系，边权重为两个节点之间的互相关性，两个节点的互相关性的计算过程包括以下步骤：

21、根据在一个给定的时间窗口中捕获的流量产生图节点，将给定的时间窗口划分为t个不同持续时间的切片；

22、统计每个切片内移动应用程序向部署在目的ip地址和端口上的服务发送一个流量包，或者接收到部署在目的ip地址和端口上的服务的流量包的数量作为两个节点之间的互相关性，表示为：

23、

24、其中，ci,j为节点i和节点j之间的互相关性，ri(t)表示节点i在时间切片t中的是否活动的二进制变量，当节点i活动时ri(t)＝1，否则ri(t)＝0。

25、进一步的，采用adam算法对基于图卷积神经网络gcnn和混合专家系统的移动应用程序的加密网络流量分类模型进行优化，优化过程包括：

26、获取历史数据作为训练数据集，并对训练数据集进行分片，即将训练数据集划分为多个相互独立、正交的子数据集，每个子数据集为一个分片；

27、对网络进行训练时，利用每个分片分别输入分类模型得到预测结果，根据预测结果以及训练数据对应的标签进行训练；

28、当损失结果收敛或者达到最大训练次数，完成优化。

29、进一步的，利用训练数据进行优化的过程中，采用模型的逻辑损失函数进行方向传播优化模型，模型的逻辑损失函数表示为：

30、

31、其中，为网络的逻辑损失函数，θ为参数化的expert网络，表示为θm表示第m个expert单元，d为一个expert网络的维度，m为expert网络中expert单元的数量；n为训练数据的数量；yi为第i个训练数据的标签；f(xi；θ,w)为expert网络的输出，xi为第i个训练数据，w为moe选通网络的权重；为sigmoid函数，表示为

32、进一步的，moe选通网络的输出f(xi；θ,w)表示为：

33、

34、

35、

36、其中，是所选指标的集合，πm(x；θ)是第m个expert网络的门控值，hm(x；θ)为第m个expert网络的输出，[p]为一个分片数据集，[m]为专家选通网络的集合；fm(x；w)为第m个expert网络的输出，[j]表示过滤器的集合，σ(·)为激活函数，p表示一个分片数据集中训练数据的数量，wm,j表示第m个expert网络中第j个过滤器的权重向量，x(p)表示输入数据为分片数据集中第p个数据；x表示输入数据。

37、本发明考虑到单一的图卷积神经网络gcnn模型对加密流量分类的局限性，为更好地对加密流量进行识别分类，通过在图卷积网络gcn结构中加入moe专家网络将单一的gcnn模型拆分成多个experts网络同时进行训练预测后再联合判决，通过gcnn和moe的联合分类判决，提升了对网络加密流量的分类和识别的精确度，实现了更高的分类性能，解决了传统机器学习方法和传统cnn、rnn等神经网络模型分类精确度不高及性能较差等问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段思睿张弦余翔庞育才肖云鹏王蓉
技术所有人：重庆邮电大学
我是此专利的发明人

上一篇：一种具有辅助拼装结构的液晶显示屏的制作方法
上一篇：一种无线网络摄像机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。