一种针对二进制流量数据生成图像的注意力增强方法

文档序号:26267056发布日期:2021-08-13 19:19阅读:244来源:国知局
一种针对二进制流量数据生成图像的注意力增强方法
本发明涉及流量检测领域,特别是一种针对二进制流量数据生成图像的注意力增强方法。
背景技术
:近年来,随着计算机网络和已被开发的应用程序规模呈指数级增长,网络流量的数量也呈爆炸性的增加,并且种类繁多且不断增加。移动设备的迅速发展以及移动应用和服务的日益普及,对移动和无线网络基础设施提出了前所未有的要求。为了更好的适应音频、视频、p2p等出现的大量应用,需要一个能够精准而快速的对网络流量进行分类的工具,这不仅能维护网络的秩序,更能提高网络的速度。目前网络恶意流量攻击造成的损害也显著增加,造成了巨大的经济损失。但是随着移动环境越来越复杂、结构也不断改变,准确快速地完成这一任务是一个很大的挑战,早先的流量分类方法已不能够及时应对庞大的网络流量数目,对恶意流量也不能够及时做出防范,如何对恶意流量做出准确而快速防范成为了当下亟待解决的问题。技术实现要素:发明目的:本发明的目的是提供一种可准确快速分类网络流量、提高网络速度、有效拦截恶意流量的针对二进制流量数据生成图像的注意力增强方法。技术方案:本发明所述的一种针对二进制流量数据生成图像的注意力增强方法,包括以下步骤:(1)对原始流量数据集中的二进制帧序列进行有效部分截取,截取到的有效部分转换为二维灰度图像;(2)将步骤(1)获得的二维灰度图像使用特征提取模型进行特征提取,保留训练得到的网络各层参数;(3)对步骤(2)中得到的各个特征作为根结点,对各层参数分别通过最长带权路径树进行遍历计算,得到三条最长带权路径;通过对该三条最长带权路径回溯,找到注意力最佳的三个像素集合;(4)对步骤(3)中找到的注意力最佳的三个像素集合进行相应的三通道“染色”,生成注意力增强的二维彩色图像;(5)对步骤(4)中所有得到的彩色图像排列成新的图像帧序列;(6)将步骤(5)中得到的新图像帧序列输入cnn中进行最终的流量检测和分类。所述步骤(1)包括以下步骤:(1.1)将数据集中的原始流量截取784字节为有效帧,一个字节为8比特,正好对应了256灰阶;(1.2)对于步骤(1.1)中得到的784字节数据以一个字节转化为一个像素点,由该字节的8比特二进制值转化为十进制数得到该像素点的灰阶,以此为标准,输出一组二维灰度图像。所述步骤(2)包括以下步骤:(2.1)首先在数据集上使用特征提取模型训练,将训练好的网络各层神经元的权重对模型进行初始化;(2.2)使用特征提取模型进行特征提取,得到特征图,将其连接到单个激活函数的神经元分类层,该层以sigmoid作为激活函数;(2.3)使用小批量随机梯度下降作为优化器,并设置动量以及批次大小,将二分类交叉熵作为损失函数;将二维灰度图像集重新随机排列,在步骤(2.2)所述的模型上训练。所述步骤(3)包括以下步骤:(3.1)对于训练后的特征提取模型,将其最后一层单神经元分类层与全局平均池化层剔除,得到以二维灰度图像为输入,最后一层卷积层激活值为输出的特征提取模型,记作m(x;w),其中x表示输入的灰度图像,w表示模型的权值;(3.2)将特征提取模型提取出的特征分别作为根结点,对得到的各层参数取绝对值后,使用最长带权路径树查找算法,找到最长的带权路径树e1、除e1之外的最长带权路径e2以及除e1、e2之外的最长带权路径e3;(3.3)对(3.2)得到的三条最长带权路径e1、e2和e3进行回溯,找出这三条最长带权路径所在树,注意力最佳的三个像素集合a、b、c即分别是三棵树各自所有叶结点的并集。所述步骤(4)包括以下步骤:(4.1)对三个像素集合a、b和c的权重w1、w2和w3,其中w1>w2>w3,设置像素集合a、b和c集合中三个通道分量的增值分别为er、eg和eb,其中设置eb的初始值为50,eg的计算公式为:er的计算公式为:并取所有二维图像的像素值做以下归一化:(4.2)对a、b、c分别进行“染色”,其中像素集合a中的三通道分量为:(cr,cg,cb)=(cr+er,cg,cb)像素集合b中的三通道分量为:(cr,cg,cb)=(cr,cg+eg,cb)像素集合c中的三通道分量为:(cr,cg,cb)=(cr,cg,cb+eb)之后对所有图像的像素值向上取整:生成具注意力增强的二维彩色图像。所述步骤(6)包括以下步骤:(6.1)首先对得到的彩色图像像素值进行归一化,由0~255转换为0~1;之后进行第一次卷积,第一个卷积层c1使用尺寸为5*5的卷积核,共有32个通道,生成32个特征图,特征图尺寸为28*28;然后在池化层p1经过2*2的最大值池化操作,生成32个特征图,特征图尺寸为14*14;(6.2)在第二个卷积层c2中进行第二次卷积操作,第二个卷积层同样使用尺寸为5*5的卷积核,但通道数为64,生成64个特征图,特征图尺寸为14*14;然后在池化层p2经过2*2的最大值池化操作,生成64个特征图,特征图尺寸为7*7;(6.3)之后经过两个全连接层,为了防止过拟合,加入了概率为0.5的dropout,最后使用softmax函数输出各类的概率值,即模型的预测值,将输出的取值规范到[0,1],输出越接近0,输入恶意流量概率则越大,输出越接近1,输入正常流量概率则越大。有益效果:与现有技术相比,本发明具有如下优点:1、能够对二进制流量数据生成的图像进行特征增强,使分类器收敛的速度更快,也更加精确;2、可以用于多种流量分类算法的预处理操作,也可以作为其他问题的预处理操作,增强注意力,使模型更加快速地收敛。附图说明图1为注意力增强流量分类模块的结构图;图2为特征提取模型的完整结构;图3为特征提取模型中的lbblock模块的结构图。具体实施方式下面结合附图对本发明的技术方案作进一步说明。如图1所示,本发明所述的一种针对二进制流量数据生成图像的注意力增强方法,包括如下步骤:(1)采用的ustc-tfc2016数据集,数据集ustc-tfc2016包含两个部分,一是从由ctu大学的研究人员采集到的数据集中选取的10种恶意流量,二是采集的10种正常流量,总大小3.71gb,该数据集较为科学,并且已被公开;对原始流量数据集中的二进制帧序列进行有效部分截取,截取到的有效部分转换为二维灰度图像;具体包括:(1.1)将数据集中的原始流量截取784字节为有效帧,一个字节为8比特,正好对应了256灰阶;(1.2)对于步骤(1.1)中得到的784字节数据以一个字节转化为一个像素点,由该字节的8比特二进制值转化为十进制数得到该像素点的灰阶,以此为标准,输出一组二维灰度图像。(2)将步骤(1)获得的二维灰度图像使用特征提取模块进行特征提取,保留训练得到的网络各层参数;具体包括:(2.1)首先在ustc-tfc2016数据集上使用特征提取模块训练,将训练好的网络各层神经元的权重对模型进行初始化;(2.2)使用特征提取模块进行特征提取,得到特征图,将其连接到单个激活函数的神经元分类层,该层以sigmoid作为激活函数;(2.3)使用小批量随机梯度下降作为优化器,设置动量为0.95,批次大小为32,将二分类交叉熵作为损失函数;将二维灰度图像集重新随机排列,在步骤(2.2)所述的模型上训练。特征提取模型的架构如图2所示,主要包括lbblock模块,该模块包含5个1×1卷积与1个通道分离卷积,lbblock模块的结构如图3所示。(3)对步骤(2)中得到的各个特征作为根结点,对各层参数分别通过最长带权路径树进行遍历计算,得到三条最长带权路径;通过对该三条最长带权路径回溯,找到注意力最佳的三个像素集合;具体如下:(3.1)对于训练后的特征提取模块,将其最后一层单神经元分类层与全局平均池化层剔除,得到以二维灰度图像为输入,最后一层卷积层激活值为输出的特征提取模型,记作m(x;w),其中x表示输入的灰度图像,w表示模型的权值;(3.2)将特征提取模块提取出的特征分别作为根结点,对得到的各层参数取绝对值后,使用最长带权路径树查找算法,找到最长的带权路径树e1、除e1之外的最长带权路径e2以及除e1、e2之外的最长带权路径e3;(3.3)对(3.2)得到的三条最长带权路径e1、e2和e3进行回溯,找出这三条最长带权路径所在树,注意力最佳的三个像素集合a、b、c即分别是三棵树各自所有叶结点的并集。(4)对步骤(3)中找到的注意力最佳的三个像素集合进行相应的三通道“染色”,生成注意力增强的二维彩色图像;具体如下:(4.1)对三个像素集合a、b和c的权重w1、w2和w3,其中w1>w2>w3,设置像素集合a、b和c集合中三个通道分量的增值分别为er、eg和eb,其中设置eb的初始值为50,eg的计算公式为:er的计算公式为:并取所有二维图像的像素值做以下归一化:(4.2)对a、b、c分别进行“染色”,其中像素集合a中的三通道分量为:(cr,cg,cb)=(cr+er,cg,cb)像素集合b中的三通道分量为:(cr,cg,cb)=(cr,cg+eg,cb)像素集合c中的三通道分量为:(cr,cg,cb)=(cr,cg,cb+eb)之后对所有图像的像素值向上取整生成具注意力增强的二维彩色图像。(5)对步骤(4)中所有得到的彩色图像排列成新的图像帧序列。(6)将步骤(5)中得到的新图像帧序列输入cnn中进行最终的流量检测和分类;具体如下:(6.1)首先对得到的彩色图像像素值进行归一化,由0~255转换为0~1;之后进行第一次卷积,第一个卷积层c1使用尺寸为5*5的卷积核,共有32个通道,生成32个特征图,特征图尺寸为28*28;然后在池化层p1经过2*2的最大值池化操作,生成32个特征图,特征图尺寸为14*14;(6.2)在第二个卷积层c2中进行第二次卷积操作,第二个卷积层同样使用尺寸为5*5的卷积核,但通道数为64,生成64个特征图,特征图尺寸为14*14;然后在池化层p2经过2*2的最大值池化操作,生成64个特征图,特征图尺寸为7*7;(6.3)之后经过两个全连接层,为了防止过拟合,加入了概率为0.5的dropout,最后使用softmax函数输出各类的概率值,即模型的预测值,将输出的取值规范到[0,1],输出越接近0,输入恶意流量概率则越大,输出越接近1,输入正常流量概率则越大。本实施例在ustc-tfc2016数据集上进行了训练和测试,数据集ustc-tfc2016包含两个部分,一是从由ctu大学的研究人员采集到的数据集中选取的10种恶意流量,二是采集的10种正常流量,总大小3.71gb,该数据集较为科学,并且已被公开。表1中展示了ustc-tfc2016数据集的恶意流量种类列表。表2中展示了ustc-tfc2016数据集的正常流量种类列表。本实施例测试了恶意流量和正常流量的种类的变化对检测分类精度的影响,对2分类、10分类和20分类的分别测试了其检测精度,在ustc-tfc2016数据集上的三种分类精度展示在表3中。可以发现,在三种分类中,即使分类的类别增多,分类精度一直保持在较高的水平也有明显的变化,本发明所提出的方案的精度在2分类、10分类和20分类中都有较高的精度,进一步证明了本方案在流量检测分类中增强注意力的优越性。表1表2名称种类名称种类bittorrentp2poutlook电子邮件facetime多媒体流skype即时通讯ftp数据传输smb数据传输gmail电子邮件weibo社交网络mysql数据库worldofwarcraft电子游戏表3当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1