本发明涉及网络安全与加密流量检测,具体而言,涉及一种加密流量识别方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、为了保护个人隐私,越来越多的网络应用程序采用加密协议进行传输,经加密协议处理后的网络流量称为加密流量,而加密流量在保护普通用户隐私的同时也给网络流量安全检测带来巨大挑战。
2、目前,在需要识别加密应用的服务类型时,通常采用依靠人工编写规则、并进行规则匹配方式进行识别;或者使用dpi(deep packet inspection,深度包检测)技术进行检测。但是人工识别的方式识别效率较低,准确度较差;dpi技术也只能依赖于应用协议特征字段,无法识别协议交互阶段的加密数据和私有协议,如果应用程序采用加密的方式进行数据传输,则该dpi技术将无法解析加密流量内的加密数据,出现误报,进而导致无法识别出加密应用的服务类型。
技术实现思路
1、为解决现有存在的技术问题,本发明实施例提供一种加密流量识别方法、装置、电子设备及计算机可读存储介质。
2、第一方面,本发明实施例提供了一种加密流量识别方法,包括:获取多个样本加密流量,并确定每个所述样本加密流量的服务类型,所述样本加密流量的服务类型为所述样本加密流量所属的加密应用的服务类型;确定所述样本加密流量的样本特征,所述样本特征包括样本记忆特征和样本泛化特征;根据所述样本记忆特征和所述样本泛化特征,分别训练深度学习模型的记忆部分与泛化部分得到识别模型,基于所述识别模型确定目标加密流量对应的服务类型,并确定所述目标加密流量所属的目标加密应用的服务类型。
3、可选地,基于所述识别模型确定目标加密流量对应的服务类型,并确定所述目标加密流量所属的目标加密应用的服务类型,包括:获取所述目标加密流量,确定所述目标加密流量的目标特征;所述目标特征包括目标记忆特征和目标泛化特征;根据所述目标记忆特征和所述目标泛化特征得到所述识别模型的输出结果,基于所述识别模型的输出结果确定所述目标加密流量对应的服务类型,并确定所述目标加密流量所属的目标加密应用的服务类型。
4、可选地,样本记忆特征包括离散特征,所述样本泛化特征包括嵌入向量和/或连续特征;其中,所述离散特征包括:字节分布特征、分组长度特征、流协商机制特征中的至少一种;所述嵌入向量为类别特征经转换处理得到的实数向量,所述类别特征包括:证书信息特征、客户端相关信息特征、加密协议相关信息特征中的至少一种;所述连续特征包括:会话持续时长特征、数据包顺序特征、数据包大小特征、帧到达时间特征、通信流量信息特征中的至少一种。
5、可选地,在所述获取多个样本加密流量之后,该方法还包括:对所述样本加密流量进行预处理,所述预处理包括缺失值处理、过采样处理、标准化处理中的至少一种。
6、第二方面,本发明实施例提供了一种加密流量识别装置,包括:获取模块、确定模块及处理模块。
7、获取模块用于获取多个样本加密流量,并确定每个所述样本加密流量的服务类型,所述样本加密流量的服务类型为所述样本加密流量所属的加密应用的服务类型。
8、确定模块用于确定所述样本加密流量的样本特征,所述样本特征包括样本记忆特征和样本泛化特征。
9、处理模块用于根据所述样本记忆特征和所述样本泛化特征,分别训练深度学习模型的记忆部分与泛化部分得到识别模型,基于所述识别模型确定目标加密流量对应的服务类型,并确定所述目标加密流量所属的目标加密应用的服务类型。
10、可选地,处理模块包括:确定单元和识别单元。
11、确定单元用于获取所述目标加密流量,确定所述目标加密流量的目标特征;所述目标特征包括目标记忆特征和目标泛化特征。
12、识别单元用于根据所述目标记忆特征和所述目标泛化特征得到所述识别模型的输出结果,基于所述识别模型的输出结果确定所述目标加密流量对应的服务类型,并确定所述目标加密流量所属的目标加密应用的服务类型。
13、可选地,样本记忆特征包括离散特征,所述样本泛化特征包括嵌入向量和/或连续特征;其中,所述离散特征包括:字节分布特征、分组长度特征、流协商机制特征中的至少一种;所述嵌入向量为类别特征经转换处理得到的实数向量,所述类别特征包括:证书信息特征、客户端相关信息特征、加密协议相关信息特征中的至少一种;所述连续特征包括:会话持续时长特征、数据包顺序特征、数据包大小特征、帧到达时间特征、通信流量信息特征中的至少一种。
14、可选地,该装置还包括:预处理单元。
15、预处理单元用于对所述样本加密流量进行预处理,所述预处理包括缺失值处理、过采样处理、标准化处理中的至少一种。
16、第三方面,本发明实施例提供了一种电子设备,包括:总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现如上所述的加密流量识别方法中的步骤。
17、第四方面,本发明实施例提供了一种计算机可读存储介质,包括:可读存储介质上存储的计算机程序;所述计算机程序被处理器执行时实现如上所述的加密流量识别方法中的步骤。
18、本发明实施例提供的加密流量识别方法、装置、电子设备及计算机可读存储介质,不同于传统dpi技术,无需依赖应用协议特征字段,通过对加密流量进行特征提取,基于不同的特征可以对深度学习模型的不同部分进行训练,优化了深度学习模型的“记忆能力”和“泛化能力”,使该深度学习模型能够更准确地识别出该加密流量所对应的服务类型,进而能够更加准确地确定该加密流量所属的加密应用的服务类型。并且,由于该方法对深度学习模型进行了考量分析,在特征选取层面能够筛选出更具有针对性的特征,并对该深度学习模型进行联合训练,使最终得到的识别模型的识别精度、准确度具有明显提高,优于传统的人工识别方法,识别效率高。
1.一种加密流量识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述识别模型确定目标加密流量对应的服务类型,并确定所述目标加密流量所属的目标加密应用的服务类型,包括:
3.根据权利要求1所述的方法,其特征在于,所述样本记忆特征包括离散特征,所述样本泛化特征包括嵌入向量和/或连续特征;
4.根据权利要求1所述的方法,其特征在于,在所述获取多个样本加密流量之后,还包括:对所述样本加密流量进行预处理,所述预处理包括缺失值处理、过采样处理、标准化处理中的至少一种。
5.一种加密流量识别装置,其特征在于,包括:获取模块、确定模块和处理模块;
6.根据权利要求5所述的装置,其特征在于,所述处理模块包括:确定单元和识别单元;
7.根据权利要求5所述的装置,其特征在于,所述样本记忆特征包括离散特征,所述样本泛化特征包括嵌入向量和/或连续特征;
8.根据权利要求5所述的装置,其特征在于,该装置还包括:预处理单元;
9.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的加密流量识别方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的加密流量识别方法中的步骤。