流量混淆方法、装置和设备与流程

文档序号:27833419发布日期:2021-12-07 22:53阅读:941来源:国知局
流量混淆方法、装置和设备与流程

1.本发明一般涉及网络安全领域,并且更具体地,涉及一种流量混淆方法、装置和设备。


背景技术:

2.对网络流量的分析是网络攻击中最经常使用的手段。通过对流量的分析,可以对目标的主要特性有一定的了解,即使是加密的数据,通过对流量特征的分析,也可以在一定程度上了解目标的信息。例如,即使数据是加密的,攻击者通过对流量的信息进行分析,如起止ip,通信时长,流字节分布,通信频率等,仍然可以找到一定的规律,从而被利用而形成有效的网络攻击。


技术实现要素:

3.根据本发明的实施例,提供了一种流量混淆方案。本方案对网络流量进行混淆,隐藏流量的主要特征,从而保护用户的隐私信息。
4.在本发明的第一方面,提供了一种流量混淆方法。该方法包括:获取流量数据;分析所述流量数据中包含的特征信息;所述特征信息包括ip层信息、流元数据、字节分布信息和未加密的tsl头信息中的一种或多种;根据所述特征信息生成干扰包,对所述流量数据进行混淆。
5.进一步地,所述根据所述特征信息生成干扰包,对所述流量数据进行混淆,包括:若所述流量数据的特征信息中包含ip层信息,则在ip层随机生成第一干扰包,并发送包含所述第一干扰包的流量数据;所述第一干扰包中包含与所述流量数据中ip层信息不同的ip层信息。
6.进一步地,所述根据所述特征信息生成干扰包,对所述流量数据进行混淆,包括:若所述流量数据的特征信息中包含流元数据,则:生成包含相同起止ip和端口的第二干扰包,并在随机时间段发送包含所述第二干扰包的流量数据;或生成包含相同起止ip和不同目标端口的第三干扰包,并在随机时间段发送包含所述第三干扰包的流量数据。
7.进一步地,所述根据所述特征信息生成干扰包,对所述流量数据进行混淆,包括:若所述流量数据的特征信息中包含字节分布信息,则根据所述字节分布信息计算所述流量数据中每个字符的出现次数以及平均出现次数;若所述流量数据中存在出现次数小于预设最大出现次数阈值且不等于平均出现次数的字符,则生成第四干扰包,并发送包含所述第四干扰包的流量数据;对于出现次数大于所述平均出现次数且小于最大出现次数阈值的字符,将出现次数超过所述平均出现次数的部分字符添加到所述第四干扰包的数据字段中;
对于出现次数小于所述平均出现次数的字符,在所述第四干扰包的数据字段中添加所述字符,使所述字符的出现次数达到所述平均出现次数。
8.进一步地,所述方法还包括:对所述第四干扰包添加延时函数,延时发送包含所述第四干扰包的流量数据。
9.进一步地,所述根据所述特征信息生成干扰包,对所述流量数据进行混淆,包括:若从所述流量数据的特征信息中匹配出未加密的tsl头,则生成第五干扰包,所述第五干扰包包括添加虚假信息的tsl头,并发送包含第五干扰包的流量数据。
10.进一步地,所述方法还包括:若所述流量数据的特征信息中包含包信息,则将所述流量数据拆分成若干数据段,并对所述数据段中的一个或多个进行延时发送。
11.进一步地,所述方法还包括:将混淆后的样本数据输入神经网络模型,对用户身份进行识别,输出识别结果;若所述识别结果能够识别出用户身份,则根据所述流量数据中包含的特征信息,对所述流量数据进行二次混淆。
12.进一步地,所述方法还包括:对当前周期内混淆后的流量数据进行识别,并在对识别结果进行处理后循环到下一周期。
13.在本发明的第二方面,提供了一种流量混淆装置。该装置包括:获取模块,用于获取流量数据;分析模块,用于分析所述流量数据中包含的特征信息;混淆模块,用于根据所述特征信息生成干扰包,对所述流量数据进行混淆;所述特征信息包括ip层信息、流元数据、字节分布信息和未加密的tsl头信息中的一种或多种。
14.应当理解,发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
附图说明
15.结合附图并参考以下详细说明,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了根据本发明的实施例的流量混淆方法的流程图;图2示出了根据本发明的实施例的流量混淆装置的方框图;图3示出了能够实施本发明的实施例的示例性电子设备的方框图;其中,300为电子设备、301为cpu、302为rom、303为ram、304为总线、305为i/o接口、306为输入单元、307为输出单元、308为存储单元、309为通信单元。
具体实施方式
16.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
17.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
18.本发明中,对网络流量进行混淆,隐藏流量的主要特征,在不改变流量正常传输的前提下,通过适当增加流量的冗余,有效地提高了流量复杂程度,使攻击者难以获得流量的真实特征,从而保护用户的隐私信息,提高网络流量的安全性。
19.图1示出了本发明实施例的流量混淆方法的流程图。
20.该方法包括:s101、获取流量数据。
21.作为本发明的一种实施例,所述流量数据可以是用户访问产品或页面时产生的数据。
22.作为本发明的一种实施例,所述流量数据可以按照一定时间周期获取,即先获取一段时间内的流量数据,对该段时间内的流量数据进行混淆;再获取下一时间段内的流量数据进行混淆。所述一定时间周期可以是固定时间周期,例如5秒为一周期,或不固定时间段。
23.s102、分析所述流量数据中包含的特征信息;所述特征信息包括ip层信息、流元数据、字节分布信息和未加密的tsl头信息中的一种或多种。
24.作为本发明的一种实施例,所述特征信息中,所述ip层信息包括:起始ip、起始端口、目标ip、目标端口;流元数据包括出入字节数、出入包数、出入端口、流的持续时间;字节分布信息包括对所有包的字节的分布情况统计分布概率;未加密的tsl头信息为从流中抽取出的头信息。
25.作为本发明的一种实施例,所述特征信息还包括包信息。所述包信息包括包的长度和时间间隔信息。
26.作为本发明的一种实施例,所述分析所述流量数据中包含的特征信息,包括:若流量数据中存在起始ip、起始端口、目标ip和目标端口,则所述流量数据中包含ip层信息。
27.若流量数据中存在出入字节数、出入包数、出入端口和流的持续时间,则所述流量数据中包含流元数据。
28.若流量数据中存在包的长度信息和包的时间间隔信息,则所述流量数据中包含包信息。
29.若流量数据中存在对包的字节统计分布概率,则所述流量数据中包含字节分布信息。
30.若流量数据中存在从流中抽取出的tsl头信息,则所述流量数据中包含未加密的tsl头信息。
31.s103、根据所述特征信息生成干扰包,对所述流量数据进行混淆。
32.若所述流量数据的特征信息中包含ip层信息,则在ip层随机生成第一干扰包,并发送包含所述第一干扰包的流量数据;所述第一干扰包中包含与所述流量数据中ip层信息不同的ip层信息。可见所述第一干扰包中包含有起始ip、起始端口、目标ip和目标端口,且
所述第一干扰包中的这四部分数据随机生成,且与所述流量数据中的实际值不完全相同,即可以其中一个数据不同,或有多个数据不同。
33.在上述实施例中,所述第一干扰包会占总流量数据的一个固定比例区间,例如15%

25%。如果第一干扰包的占比过少,例如小于5%,无法实现对攻击者分析的干扰;如果第一干扰包的占比过多,例如大于50%,则会使原始流量数据真实性降低。而如果第一干扰包大约占总流量数据的20%左右,能够适当的增加流量的冗余,有效地提高流量复杂程度,使攻击者难以获得流量的真实特征,实现对攻击者分析的干扰,提高网络流量的安全性,保护用户隐私。
34.进一步地,若所述流量数据的特征信息中包含流元数据,则可以通过下述两种方式生成不同的干扰包,对流量数据进行混淆,包括:第一种方式:生成包含相同起止ip和端口的第二干扰包,并在随机时间段发送包含所述第二干扰包的流量数据。所述起止ip包括起始ip和终止ip;所述端口包括起始端口和目标端口。所述第二干扰包中的起始ip、起始端口、目标ip和目标端口与所述流量数据中的真实起始ip、起始端口、目标ip和目标端口完全相同。
35.所述第二干扰包可以通过随机或指定的方式生成,在随机时间段发送,从而影响出入字节数、出入包数和持续时间。
36.第二种方式:生成包含相同起止ip和不同目标端口的第三干扰包,并在随机时间段发送包含所述第三干扰包的流量数据。所述起止ip包括起始ip和终止ip。所述第三干扰包中的起始ip、终止ip与所述流量数据中的真实起始ip、目标ip相同,但目标端口不同。
37.所述第三干扰包可以通过随机或指定的方式生成,在随机时间段发送,从而影响出入端口和持续时间。
38.进一步地,若所述流量数据的特征信息中包含字节分布信息,则根据所述字节分布信息计算所述流量数据中每个字符的出现次数以及平均出现次数;若所述流量数据中存在出现次数小于预设最大出现次数阈值且不等于平均出现次数的字符,则生成第四干扰包,并发送包含所述第四干扰包的流量数据。
39.在本实施例中,对于出现次数大于所述平均出现次数且小于最大出现次数阈值的字符,将出现次数超过所述平均出现次数的部分字符添加到所述第四干扰包的数据字段中;对于出现次数小于所述平均出现次数的字符,在所述第四干扰包的数据字段中添加所述字符,使所述字符的出现次数达到所述平均出现次数。
40.例如,所述流量数据中字符的平均出现次数为5次,计算得出字符“b”出现的次数为2次,字符“c”出现的次数为7次,字符“g”出现的次数为68次,预设的最大出现次数阈值为30次。由于字符“b”出现的次数为2次,小于5次,通过增加3次字符“b”的出现次数,使其达到平均值5次,且增加3个字符“b”添加到第四干扰包的数据字段中。由于字符“c”出现的次数为7次,大于5次且小于30次,通过将其中2个字符“c”添加到第四干扰包的数据字段中,使其达到平均值5次。由于字符“g”出现的次数为68次,大于预设的最大次数阈值30次,对于此种情况,可以不进行处理。
41.作为本发明的一种实施例,对于远超出平均出现次数且不超过最大出现次数阈值的字符,可以由多个干扰包进行均衡存储。
42.作为本发明的一种实施例,在生成第四干扰包后,还可以通过对底层发收模块的
编写,对所述第四干扰包添加延时函数,延时发送包含所述第四干扰包的流量数据,从而改变时间间隔信息。
43.通过本实施例,将新添加的数据存放在第四干扰包中,从而使整个流的字节分布呈现平均分布的态势,使攻击者难以获得流量的真实字节分布情况,降低了流量中的真实特征差异,避免攻击者通过字节分布特征对流量的识别,提高了网络流量的安全性,保护了用户的隐私。
44.进一步地,若从所述流量数据的特征信息中匹配出未加密的tsl头,则生成第五干扰包,所述第五干扰包包括添加虚假信息的tsl头,并发送包含第五干扰包的流量数据。
45.所述tls 记录的头部有三个组成部分,分别为:第0个字节: tls 记录的类别,其关键字为类别; 第1

2个字节: tls 版本(主版本/次版本);其关键字为版本号; 第3

4个字节:包含头部在内的总长度,其关键字为长度。
46.由于tsl头信息是需要公开且能够被解读的,所以一般不加密,可见,若能够从流量数据中匹配出类别、版本号、长度中的一个或几个关键字,则意味着从所述流量数据中匹配出未加密的tsl头。所述虚假信息的tsl头,即在tsl头中的类别、版本号、长度中添加一些虚假信息,例如添加虚假的类别信息或版本号信息等。所述第五干扰包中包含添加虚假信息的tsl头。通过在第五干扰包中添加虚假信息,从而迷惑攻击者,使攻击者难以获得流量的真实tsl头信息,实现对攻击者分析的干扰,提高网络流量的安全性,保护用户隐私。
47.进一步地,所述方法还包括:若所述流量数据的特征信息中包含包信息,则将所述流量数据拆分成若干数据段,并对所述数据段中的一个或多个进行延时发送。
48.在本实施例中,将固定长度的数据,随机拆分成若干长度的数据段,再进行发送。在发送时,通过对底层发收模块的编写,添加少量延时函数,从而改变时间间隔的信息,使用随机分包方式以避免固定的长度和时间间隔,提高网络流量的安全性,保护用户隐私。
49.进一步地,所述方法还包括:将混淆后的样本数据输入神经网络模型,对用户身份进行识别,输出识别结果;若所述识别结果能够识别出用户身份,则根据所述流量数据中包含的特征信息,对所述流量数据进行二次混淆。
50.所述神经网络模型为通过训练数据训练后的模型,用于对输入的样本数据进行用户身份识别,输出识别结果。所述样本数据为根据ip层信息、流元数据、包信息、字节分布信息和未加密的tsl头信息中的一种或多种特征信息,对流量数据进行混淆,生成的混淆数据,用于作为所述神经网络模型的测试集数据输入到所述神经网络模型,对用户的身份进行识别。
51.若从所述神经网络模型输出的识别结果为用户身份信息,即可以判断以样本数据的混淆程度无法对攻击者进行干扰;则需要根据所述样本数据的原始流量数据的特征信息中包含的其他特征,进行对应的混淆处理,生成二次混淆后的混淆数据,作为新的样本数据再次输入到神经网络模型中进行验证。
52.作为本发明的一种实施例,还可以划分识别程度等级,例如,可以将混淆等级划分为三级,一级为全部混淆,二级为部分混淆,三级为无混淆。可以根据用户需求进行设置混淆等级,若达到预期的混淆等级,则可以停止对流量数据的混淆处理,从而保证可以根据客
户预期对流量数据进行混淆。
53.进一步地,所述方法还包括:对当前周期内混淆后的流量数据进行识别,并在对识别结果进行处理后循环到下一周期。
54.所述流量数据可以按照一定时间周期获取,即先获取一段时间内的流量数据,对该段时间内的流量数据进行混淆;再获取下一时间段内的流量数据进行混淆。所述一定时间周期可以是固定时间周期,例如5秒为一周期,或不固定时间段。对每一时间周期内的流量数据进行混淆后,对用户的身份进行识别。如果能识别出用户身份,说明混淆后的数据无法实现混淆效果,需要进行二次混淆。如果无法识别出用户身份,说明混淆后的数据达到混淆效果,继续等待对下一时间周期的混淆后数据进行处理。
55.根据本发明的实施例,对网络流量进行混淆,隐藏流量的主要特征,在不改变流量正常传输的前提下,通过适当增加流量的冗余,有效地提高了流量复杂程度,使攻击者难以获得流量的真实特征,从而保护用户的隐私信息,提高网络流量的安全性。
56.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
57.以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
58.如图2所示,装置200包括:获取模块210,用于获取流量数据;分析模块220,用于分析所述流量数据中包含的特征信息;混淆模块230,用于根据所述特征信息生成干扰包,对所述流量数据进行混淆;所述特征信息包括ip层信息、流元数据、字节分布信息和未加密的tsl头信息中的一种或多种。
59.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
60.本发明的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
61.根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
62.图3示出了可以用来实施本发明的实施例的电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
63.设备300包括计算单元301,其可以根据存储在只读存储器(rom)302中的计算机程序或者从存储单元308加载到随机访问存储器(ram)303中的计算机程序,来执行各种适当的动作和处理。在ram 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、
rom 302以及ram 303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。
64.设备300中的多个部件连接至i/o接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
65.计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如方法s101~s103。例如,在一些实施例中,方法s101~s103可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由rom 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到ram 303并由计算单元301执行时,可以执行上文描述的方法s101~s103的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法s101~s103。
66.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
67.用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
68.在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
69.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
70.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
71.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
72.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
73.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1