流量采集策略的分配方法、装置、电子设备及存储介质与流程

文档序号:33506898发布日期:2023-03-18 02:41阅读:101来源:国知局
流量采集策略的分配方法、装置、电子设备及存储介质与流程

1.本发明涉及计算机技术领域,尤其涉及流量采集策略的分配方法、装置、电子设备及存储介质。


背景技术:

2.相关技术将流量采集服务集成在防火墙上,由防火墙采集发送至业务系统的异常流量。防火墙将采集到的异常流量发送给云平台,由云平台根据异常流量生成流量采集策略,以使防火墙根据流量采集策略采集异常流量。云平台在生成流量采集策略时,是基于所有防火墙采集到的流量统一生成流量采集策略,然后将流量采集策略下发给每个防火墙。这样会使得所有防火墙都基于相同的流量采集策略进行流量采集,采集到的流量与业务系统的匹配度低,无法准确采集到业务系统的异常流量。


技术实现要素:

3.为了解决上述问题,本发明实施例提供了一种流量采集策略的分配方法、装置、电子设备及存储介质,以至少解决相关技术无法准确采集到业务系统的异常流量的问题。
4.本发明的技术方案是这样实现的:
5.一方面,本发明实施例提供了一种流量采集策略的分配方法,应用于平台端,该分配方法包括:
6.获取至少两个探针中的每个探针采集到的流量特征;其中,所述平台端连接所述至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
7.基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略;
8.基于所述至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
9.在上述方案中,所述基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略,包括以下至少一项:
10.基于所述流量特征确定对应的探针的业务基线,根据所述业务基线生成所述至少一个目标采集策略;
11.基于所述流量特征提取流量发送方的用户指纹,根据所述用户指纹生成所述至少一个目标采集策略;
12.基于所述流量特征进行异常行为分析,分析得到异常行为的行为规则,根据所述行为规则生成所述至少一个目标采集策略。
13.在上述方案中,所述基于所述流量特征确定对应的探针的业务基线,包括:
14.获取所述流量特征中的正常流量特征;
15.基于所述正常流量特征进行模型训练,训练得到所述业务基线。
16.在上述方案中,所述业务基线包括以下任意一项:
17.域名的长度;
18.域名的字符分布;
19.域名的字符转移概率。
20.在上述方案中,所述流量特征包括统一资源定位符url地址,所述基于所述流量特征提取流量发送方的用户指纹,包括:
21.统计所述流量特征中各个url地址的访问次数;
22.将访问次数小于第一设定值的url地址确定为所述用户指纹。
23.在上述方案中,所述基于所述至少一个目标采集策略更新对应的探针的内置采集策略,包括:
24.基于每个探针当前的内置采集策略的数量,确定发送至每个探针的目标采集策略的数量,以使所述探针更新后的内置采集策略的数量小于第二设定值。
25.在上述方案中,所述探针的内置采集策略包括:探针自带的采集策略和至少一个灵活采集策略;
26.对应地,所述基于所述至少一个目标采集策略更新对应的探针的内置采集策略,包括:
27.基于所述至少一个目标采集策略更新对应的探针的至少一个灵活采集策略,所述探针自带的采集策略不进行更新。
28.另一方面,本发明实施例提供了一种流量采集策略的分配方法,应用于探针,所述探针部署在网关上,所述分配方法包括:
29.基于内置的采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
30.将所述流量特征发送至平台端;所述平台端基于基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略,基于所述至少一个目标采集策略,更新每个探针的内置采集策略;
31.基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
32.另一方面,本发明实施例提供了一种流量采集策略的分配系统,包括:
33.至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
34.平台端,用于获取至少两个探针中的每个探针采集到的流量特征;基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略;基于所述至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
35.另一方面,本发明实施例提供了一种流量采集策略的分配装置,该装置包括:
36.获取模块,用于获取至少两个探针中的每个探针采集到的流量特征;其中,所述平台端连接所述至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
37.生成模块,用于基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略;
38.更新模块,用于基于所述至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
39.另一方面,本发明实施例提供了一种流量采集策略的分配装置,该装置包括:
40.第一采集模块,用于基于内置的采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
41.发送模块,用于将所述流量特征发送至平台端;所述平台端基于基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略,基于所述至少一个目标采集策略,更新每个探针的内置采集策略;
42.第二采集模块,用于基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
43.另一方面,本发明实施例提供了一种电子设备,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行本发明实施例第一方面提供的流量采集策略的分配方法的步骤。
44.另一方面,本发明实施例提供了一种计算机可读存储介质,包括:所述计算机可读存储介质存储有计算机程序。所述计算机程序被处理器执行时实现如本发明实施例第一方面提供的流量采集策略的分配方法的步骤。
45.本发明实施例平台端通过获取至少两个探针中的每个探针采集到的流量特征,基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略。平台端基于至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。其中,平台端连接至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征。本实施例的平台端可以根据每个探针采集到的流量特征,针对性地生成每个探针的目标采集策略,提高探针采集到的流量与业务系统的匹配度。而且探针的采集策略会根据采集的流量特征动态变化,使得探针的采集策略更灵活,探针根据更新后内置采集策略,可以采集到更加准确的流量特征,能够提高异常流量检测的准确率。而且探针只采集流量部分关键的流量特征,这样可以减少探针的性能浪费,提高探针的数据采集性能。
附图说明
46.图1是本发明实施例提供的一种流量采集策略的分配系统的结构示意图;
47.图2是本实施例提供的一种异常流量采集架构的示意图;
48.图3是本发明实施例提供的一种流量采集策略的分配方法的实现流程示意图;
49.图4是本发明实施例提供的另一种流量采集策略的分配方法的实现流程示意图;
50.图5是本发明实施例提供的一种探针流量采集框架的示意图;
51.图6是本发明应用实施例提供的一种流量采集策略的分配系统的框架示意图;
52.图7是本发明实施例提供的一种流量采集策略的分配装置的示意图;
53.图8是本发明实施例提供的另一种流量采集策略的分配装置的示意图;
54.图9是本发明一实施例提供的电子设备的示意图。
具体实施方式
55.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
56.随着网络攻防技术的发展,攻击手法越来越丰富,0-day漏洞层出不穷,全球广域网(web,world wide web)安全检测面临更大的挑战。0-day漏洞又叫零时差攻击,是指被发现后立即被恶意利用的安全漏洞。传统的基于规则的检测方法在这种场景下已经不适用,很容易被攻击者绕过,而通过流量信息,如流量上下文、历史业务数据特征、用户行为特征等,实现对业务的建模,能够做到未知威胁的检测,极大提升业务系统的安全性。
57.由于业务建模需要足够的业务流量信息作为输入,传统方法是将数据采集、异常检测和行为分析等安全服务直接集成在防火墙上,由防火墙进行数据采集和统计。但该方法存在多种局限:一是性能较差,需要占用大量的io,对防火墙运算性能压力比较大;二是对于存在多个或者多级防火墙的场景,流量会分发到不同设备上,导致业务建模的数据收集能力受限;三是部分业务建模并不需要完整原始报文,而是部分数据特征,完整采集数据会产生性能浪费。
58.对于上述第二种局限,相关技术通过将所有防火墙采集到的异常流量发送给云平台,由云平台根据异常流量生成流量采集策略,以使防火墙根据流量采集策略采集异常流量。但是云平台在生成流量采集策略时,是基于所有防火墙采集到的流量统一生成流量采集策略,然后将流量采集策略下发给每个防火墙。这样会使得所有防火墙都基于相同的流量采集策略进行流量采集,防火墙采集到的流量与业务系统的匹配度低,导致无法准确采集到发往业务系统的异常流量。
59.针对上述相关技术的缺点,本发明实施例提供了一种流量采集策略的分配方法,能够提高异常流量采集的准确率。为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
60.图1是本发明实施例提供的一种流量采集策略的分配系统的结构示意图,如图1所示,该系统包括:
61.至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
62.平台端,用于获取至少两个探针中的每个探针采集到的流量特征;基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略;基于所述至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
63.其中,每一个探针部署在一个网关上,网关连接若干个业务系统,网关将用户访问业务系统的流量转发给业务系统,探针根据内置采集策略对这些流量进行流量特征的采集。
64.如图2所示,图2是本实施例提供的一种异常流量采集架构的示意图,探针部署在网关上,探针是能够对网络流量进行采集、分析、信息提取的网络流量处理工具,本质是软件程序。在实际应用中,探针与交换机等具备旁路镜像功能的汇聚设备进行对接,具有网络流量解析、网络入侵检测和网络流量采集的功能。探针内置有采集策略,探针根据采集策略采集网关接收到的流量/特征,将采集到的流量/特征发送至平台,平台则对上报的数据进行业务建模与检测,并动态更新采集策略下发到探针端。
65.图3是本发明实施例提供的一种流量采集策略的分配方法的实现流程示意图,所述流量采集策略的分配方法的执行主体为上述图1中的平台端,平台端可以是台式电脑、笔记本电脑和服务器等电子设备。其中,所述服务器可以是实体的设备,也可以是部署在云端的虚拟化设备。参考图3,流量采集策略的分配方法包括:
66.s301,获取至少两个探针中的每个探针采集到的流量特征;其中,所述平台端连接所述至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统。
67.其中,网关可以是路由、交换机等中间设备。探针部署在网关上,网关可以连接多个业务系统,用户访问业务系统的流量会由网关转发给业务系统,探针在网关处采集用户访问业务系统的流量。每个探针都内置有采集策略,探针基于内置采集策略采集网关接收到的流量的流量特征。
68.在本实施例中,探针采集的不是流量的完整原始报文,而是部分数据特征,因为采集完整原始报文需要的运算性能更多,需要的存储空间也更多,所以本实施例探针只采集流量部分关键的数据特征,这样可以减少性能浪费,节省存储空间。需要采集什么数据特征,可以通过采集策略进行限定。
69.每个探针都内置有采集策略,内置采集策略的数量可以有多个,探针除了自带的固定不变的采集策略之外,探针内还设置有可灵活变动的采集策略,平台端可以对这部分可灵活变动的采集策略进行动态更新。
70.每个探针将采集到的流量特征发送至平台端,其中,流量特征可以是流量中的统一资源定位符(url,uniform resource locator)地址、ip地址、域名、域名长度、设备标识、请求方法参数、文件类型、协议类型、头部字段等特征。
71.例如,一种采集策略是采集url地址为www.baidu.com的流量的头部字段。
72.s302,基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略。
73.如图1所示,平台端连接多个探针,每个探针将采集到的流量特征发送给平台端。平台端根据各个探针上报的流量特征生成每个探针的目标采集策略,目标采集策略用于更新探针的内置采集策略。
74.例如,基于第一探针采集到的流量特征,生成第一探针的至少一个目标采集策略,第一探针是至少两个探针中的任意一个探针。
75.在实际应用中,通常一个网关连接的设备都具有共性,比如在企业内部会划分办公区域、休闲区域、邮件服务器区域、核心资产区域等,在同一个区域内的设备通常都会连接同一个网关,具有相同的特征,例如办公区域的设备都是用来办公的。不同区域内的流量
有各自的特性,比如办公区域的流量应该都与办公内容相关,如果办公区域内出现休闲区域的流量,例如娱乐视频流量,则该条流量是异常的。但是该条流量如果出现在休闲区域则是正常流量。所以需要针对性的生成采集策略,利用办公区域内的流量生成的采集策略只适用于办公区域内的探针,不适用于休闲区域内的探针。如果使用办公区域内的流量生成的采集策略,去采集休闲区域内的流量的流量特征,采集到的流量特征是无效的。
76.所以本实施例具有针对性的生成采集策略,使用第一探针采集到的流量特征,生成第一探针的目标采集策略。而不是使用第二探针采集到的流量特征,生成第一探针的目标采集策略。也不是使用所有探针采集到的流量特征,生成一个统一的采集策略供所有探针使用。本实施例通过针对性的生成目标采集策略,目标采集策略与探针对应的业务系统的匹配度高,可以使得探针采集到的流量特征更加符合需求,能够提高采集异常流量的准确率。
77.本实施例不用探针生成采集策略,而是将采集策略的生成放在平台端,这样可以减小探针的运算性能压力,释放探针的性能。本实施例支持多个探针同时采集,将数据汇总到一个平台端上进行学习,可以覆盖大型网络结构。
78.s303,基于所述至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
79.本实施例可以针对探针生成多个目标采集策略,因为探针内置采集策略的数量可以为多个,在更新对应的探针的内置采集策略时,可以选择探针中需要更新的内置采集策略,可以不对探针中所有的内置采集策略全部进行更新。
80.平台端下发至少一个目标采集策略给探针,探针根据平台下发的至少一个目标采集策略,更新内置采集策略,具体更新哪些内置采集策略,平台可以通过指令指定。本实施例不是随便下发一个采集策略给探针,而是将探针对应的至少一个目标采集策略发送给探针,探针对应的至少一个第一采集是基于该探针采集到的流量特征生成的。
81.在平台端,可以为每个探针设置一个存储目标采集策略的数据库,每个探针的目标采集策略单独存储。在满足设定条件时触发探针的内置采集策略更新,比如设定条件可以为探针采集到的流量特征数量达到阈值,或每隔设定时间周期触发更新。
82.探针更新内置采集策略后,基于更新后的内置采集对应的网关转发的流量的流量特征,以前旧版本的内置采集策略不再使用。更新采集策略的目的是为了让探针采集的流量特征越来越准确,从而准确采集异常流量。
83.本发明实施例平台端通过获取至少两个探针中的每个探针采集到的流量特征,基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略。平台端基于至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。其中,平台端连接至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征。本实施例的平台端可以根据每个探针采集到的流量特征,针对性地生成每个探针的目标采集策略,提高探针采集到的流量与业务系统的匹配度。而且探针的采集策略会根据采集的流量特征动态变化,使得探针的采集策略更灵活,探针根据更新后内置采集策略,可以采集到更加准确的流量特征,能够提高异常流量检测的准确率。而且探针只采集流量部分关键的流量特征,这样可以减少探针的性能浪费,提高探针的数据采集性能。
84.在一实施例中,所述基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略,包括以下至少一项:
85.基于所述流量特征确定对应的探针的业务基线,根据所述业务基线生成所述至少一个目标采集策略;
86.基于所述流量特征提取流量发送方的用户指纹,根据所述用户指纹生成所述至少一个目标采集策略;
87.基于所述流量特征进行异常行为分析,分析得到异常行为的行为规则,根据所述行为规则生成所述至少一个目标采集策略。
88.其中,所述业务基线包括以下任意一项:
89.域名的长度;
90.域名的字符分布;
91.域名的字符转移概率。
92.在一实施例中,所述基于所述流量特征确定对应的探针的业务基线,包括:
93.获取所述流量特征中的正常流量特征;
94.基于所述正常流量特征进行模型训练,训练得到所述业务基线。
95.这里,业务基线是基于正常流量特征训练得到的,本实施例的模型训练方法可以根据实际情况进行选择,既可以采用专家经验模型或统计特征之类的传统方法,也可以采用无监督学习、半监督学习之类的机器学习方法。
96.例如,通过统计正常流量特征中的域名长度,发现绝大多数正常流量的域名长度分布为均值为6或7的高斯分布(正态分布),则业务基线就是“域名长度分布为均值为6或7 的高斯分布”。如果域名长度不满足业务基线,则对应的流量为异常流量。
97.域名的字符分布指域名中的参数对的字符分布情况,通过统计正常流量的域名中的参数对的字符分布,发现正常业务流量的域名的参数对中不包含字母,则业务基线就是“域名的参数对不包含字母”,如果流量的参数对中包含字母,则确定为异常流量。
98.例如,一条正常业务流量包括数据baidu.com?date=2022.07.02,其中“date=2022.07.02”是参数对,“date”为参数(key),“2022.07.02”是值(value)。可见,正常业务流量的参数对中只包含数字和小数点。如果业务流量出现字母或其他字符,则确定为异常流量。
99.域名由字符组合而成,可以看作一个序列,因此可以使用隐马尔可夫模型计算域名出现的概率,域名的字符转移概率可以反映域名的可读性。统计正常流量的域名的字符转移概率,将正常流量的域名的字符转移概率作为业务基线。
100.在一实施例中,所述流量特征包括统一资源定位符url地址,所述基于所述流量特征提取流量发送方的用户指纹,包括:
101.统计所述流量特征中各个url地址的访问次数;
102.将访问次数小于第一设定值的url地址确定为所述用户指纹。
103.对应地,探针在基于更新后的内置采集策略采集对应的网关转发的流量的流量特征时,采集网关转发的流量中包含所述用户指纹的流量的流量特征。
104.这里,用户指纹除了url地址,还可以包括ip地址、设备标识和域名等。
105.在正常情况下,正常的url地址会被经常访问,而异常的url地址只有攻击者会访
问,因此通过统计url地址的访问次数,将访问次数小于第一设定值的url地址确定为用户指纹。根据用户指纹生成目标采集策略,探针会根据目标采集策略采集包含该url地址的流量。
106.攻击者通常在访问流量中加入探测器(robot)来爬取数据,可以将已知探测器的标识作为用户指纹生成目标采集策略,如果发现流量参数中包含探测器的标识,则采集该流量的流量特征。
107.基于所述流量特征进行异常行为分析,分析得到异常行为的行为规则,根据所述行为规则生成目标采集策略。
108.这里,可以使用重点业务优先原则、最近最少使用原则等方法进行异常行为分析。在实际应用中,通过分析数据发现,恶意业务流量与正常业务流量的区别主要表现在:域名的长度、数字字符及非字母数字(non-alphanumeric character)的字符占比、域名系统(dns,domainname system)解析出的ip数量、生存时间(ttl,time to live)值以及域名是否收录在 alexa网站等。
109.平台端首先会进行异常检测,区分正常流量特征和异常流量特征,然后分别统计正常流量特征和异常流量特征的域名长度、数字字符及非字母数字字符占比、ip数量、生存时间等信息,通过求均值等方法,可以得到正常流量对应的行为规则和异常流量对应的行为规则。
110.例如,正常流量的dns响应中全称域名的数字字符的占比和非字母数字字符的占比要大,这是正常行为的行为规则。
111.还可以通过dns解析出的ip数量来确定异常行为的行为规则,例如,大部分正常流量返回2-8个ip地址,这是正常行为的行为规则;恶意流量返回4或者11个ip地址,这是异常行为的行为规则。
112.还可以通过ttl值来确定异常行为的行为规则,ttl值用来指定ip包被路由器丢弃之前允许通过的最大网段数量。正常业务流量的ttl值一般为60、300、20、30,这是正常行为的行为规则;而恶意流量多为300,大约22%的dns响应汇总ttl为100,而这在正常流量中很罕见,这是异常行为的行为规则。
113.还可以通过业务流量的http头部信息来确定异常业务流量,通过分析http头部信息发现,恶意业务流量和正常业务流量所选用的http头部字段有很大区别。正常业务流量 http头部信息汇总content-type值多为image/*,这是正常行为的行为规则;而恶意业务流量为text/*、text/html、charset=utf-8或者text/html;charset=utf-8,这是异常行为的行为规则。
114.通过上述任意一种方法都可以得到多个目标采集策略,本技术可以灵活选择其中至少一种方法来生成目标采集策略。
115.在一实施例中,所述基于所述至少一个目标采集策略更新对应的探针的内置采集策略,包括:
116.基于每个探针当前的内置采集策略的数量,确定发送至每个探针的目标采集策略的数量,以使所述探针更新后的内置采集策略的数量小于第二设定值。
117.本实施例对每一个探针都限制了其内置采集策略的最大数量,探针内置采集策略的数量要小于第二设定值。这是为了限制并发采集请求,避免探针同时执行过多采集策略,
导致探针性能压力大,优化探针的采集性能。
118.在一实施例中,述探针的内置采集策略包括:探针自带的采集策略和至少一个灵活采集策略;
119.对应地,所述基于所述至少一个目标采集策略更新对应的探针的内置采集策略,包括:
120.基于所述至少一个目标采集策略更新对应的探针的至少一个灵活采集策略,所述探针自带的采集策略不进行更新。
121.探针通过自带的采集策略对流量进行粗过滤,并通过探针自带的采集策略对流量进行灵活过滤。其中,探针自带的采集策略可以根据专家经验预先配置,自带的采集策略不会被平台端更新。自带的采集策略是对流量进行粗过滤,结合专家经验,例如关键组件、主流攻击特征、规则引擎结构等对流量进行粗过滤。
122.至少一个灵活采集策略是平台端可以进行灵活更新的采集策略,本实施例在更新探针内置采集策略时,是对至少一个灵活采集策略进行更新。本实施例可以选择性的更新灵活采集策略,选择至少一个灵活采集策略中需要被更新的灵活采集策略,基于至少一个目标采集策略对选择的灵活采集策略进行更新。
123.参考图4,图4是本发明实施例提供的一种流量采集策略的分配方法的实现流程示意图,所述流量采集策略的分配方法的执行主体为上述图1中的探针,探针部署在网关中。流量采集策略的分配方法包括:
124.s401,基于内置的采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
125.s402,将所述流量特征发送至平台端;所述平台端基于基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略,基于所述至少一个目标采集策略,更新每个探针的内置采集策略;
126.s403,基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
127.其中,网关可以是路由、交换机等中间设备。探针部署在网关上,网关可以连接多个业务系统,用户访问业务系统的流量会由网关转发给业务系统,探针在网关处采集用户访问业务系统的流量。每个探针都内置有采集策略,探针基于内置采集策略采集网关接收到的流量的流量特征。
128.在本实施例中,探针采集的不是流量的完整原始报文,而是部分数据特征,因为采集完整原始报文需要的运算性能更多,需要的存储空间也更多,所以本实施例探针只采集流量部分关键的数据特征,这样可以减少性能浪费,节省存储空间。需要采集什么数据特征,可以通过采集策略进行限定。
129.每个探针都内置有采集策略,内置采集策略的数量可以有多个,探针除了自带的固定不变的采集策略之外,探针内还设置有可灵活变动的采集策略,平台端可以对这部分可灵活变动的采集策略进行动态更新。
130.每个探针将采集到的流量特征发送至平台端,其中,流量特征可以是流量中的统一资源定位符(url,uniform resource locator)地址、ip地址、域名、域名长度、设备标识、请求方法参数、文件类型、协议类型、头部字段等特征。
131.例如,一种采集策略是采集url地址为www.baidu.com的流量的头部字段。
132.本实施例中,探针可以根据平台端下发的目标采集策略,更新内置的采集策略,从而可以采集到与业务系统更匹配的流量特征。而且探针的采集策略会根据采集的流量特征动态变化,使得探针的采集策略更灵活,探针根据更新后内置采集策略,可以采集到更加准确的流量特征,能够提高异常流量检测的准确率。而且探针只采集流量部分关键的流量特征,这样可以减少探针的性能浪费,提高探针的数据采集性能。
133.如图5所示,图5是本发明实施例提供的一种探针流量采集框架的示意图,流量过滤框架包括:
134.首先探针对网络流量进行粗过滤,粗过滤规则可以根据专家经验预先配置,结合专家经验,例如关键组件(比如url)、主流攻击特征、规则引擎结构等对流量进行粗过滤。
135.对于大部分流量,粗过滤规则只提取其中少量的内容并形成摘要信息,摘要信息包括但不限于文件类型、协议类型、头部字段、关键组件等信息,从而减少上报到平台的数据量。
136.然后探针对网络流量进行灵活过滤,灵活过滤策略由平台动态下发,主要包含两类:一类是业务索引,平台可以指定host、设备id、url、请求方法等参数作为业务索引来采集流量特征;另一类是利用特征来采集流量特征,特征可以是加密流量、访问次数过少的url 等。
137.这里粗过滤规则对应上述实施例中的探针自带的采集策略,灵活过滤策略对应上述实施例的至少一个灵活采集策略,通过多种采集策略的组合,本实施例可以获取网络流量中的多种流量特征,将获取到的流量特征上报给平台端,由平台端进行数据处理。
138.图6是本发明应用实施例提供的一种流量采集策略的分配系统的框架示意图,该分配系统由平台和探针组成。
139.平台包括业务建模模块、用户指纹模块和行为分析模块。
140.平台用于接收探针采集到的流量特征,对探针采集到的流量特征进行学习和检测,动态生成目标采集策略,并将目标采集策略下发给探针。
141.其中,业务建模模块,用于学习流量特征建立起业务基线,根据业务基线生成目标采集策略。用户指纹模块,用于基于流量特征提取流量发送方的用户指纹,根据用户指纹生成目标采集策略。行为分析模块,用于根据流量特征对用户行为进行分析,分析得到异常行为的行为规则,根据行为规则生成目标采集策略。
142.本实施例可以针对每一个探针建立一个采集策略集合,生成的目标采集策略都存储在采集策略集合中,定期更新探针的内置采集策略。
143.将目标采集策略集合中的目标采集策略下发给对应的探针,更新探针中的灵活采集策略,以使探针根据平台下发的目标采集策略以及自带的粗过滤规则采集流量特征。
144.探针中包含2种类型的采集策略,一种是粗过滤规则,通过粗过滤规则对网络流量进行粗过滤,粗过滤规则采集到的流量特征包含少量信息。第二种是灵活过滤策略,探针通过灵活过滤策略采集到的流量特征包含大量信息。
145.平台还可以控制下发给探针的目标采集策略的数量,限制并发采集请求,避免探针同时执行过多采集策略,导致探针性能压力大,优化探针的采集性能。
146.相比相关技术将异常检测、行为分析等安全服务直接集成在防火墙上,本技术将数据采集全过程分到两种设备上进行,分别为探针端和平台端。探针端支持数据的粗过滤
和灵活的主动过滤,用以获取流量特征;平台端则对上报的流量特征进行业务建模与检测,并动态更新采集策略下发到探针端,最终定期更新探针端的灵活采集策略。
147.本实施例可以应用于多个场景中,例如可以应用在安全态势感知、扩展检测和响应 (xdr,extended detection and response)平台等场景中,提升整体web安全的防护能力。网络安全态势感知是一种基于环境动态地、整体地洞悉安全风险的能力,它利用数据融合、数据挖掘、智能分析和可视化等技术,直观显示网络环境的实时安全状况,为网络安全保障提供技术支撑。网络安全态势感知系统的工作过程大致分为安全要素采集、安全数据处理、安全数据分析和分析结果展示这几个关键阶段。xdr是一种基于saas的、绑定到特定供应商的安全威胁检测和事件响应工具,它原生地将多个安全产品集成到一个统一的安全运营系统中,该系统统一了所有许可组件。
148.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
149.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
150.需要说明的是,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
151.另外,在本发明实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
152.参考图7,图7是本发明实施例提供的一种流量采集策略的分配装置的示意图,如图7 所示,该装置包括:
153.获取模块,用于获取至少两个探针中的每个探针采集到的流量特征;其中,所述平台端连接所述至少两个探针,每个探针部署在不同的网关上,每个探针基于内置采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
154.生成模块,用于基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略;
155.更新模块,用于基于所述至少一个目标采集策略,更新每个探针的内置采集策略,以使每个探针基于更新后的内置采集策略采集对应的网关转发的流量的流量特征。
156.在一实施例中,所述生成模块基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略,包括以下至少一项:
157.基于所述流量特征确定对应的探针的业务基线,根据所述业务基线生成所述至少一个目标采集策略;
158.基于所述流量特征提取流量发送方的用户指纹,根据所述用户指纹生成所述至少一个目标采集策略;
159.基于所述流量特征进行异常行为分析,分析得到异常行为的行为规则,根据所述行为规则生成所述至少一个目标采集策略。
160.在一实施例中,所述生成模块基于所述流量特征确定对应的探针的业务基线,包
括:
161.获取所述流量特征中的正常流量特征;
162.基于所述正常流量特征进行模型训练,训练得到所述业务基线。
163.在一实施例中,所述业务基线包括以下任意一项:
164.域名的长度;
165.域名的字符分布;
166.域名的字符转移概率。
167.在一实施例中,所述流量特征包括统一资源定位符url地址,所述基于所述流量特征提取流量发送方的用户指纹,包括:
168.统计所述流量特征中各个url地址的访问次数;
169.将访问次数小于第一设定值的url地址确定为所述用户指纹。
170.在一实施例中,所述更新模块基于所述至少一个目标采集策略更新对应的探针的内置采集策略,包括:
171.基于每个探针当前的内置采集策略的数量,确定发送至每个探针的目标采集策略的数量,以使所述探针更新后的内置采集策略的数量小于第二设定值。
172.在一实施例中,所述探针的内置采集策略包括:探针自带的采集策略和至少一个灵活采集策略;
173.对应地,所述更新模块基于所述至少一个目标采集策略更新对应的探针的内置采集策略,包括:
174.基于所述至少一个目标采集策略更新对应的探针的至少一个灵活采集策略,所述探针自带的采集策略不进行更新。
175.参考图8,图8是本发明实施例提供的一种流量采集策略的分配装置的示意图,如图8 所示,该装置包括:
176.第一采集模块,用于基于内置的采集策略采集对应的网关转发的流量的流量特征;每个网关连接多个业务系统,网关用于转发流量至对应的业务系统;
177.发送模块,用于将所述流量特征发送至平台端;所述平台端基于基于每个探针采集到的流量特征,生成每个探针对应的至少一个目标采集策略,基于所述至少一个目标采集策略,更新每个探针的内置采集策略;
178.实际应用时,所述获取模块、生成模块和更新模块可通过电子设备中的处理器,比如中央处理器(cpu,central processing unit)、数字信号处理器(dsp,digital signal processor)、微控制单元(mcu,microcontroller unit)或可编程门阵列(fpga,field-programmable gatearray)等实现。
179.需要说明的是:上述实施例提供的流量采集策略的分配装置在进行适配时,仅以上述各模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的模块完成,即将装置的内部结构划分成不同的模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的流量采集策略的分配装置与流量采集策略的分配方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
180.上述流量采集策略的分配装置可以是镜像文件形式,该镜像文件被执行后,可以以容器或者虚拟机的形式运行,以实现本技术所述的分配方法。当然也不局限为镜像文件
形式,只要能够实现本技术所述的分配方法的一些软件形式都在本技术的保护范围之内。
181.基于上述程序模块的硬件实现,且为了实现本技术实施例的方法,本技术实施例还提供了一种电子设备。图9为本技术实施例电子设备的硬件组成结构示意图,如图9所示,电子设备包括:
182.通信接口,能够与其它设备比如网络设备等进行信息交互;
183.处理器,与所述通信接口连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述电子设备侧一个或多个技术方案提供的方法。而所述计算机程序存储在存储器上。
184.当然,实际应用时,电子设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统。
185.上述电子设备可以是集群形式,比如是云计算平台形式,所谓云计算平台是采用计算虚拟化、网络虚拟化、存储虚拟化技术把多个独立的服务器物理硬件资源组织成池化资源的一种业务形态,它是一种基于虚拟化技术发展基础上软件定义资源的结构,可以提供虚拟机、容器等形态的资源能力。通过消除硬件与操作系统之间的固定关系,依赖网络的连通统一资源调度,然后提供所需要的虚拟资源和服务,是一种新型的it,软件交付模式,具备灵活,弹性,分布式,多租户,按需等特点。
186.目前的云计算平台支持几种服务模式:
187.saas(software as a service,软件即服务):云计算平台用户无需购买软件,而改为租用部署于云计算平台的软件,用户无需对软件进行维护,软件服务提供商会全权管理和维护软件;
188.paas(platform as a service,平台即服务):云计算平台用户(此时通常为软件开发商) 可以在云计算平台提供的架构上建设新的应用,或者扩展已有的应用,同时却不必购买开发、质量控制或生产服务器;
189.iaas(infrastructure as a service,基础架构即服务):云计算平台通过互联网提供了数据中心、基础架构硬件和软件资源,iaas模式下的云计算平台可以提供服务器、操作系统、磁盘存储、数据库和/或信息资源。
190.本技术实施例中的存储器用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
191.可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器 (eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器 (eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器 (fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random accessmemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如
静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram, dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamicrandom access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,doubledata rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器 (esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本技术实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
192.上述本技术实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、 dsp,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的程序,结合其硬件完成前述方法的步骤。
193.可选地,所述处理器执行所述程序时实现本技术实施例的各个方法中由电子设备实现的相应流程,为了简洁,在此不再赘述。
194.在示例性实施例中,本技术实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的第一存储器,上述计算机程序可由电子设备的处理器执行,以完成前述方法所述步骤。计算机可读存储介质可以是fram、rom、 prom、eprom、eeprom、flash memory、磁表面存储器、光盘、或cd-rom等存储器。
195.在本技术所提供的几个实施例中,应该理解到,所揭露的装置、电子设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
196.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
197.另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
198.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、rom、
ram、磁碟或者光盘等各种可以存储程序代码的介质。
199.或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
200.需要说明的是,本技术实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
201.另外,在本技术实例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
202.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1