基于大数据的异常网络行为挖掘系统的制作方法

文档序号:27306808发布日期:2021-11-06 07:30阅读:179来源:国知局
基于大数据的异常网络行为挖掘系统的制作方法

1.本发明属于网络技术领域,更具体地说,尤其涉及基于大数据的异常网络行为挖掘系统。


背景技术:

2.目前,网络攻击手法越来越多样化,挖掘模型也不断复杂化。分析人员迫切需要针对不同的攻击自主设计攻击挖掘模型,从大量多源异构的数据中发现可疑线索,目前,采用多种关系型数据库存储从多渠道接入的多源异构数据,全手工编写算子、编译、调度;采用传统office等工具进行数据统计、汇总及展示;
3.但是,传统关系数据库存储数据量大小及其有限,无法存储海量数据,而对数据结构要求却很高,由于分析数据来自不同渠道,大部分都是异构数据,数据结构更是多种多样,导致很多异构的数据无法同存到一个表中,无法满足多种需求下各维度的分析运算;全手工编写算子、编译、调度导致工作效率低下,处理能力受到限制;现有技术已经无法满足业务需求,因此,我们提出一种基于大数据的异常网络行为挖掘系统。


技术实现要素:

4.本发明的目的是为了解决现有技术中存在的缺点,而提出的基于大数据的异常网络行为挖掘系统,通过本系统可以实现从任务执行流程编写,任务流程监控,任务结果预览一站式流程,简化大数据挖掘任务的提交难度,提供用户权限分层,更好的管理用户任务以及用户任务数据。
5.为实现上述目的,本发明提供如下技术方案:
6.基于大数据的异常网络行为挖掘系统,包括基础服务层、计算与存储层和应用层,所述基础服务层依托于hadoop集群生态环境,为上层服务提供数据计算、数据存储、任务管理能力;
7.所述计算与存储层作为异常网络行为挖掘系统的核心,支撑来自于应用层提交的算子模型编译及计算任务,并将计算结果存储到相应的数据库内;
8.所述应用层通过web系统支持分析人员以图形化页面的形式编写算子模型,完成编译后提交任务到大数据集群进行计算,并且通过数据概览分析任务结果,支撑后续的业务决策。
9.优选的,所述应用层中,分析人员编写算子模型的具体方法为:
10.1)分析人员根据具体的业务需求,在异常网络行为挖掘平台端创建算子配置,基于业务需求进行算子模型代码的编写,完成后将代码提交至系统server端,server端将完整模型代码发布至hadoop集群进行编译操作,并等待编译结果返回至web端;
11.2)算子模型编译成功后,在异常网络行为挖掘平台创建计算任务,并配置编译成功的算子、任务属性后提交至系统server端,server端的计算引擎经过任务分解、数据连接等预处理操作后,将任务提交至hadoop集群等待任务队列执行,并定时检测任务状态返回
至web端;
12.3)任务执行完成后,可以通过数据预览查看和分析任务执行结果,并据此来指导业务后续决策。
13.优选的,所述计算与存储层采用spark作为算子任务的计算基础,spark是一款开源通用的大规模数据处理引擎,通过该框架可以快速的将算子任务提交至分布式集群进行计算和处理。
14.优选的,所述算子模型:在数学上可以解释为一个函数空间到函数空间上的映射o:x

>x,其实就是一个处理单元,往往指一个函数,在使用算子时往往会有输入和输出,算子则完成相应数据的转化,在该项目中主要是通过挖掘平台编译和提交算子任务,最终该任务会提交至大数据平台来完成计算和存储。
15.优选的,所述算子任务是负责将某一个编译成功的算子提交至集群某节点,完成后续的计算和输出操作。
16.优选的,所述算子模型中设置有用于对算子进行业务逻辑的划分的算子类型,便于分析人员将不同的算子进行分类和归并。
17.优选的,本系统用户首先通过管理员用户登录,通过用户模块新增角色以及用户,可以由此以该用户名登录系统;
18.登录成功以后,通过首页以dashboard的形式展示,系统相关技术指标,以及目标集群的健康状态,以此来观察系统整体的运行概览数据。
19.优选的,本系统算子管理具体为:点击新建算子,用户可以按照算子约束要求新增算子代码,可以进行编译检查、保存、删除、更新自己的算子;
20.任务管理具体为:点击创建任务,根据系统提示勾选已通过编译的算子,支持配置crontab进行定时执行的配置,发布任务后任务开始执行,任务结果入库,可以进行任务保存、更新、删除、以及任务发布执行;支持任务实时状态的查看,并且点击相关任务可以查看任务执行结果数据。
21.本发明的技术效果和优点:本发明提供的基于大数据的异常网络行为挖掘系统,与传统的异常网络行为挖掘系统相比,本发明依托成熟开源的大数据相关技术,支撑海量威胁元数据的存储与检索;采用稳定的通用基础算子,平台在线提交、编译算子任务提交至大数据集群,用户可以在web上简单操作即可调用算子;并可通过可视化操作对分析平台中数据、算子、任务等进行统一管理及展示,以及可视化的各种自主专业分析模型的构建和测试、多维度展示统计分析汇总效果数据。
附图说明
22.图1为本发明基于大数据的异常网络行为挖掘系统架构图;
23.图2为本发明的算子任务提交分布式集群进行计算流程图。
具体实施方式
24.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前
提下所获得的所有其他实施例,都属于本发明保护的范围。
25.本发明提供了如图1

2的基于大数据的异常网络行为挖掘系统,包括基础服务层、计算与存储层和应用层,其特征在于:所述基础服务层依托于hadoop集群生态环境,为上层服务提供数据计算、数据存储、任务管理能力;
26.所述计算与存储层作为异常网络行为挖掘系统的核心,支撑来自于应用层提交的算子模型编译及计算任务,并将计算结果存储到相应的数据库内;
27.所述应用层通过web系统支持分析人员以图形化页面的形式编写算子模型,完成编译后提交任务到大数据集群进行计算,并且通过数据概览分析任务结果,支撑后续的业务决策;
28.所述算子模型:在数学上可以解释为一个函数空间到函数空间上的映射o:x

>x,其实就是一个处理单元,往往指一个函数,在使用算子时往往会有输入和输出,算子则完成相应数据的转化,在该项目中主要是通过挖掘平台编译和提交算子任务,最终该任务会提交至大数据平台来完成计算和存储,所述算子任务是负责将某一个编译成功的算子提交至集群某节点,完成后续的计算和输出操作,所述算子模型中设置有用于对算子进行业务逻辑的划分的算子类型,便于分析人员将不同的算子进行分类和归并;
29.依托成熟开源的大数据相关技术,支撑海量威胁元数据的存储与检索;采用稳定的通用基础算子,平台在线提交、编译算子任务提交至大数据集群,用户可以在web上简单操作即可调用算子;并可通过可视化操作对分析平台中数据、算子、任务等进行统一管理及展示,以及可视化的各种自主专业分析模型的构建和测试、多维度展示统计分析汇总效果数据;
30.所述应用层中,分析人员编写算子模型的具体方法为:
31.1)分析人员根据具体的业务需求,在异常网络行为挖掘平台端创建算子配置,基于业务需求进行算子模型代码的编写,完成后将代码提交至系统server端,server端将完整模型代码发布至hadoop集群进行编译操作,并等待编译结果返回至web端;
32.2)算子模型编译成功后,在异常网络行为挖掘平台创建计算任务,并配置编译成功的算子、任务属性后提交至系统server端,server端的计算引擎经过任务分解、数据连接等预处理操作后,将任务提交至hadoop集群等待任务队列执行,并定时检测任务状态返回至web端;
33.3)任务执行完成后,可以通过数据预览查看和分析任务执行结果,并据此来指导业务后续决策;
34.应用层具有:算子配置及管理、任务管理、预览、注册登录等功能,系统具备访问控制、并支持多用户的权限分配和控制;并且配合支持算子配置、编译以及发布到大数据平台来完成任务的执行和计算,并且可以采用可视化方式在查看任务执行状态以及各维度最终的数据分析及统计汇总,整体配备灾备系统;
35.所述计算与存储层采用spark作为算子任务的计算基础,spark是一款开源通用的大规模数据处理引擎,通过该框架可以快速的将算子任务提交至分布式集群进行计算和处理;
36.本系统用户首先通过管理员用户登录,通过用户模块新增角色以及用户,可以由此以该用户名登录系统;
37.登录成功以后,通过首页以dashboard的形式展示,系统相关技术指标,以及目标集群的健康状态,以此来观察系统整体的运行概览数据;
38.本系统算子管理具体为:点击新建算子,用户可以按照算子约束要求新增算子代码,可以进行编译检查、保存、删除、更新自己的算子;
39.任务管理具体为:点击创建任务,根据系统提示勾选已通过编译的算子,支持配置crontab进行定时执行的配置,发布任务后任务开始执行,任务结果入库,可以进行任务保存、更新、删除、以及任务发布执行;支持任务实时状态的查看,并且点击相关任务可以查看任务执行结果数据;通过本系统可以实现从任务执行流程编写,任务流程监控,任务结果预览一站式流程,简化大数据挖掘任务的提交难度,提供用户权限分层,更好的管理用户任务以及用户任务数据;
40.可选的,本系统混合多分类朴素贝叶斯算法和两步筛选增量学习方法;首先利用白名单扫描引擎扫描现网行为数据获取用于增量学习的正常行为;利用已知异常行为特征匹配引擎的输出得到异常行为。从而获得包括异常行为和正常行为的原始增量训练集dt,然后进行两步筛选后加入到增量训练集中对现有模型进行训练,混合多分类朴素贝叶斯算法:
41.设x={x1,x2,......,xk}是数据元组,它由k个属性{a1,a2,...,ak}进行描述;设d是训练元组和相关联的类标号的集合(训练集)。假定对于给定元组x具有n+1个类属性值c={c0,c1,...,cn},朴素贝叶斯分类法预测x在最高概率条件下属于类ci的概率,当且仅当p(ci|x)>p(cj|x),(0≤j≤n,i≠j)由于对于所有类均为固定常数,根据贝叶斯定理,只需要确定p(x|ci)p(ci)最大即可:即为了预测x的类标号,对每个类ci,计算p(x|ci)p(ci);
42.在移动互联工控网网络请求中选取的属性值之间是相互独立的,因此可以基于各个属性独立的概率值p(x1|ci),p(x2|ci),

,p(xk|ci),进行概率计算:如果利用二分类朴素贝叶斯算法对恶意行为进行分类,则n等于1,总类别数为2,即类别只有正常行为与异常行为;
43.由于异常行为可能由多种恶意程序造成且行为并不相同,因此这里采用一种混合多分类朴素贝叶斯算法进行分析;
44.在建模的时候使用不同类别的恶意程序的行为加入到训练集d进行多分类训练;检测的时候按二分类进行检测;
45.对于n+1种分类集c,定义c0为正常行为类别,c

为异常行为分类,包含n种恶意程序行为子集c

={c1,c2,...,cn},则c={c0,c

}。
46.针对网络行为x进行分类检测的时候,对于网络行为x,当正常行为类c0的类条件概率p(c0|x)大于异常行为类条件概率最大值时,判定x为正常行为,否则为异常行为;
47.异常挖掘系统是一款简化数据挖掘能力的大数据服务系统,通过本系统可以实现从任务执行流程编写,任务流程监控,任务结果预览一站式流程,简化大数据挖掘任务的提交难度,提供用户权限分层,更好的管理用户任务以及用户任务数据。
48.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的
保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1