基于机器学习的IP分类方法及系统与流程

文档序号:16734711发布日期:2019-01-28 12:32阅读:827来源:国知局

本发明涉及计算机网络数据安全技术,特别涉及基于机器学习的ip分类的技术。



背景技术:

随着网络和科技的迅速发展,互联网所承载的信息日渐丰富,在一方面为人们带来便利的同时,也存在大量安全隐患,ddos,木马,蠕虫等攻击时有发生,互联网安全形势严峻。当前的主要挑战是建立安全的应用程序,系统和网络,用于企业内部安全访控策略调整,提高企业内部控制异常访问的精确度。一般企业内部资产数量庞大,威胁检测也是基于已发生攻击的检测,缺乏对各种安全威胁的预知和部署,如果没有做好访控调整,可能会导致异常访问控制不到位引起安全风险增加。随着第三方威胁情报平台众多,也带来了丰富的全球安全情报资源,而主动防御讲的就是怎么利用安全情报发现一些可能对企业造成危害的攻击来源,包括用户异常行为关联分析和各种各样的结果。这是一个很好的主动去发现企业可能被攻击的状况,然后调整安全策略的一个方法。



技术实现要素:

本发明的目的是提供一种基于机器学习的ip分类方法及系统,能够快速、高效的对ip地址进行分类,实现对威胁情报进行分析和展示。

本发明解决其技术问题,采用的技术方案是:基于机器学习的ip分类方法,包括如下步骤:

步骤1、采集主机流量和威胁情报数据;

步骤2、设置主机流量维度,威胁情报维度;

步骤3、对流量数据进行分析;

步骤4、将分析后的流量数据形成流量数据分析结果;

步骤5、将流量数据分析结果存储到数据库中;

步骤6、对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。

具体地,步骤1中,通过snmp工具采集主机流量,通过api采集第三方威胁情报数据。

进一步地,步骤2中,设置主机流量维度包括源ip、目的ip及时间,设置威胁情报数据维度包括源ip、攻击数、攻击周期及攻击事件类型。

具体地,步骤3具体包括如下步骤:

步骤301、对流量数据进行标准化,将各指标特征分布在区间[0,1];

步骤302、标准化后的流量数据采用kmeans聚类算法处理,通过交叉验证后得到主机流量采用k1=2,威胁数据采用k2=4;

步骤303、对标准化后的流量数据采用tsne降维算法处理,得到两个低维空间映射相关系数。

再进一步地,步骤6具体是指:对存储到数据库中的流量数据进行对比筛选,筛选出系数相匹配的ip、匹配结果及匹配次数,并将筛选结果生成表格进行展示。

基于机器学习的ip分类系统,包括数据采集单元、数据清洗单元、数据分析单元、ip数据比对单元以及匹配ip数据可视化单元;

所述数据采集单元用于采集主机流量和第三方威胁情报数据;

所述数据清洗单元用于对数据采集单元采集到的数据进行清洗;

所述数据分析单元用于对数据清洗单元处理后的数据进行标准化,使数据标准化到[0,1]之间,再采用kmeans聚类分析和tsne降维分析,对数据进行聚类和分析,并存储到nosql数据库中;

所述ip数据比对单元用于将主机流量和威胁情报分析结果表中ip、两个相关系数的维度,结合k分类进行比对,筛选出与威胁情报匹配的ip和未匹配的ip;

所述可视化单元用于对ip数据比对单元中的匹配和未匹配的ip进行直观的展示,并添加其匹配结果及匹配次数数据,展示ip分类结果。

具体地,所述清洗包括行列计算和拆分及归并。

本发明的有益效果是,通过上述基于机器学习的ip分类方法及系统,首先,采集主机流量和威胁情报数据;其次,设置主机流量维度,威胁情报维度;然后,对流量数据进行分析;再将分析后的流量数据形成流量数据分析结果;然后,将流量数据分析结果存储到数据库中;最后,对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。

本申请依托于机器学习相关技术,将网络流量和威胁情报数据进行分析和比对,并将处理结果通过态势感知平台可视化直观展示,对运维和安全决策人员十分友好。并且,具有简单易懂的特点,使用者可以在获得流量数据后对数据进行清洗和预处理的时候有更明确的目的性,以及在数据分析的时候有更强的算法选择指导。并且,具有很强的实用性,极大程度地提高了运维了解某一时间段网络安全情况的直观展示。

具体实施方式

下面结合实施例,详细描述本发明的技术方案。

本发明所述基于机器学习的ip分类方法,包括如下步骤:

步骤1、采集主机流量和威胁情报数据;

步骤2、设置主机流量维度,威胁情报维度;

步骤3、对流量数据进行分析;

步骤4、将分析后的流量数据形成流量数据分析结果;

步骤5、将流量数据分析结果存储到数据库中;

步骤6、对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。

基于机器学习的ip分类系统,包括数据采集单元、数据清洗单元、数据分析单元、ip数据比对单元以及匹配ip数据可视化单元;其中,数据采集单元用于采集主机流量和第三方威胁情报数据;数据清洗单元用于对数据采集单元采集到的数据进行清洗;数据分析单元用于对数据清洗单元处理后的数据进行标准化,使数据标准化到[0,1]之间,再采用kmeans聚类分析和tsne降维分析,对数据进行聚类和分析,并存储到nosql数据库中;ip数据比对单元用于将主机流量和威胁情报分析结果表中ip、两个相关系数的维度,结合k分类进行比对,筛选出与威胁情报匹配的ip和未匹配的ip;可视化单元用于对ip数据比对单元中的匹配和未匹配的ip进行直观的展示,并添加其匹配结果及匹配次数数据,展示ip分类结果。

实施例

本发明实施例中,数据采集方式主要是主机网络流量采集,第三方威胁情报平台api,非api方式,以及其他方式。

优选的,数据预处理包括对主机网络数据和威胁情报数据预处理,其中网络数据只采集目的ip和源ip,以及网络访问时间;威胁情报数据预处理则需要对源ip,攻击数,攻击周期,攻击事件类型,国家,地区,网段等十多个维度进行统计分类。

优选的,数据标准化对数据进行处理和归一化,以解决数据指标之间的可比性。原始数据在经过数据标准化处理后,各指标特征分布在区间[0,1],适合进行综合对比评价,该方法特征公式为:

其中xi是高维数据在高维空间中的点的集合,min(xi),max(xi)分别表示样本xi中的最小值和最大值,z是xi归一化后的结果;

优选的,对于kmeans算法,通过交叉验证结果分析,对主机网络数据采用的k值为2,对威胁情报数据采用的k值为4,标记距离函数为:

其中labeli为每个样本xi对其标记为距离类别中心aj最近的类别,argmin表示为给定函数取最小值的取值集合表达;

优选的,对于tsne降维算法,为了避免噪声、离群点对低维空间映射的干扰,可以先用numpy求出pij:

其中pij,pji为高维空间的联合概率密度函数值,dij,dji为用来度量距离的高斯似然函数,且:

dji同理,其中xi,xj分别表示高维空间中距离较近/较远的点

t分布公式定义新的距离:

其中yi,yj为低维空间映射,qji为不同于传统概率密度函数的重新定义的概率密度函数;

损失函数求导:

其中loss为损失函数,用kl散度来定义两个分布的关系:

为避免log函数自变量为0,构建函数时候若pij,i=j=0,则强制pij=max(pij,0.000001);上述max(pij,0.000001)为在pij和0.000001中取最大值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1