资产识别方法和计算机设备与流程

文档序号:16312404发布日期:2018-12-19 05:20阅读:386来源:国知局
资产识别方法和计算机设备与流程

本发明实施例涉及一种信息技术领域,特别是一种资产识别方法和计算机设备。

背景技术

业务,是指企业和组织生产经营活动、事务处理等一系列过程的总和。

随着信息技术的引入,业务已经与it(informationtechnology,信息技术)紧密耦合到了一起。

从it的角度来看,业务包括业务的it支撑系统(简称业务支撑系统)、业务数据、业务流程和业务的参与人员。其中,业务支撑系统是业务的基石,包括了承载业务运行的各种软硬件it资源,例如网络设备、安全设备、主机、数据库、中间件等。

业务的运维部门负责硬件资产和软件资产的管理,将设备的硬件、软件和二者的结合,统称为资产。这些it资源有机的结合在一起,共同承担一组产生特定客户价值的任务,就形成了业务支撑系统。

业务支撑系统拓扑图,就是在传统的资产管理之上,以业务为纽带构建起资产之间的相互关系视图。基于业务拓扑,用户可以一目了然的洞悉各个资产所属的系统,并了解资产运行的业务当前的运行状况和安全状态。在业务拓扑中,采用可视化的图标表示资产的实际状态,可以非常形象地看到资产的状态,是正常,还是不可用,还是存在告警。如果业务发生故障,可以快速地检查到究竟是主机出现问题了,还是数据库出现问题了,或是交换机出问题了,方便快速地沿着业务拓扑进行业务故障诊断。

业务支撑系统拓扑图的首次成型基本是在系统建设初期构建集成方案时规划好,再通过人工绘制而成。但在系统正式上线后,可能会由于性能问题、业务扩展等需要进行变更调整,由此业务支撑系统拓扑图也需要相应进行更新。

现有技术中业务支撑系统拓扑图的更新方式主要以人工维护更新为主,根据流程流转而来的更新数据,或者基于自动采集得来的更新数据,对于待识别资产,通过人工的方式确定待识别资产所属的系统,逐一匹配拓扑架构,从而达到更新系统拓扑图的目的。

可以理解的是,系统拓扑图更新方式存在如下缺陷:资产更新数据依赖人工重复识别,效率低下。

目前,现有技术还没有相应的方法来解决人工识别效率低下的问题。



技术实现要素:

针对现有技术的缺陷,本发明实施例提供一种资产识别方法和计算机设备。

一方面,本发明实施例提供一种资产识别方法,包括:获取预设时间段内的待识别资产的第一传输数据,所述第一传输数据包括与所述待识别资产进行数据传输的资产数量和数据包数量;将所述第一传输数据映射至第一空间,确定所述第一传输数据在第一空间的位置;根据所述第一传输数据在第一空间的位置以及预先确定的系统类型与第一样本传输数据在第一空间的位置的对应关系,确定所述第一传输数据对应的待识别资产的系统类型。

另一方面,本发明实施例还提供一种计算机设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下方法:

获取预设时间段内的待识别资产的第一传输数据,所述第一传输数据包括与所述待识别资产进行数据传输的资产数量和数据包数量;将所述第一传输数据映射至第一空间,确定所述第一传输数据在第一空间的位置;根据所述第一传输数据在第一空间的位置以及预先确定的系统类型与第一样本传输数据在第一空间的位置的对应关系,确定所述第一传输数据对应的待识别资产的系统类型。

所述第一空间具有预先确定的逻辑回归曲线,所述逻辑回归曲线与预设的系统类型对应,且是根据所述系统的第一样本传输数据确定的;相应地,所述确定所述第一传输数据对应的待识别资产的系统类型,具体为:根据所述第一传输数据在第一空间与所述逻辑回归曲线的相对位置,确定所述第一传输数据对应的待识别资产是否属于所述系统。

所述确定所述第一传输数据对应的待识别资产的系统类型之后,所述方法还包括:

获取预设时间段内的待识别资产的第二传输数据,所述第二数据包括所述待识别资产与所述系统中资产进行数据传输的数据包数和所述系统内的资产的应用用户类型;将所述第二传输数据映射至第二空间,确定所述第二传输数据在第二空间的位置;根据所述第二传输数据在第二空间的位置以及预先确定的资产类型与第二样本传输数据在第二空间的位置的对应关系,确定所述第二传输数据对应的待识别资产的资产类型。

所述第二空间具有至少一个预先确定的质心,所述质心与预设的资产类型对应,且是根据所述资产的第二样本传输数据确定的;

相应地,确定所述第二传输数据对应的待识别资产的资产类型,具体为:将与所述第二传输数据在第二空间距离最近的质心对应的资产类型,作为所述待识别资产的资产类型。

所述确定所述第二样本传输数据对应的待识别资产的资产类型之后,所述方法还包括:

获取预设时间段内的待识别资产的第三传输数据,所述第三传输数据包括所述待识别资产与同种资产类型的资产之间的传输的数据包数量,所述集群包括多个与所述待识别资产的资产类型相同的资产;将所述第三传输数据映射至第三空间,确定所述第三传输数据在第三空间的位置;根据所述第三传输数据在第三空间的位置以及预先确定的集群类型与第三样本传输数据在第三空间的位置的对应关系,确定所述第三传输数据对应的待识别资产的集群类型。

所述第三空间具有预先确定的多元拟合曲线,所述多元拟合曲线与预设的集群类型对应,且是根据所述集群的第三样本传输数据确定的;相应地,所述将所述第三传输数据映射至第三空间,确定所述第三传输数据在第三空间的位置,具体为获取所述第三传输数据在第三空间的拟合曲线;

所述根据所述第三传输数据在第三空间的位置以及预先确定的集群类型与第三样本传输数据在第三空间的位置的对应关系,确定所述第三传输数据对应的待识别资产的集群类型,具体为:

确定所述第三传输数据的拟合曲线与预先确定的拟合曲线的拟合系数;将拟合系数最大时的拟合曲线对应的集群类型,作为待识别资产的集群类型。

由上述技术方案可知,本发明实施例提供的资产识别方法、运营服务器和业务服务器,所述方法通过待识别资产的第一传输数据,得到第一传输数据在第一空间的位置,并根据系统类型与第一样本传输数据在第一空间的位置的对应关系,确定待识别资产的系统类型,由此可达到自动智能化的识别资产所属的系统类型,从而提高工作效率。

附图说明

图1为本发明实施例提供的一种资产识别方法的流程示意图;

图2为本发明又一实施例提供的一种资产识别方法的流程示意图;

图3为本发明又一实施例提供的sigmoid函数的图像;

图4为本发明又一实施例提供的一种资产识别方法的机器训练得到的逻辑回归曲线示意图;

图5为本发明又一实施例提供的一种资产识别方法的系统归属自动判断示意图;

图6为本发明又一实施例提供的一种资产识别方法的流程示意图;

图7为本发明又一实施例提供的一种资产识别方法的流程示意图;

图8-11分别为本发明又一实施例提供的一种资产识别方法的k-means算法示意图;

图12为本发明又一实施例提供的一种资产识别方法的机器训练得到的服务器资产类归属模型示意图;

图13本发明又一实施例提供的一种资产识别方法的服务器资产类归属模型判断示意图;

图14为本发明又一实施例提供的一种资产识别方法的流程示意图;

图15为本发明又一实施例提供的一种资产识别方法的流程示意图;

图16为本发明又一实施例提供的一种资产识别方法的一个集群的多元拟合曲线示意图;

图17本发明又一实施例提供的一种资产识别方法的系统中多个集群多元拟合曲线示意图;

图18本发明又一实施例提供的一种资产识别方法的集群归属模型判断示意图;

图19为本发明又一实施例提供的一种资产识别系统示意图;

图20为本发明又一实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。

在本实施例中,将设备的硬件、软件和二者的结合,统称为资产。

为便于说明,以资产是服务器为例进行说明。

在业务支撑系统的运营维护过程中,由于性能问题、业务扩展等需要,可能对各资产进行变更调整,从而导致流程中存在未知资产,针对待识别资产,可基于机器学习进行资产识别,以确定待识别资产所属的系统。

业务支撑系统拓扑图包括多个应用系统,比如cm系统(customerrelationshipmanagement,客户管理系统)、boss系统(business&operationsupportsystem,业务运营支撑系统)、客服系统等。

图1示出了本发明实施例提供的一种资产识别方法的流程示意图。

参照图1,本发明实施例提供的方法具体包括以下步骤:

步骤11、获取预设时间段内的待识别资产的第一传输数据,所述第一传输数据包括与所述待识别资产进行数据传输的资产数量和数据包数量。

可选地,对于待识别资产,基于待识别资产的标识,通过网络包工具获取预设时间段内的待识别资产的第一传输数据。

其中,所述待识别资产可为待识别的服务器,所述资产数量为与待识别的服务器进行数据传输的其他服务器的数量,所述数据包数量为待识别的服务器与其他服务器之间传输的数据包的数量。

网络包工具可获取所述待识别资产与其他资产传输的数据包,对数据包进行分析可得到与所述待识别资产存在关联关系的其他资产信息。

具体地,存在关联关系是指与所述待识别资产进行传输。其他资产信息包括其他资产的数量,也就是有多少资产与所述待识别资产进行传输,以及其他资产的属性。其他资产的属性是各资产所属的系统、资产类型、资产所属的集群等参数。此外,对数据包进行分析还可得到所述待识别资产传输的数据包数量。

举例来说,基于未知的服务器ip,通过tcpdump命令抓取指定时间段内经过该服务器网卡的流量包。

其中,tcpdump(dumpthetrafficonanetwork),根据使用者的定义对网络上的数据包进行截获的包分析工具。支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句。

具体地,流量包包括系统时间、来源主机、端口>目标主机、端口、数据包参数等,解析出流量包中和该ip存在关联关系的其他ip,并统计该ip与其他关联ip之间流量包的数量。

步骤12、将所述第一传输数据映射至第一空间,确定所述第一传输数据在第一空间的位置。

在本实施例中,可采用多种数据可视化的方式获得所述第一传输数据在第一空间的位置。

可选地,所述第一空间可为二维坐标系,将所述第一传输数据映射至一个二维坐标系的方式可有多种。可根据所述资产数量,确定所述传输数据的纵坐标,并根据所述数据包数量,确定所述传输数据的横坐标,得到确定所述第一传输数据在第一空间的位置。

步骤13、根据所述第一传输数据在第一空间的位置以及预先确定的系统类型与第一样本传输数据在第一空间的位置的对应关系,确定所述第一传输数据对应的待识别资产的系统类型。

在本步骤之前,获取预先确定的系统类型与第一样本传输数据在第一空间的位置的对应关系,所述对应关系是通过机器学习算法得到的。

可选地,基于已知的服务器ip,通过tcpdump命令抓取指定时间段内经过该服务器网卡的流量包,解析出流量包中和该ip存在关联关系的其他ip,并统计ip之间流量包的数量。

对解析出的ip和资产数据库进行比对,所述资产数据库是指存储有所有运维部门负责的设备硬件和软件配置信息的数据库,每一个服务器资产都有至少一个ip记录,根据查找得到未知资产,并用统计学的方法,归纳出未知资产和已知资产之间的关系矩阵,如下表1。

表中,横项为未知资产,列项为已知资产,表项为流量包的数量。

举例来说,采集时间段内w1和a1两个资产间互发流量包的数量为5。

将已知系统的资产历史数据,作为第一样本传输数据,通过机器学习算法进行训练,得出已知资产的系统归属模型,即每一个系统类型与第一样本传输数据在第一空间的位置的对应关系,将所述第一传输数据在第一空间的位置,与第一样本传输数据在第一空间的位置进行匹配,若匹配,则可确定所述第一传输数据对应的待识别资产归于该系统,若不匹配,再与另一第一样本传输数据在第一空间的位置进行匹配,以此类推,由此能通过该模型自动判断新的未知资产是否属于该系统。

本实施例提供的资产识别方法,至少具有以下技术效果:

通过根据待识别资产的第一传输数据,得到所述第一传输数据在第一空间的位置,并根据预先确定的系统类型与第一样本传输数据在第一空间的位置的对应关系,确定所述第一传输数据对应的待识别资产的系统类型,由此可达到自动智能化的识别资产所属的系统类型,从而提高工作效率。

图2示出了本发明又一实施例提供的一种资产识别方法的流程示意图。

参照图2,在上述实施例的基础上,本实施例提供的资产识别方法。所述第一空间具有预先确定的逻辑回归曲线,所述逻辑回归曲线与预设的系统类型对应,且是根据所述系统的第一样本传输数据确定的。

其中,针对业务支撑系统中的各应用系统,每一系统在第一空间对应一个逻辑回归曲线,所述逻辑回归曲线可用于判定待识别资产是否归属于所述逻辑回归曲线对应的系统。

所述方法步骤13,确定所述第一传输数据对应的待识别资产的系统类型的方式可有多种,本实施例举例说明其中一种。

步骤13’、根据所述第一传输数据与所述逻辑回归曲线的相对位置,确定所述第一传输数据对应的待识别资产是否属于所述系统。

在确定所述第一传输数据在第一空间的位置后,通过在第一空间中与所述逻辑回归曲线的相对位置,根据所述逻辑回归曲线的分类特性,可将所述第一传输数据进行分类,确定待识别资产是否归属于所述系统。

在步骤13’之前,基于已知系统的资产历史数据,通过逻辑回归的机器学习算法进行训练,得出已知资产的系统归属模型。

具体地,逻辑回归(logisticregression,lr)又称为逻辑回归分析,是分类和预测算法中的一种,通过历史数据的表现对未来结果的发生进行预测。

具体地,获取预设时间段内的已知资产的第一样本传输数据,所述第一样本传输数据包括与所述已知资产传输的资产数量和数据包数量;采用逻辑回归算法对所述第一样本传输数据进行训练,确定与预设的系统类型对应的所述逻辑回归曲线。

逻辑回归算法利用已知的自变量来预测一个离散型因变量的值。其算法如下:常规的回归算法的目标是拟合出一个多项式函数f(x),使得预测值与真实值的误差最小。具体公式如下:

f(x)=c0+c1xi+…+cn-1xn

式中,n是特征个数,c是每个特征的拟合系数。

假设数据集有n个独立的特征,x1到xn为样本的n个特征,其中[x1…xn]是输入向量,所以训练的过程就是确定于[c0,c2…cn-1]的值,使得该表达式对于多个输入向量的输出值正确率最高。

为了使f(x)能够具有很好的逻辑判断性质,最好能够直接表达具有特征x的样本被分到某类的概率,比如f(x)>0.5的时候能够表示x被分为正类,f(x)<0.5表示分为反类,且f(x)总在[0,1]之间。引入sigmoid函数。这个函数的定义如下:

图3示出了本发明又一实施例提供的sigmoid函数的图像。

参照图3,sigmoid函数具有本实施例需要的特性,其定义域在全体实数,值域在[0,1]之间,并且在0点值为0.5。

将f(x)转变为sigmoid函数的手段为:

令p(x)=1为具有特征x的样本被分到类别1的概率,则p(x)/[1-p(x)]被定义为让步比(oddsratio)。

引入对数:

通过上式把p(x)解出来得到下式:

得到了需要的sigmoid函数后,接下来只需要和往常的线性回归一样,拟合出该式中n个参数c即可。这个变换被称为logit变换,也称逻辑转换。

根据所述系统的第一样本传输数据确定所述逻辑回归曲线,具体为:

通过逻辑回归算法,对已知系统资产,即第一样本传输数据进行机器训练,实现如下:

自变量为两个占比,第一个占比的分子为已知系统资产和指定系统内相关联的节点数,分母为指定系统总节点数;第一个占比的分子为已知系统资产和指定系统内其他关联节点的流量包数,分母为指定系统总流量包数。

因变量为已知系统资产是否归属某已知系统。

基于以上变量,通过逻辑回归算法进行训练,可根据p(x)训练得出指定系统,即预设系统的逻辑回归曲线。

图4示出了本发明又一实施例提供的一种资产识别方法的机器训练得到的逻辑回归曲线示意图。

参照图4,在第一空间中,纵坐标为所述第一个占比,横坐标为所述第二个占比,图中曲线即为逻辑回归曲线。

其中,曲线左下方呈圆形的节点为不属于该系统的ip,曲线右上方呈方形的节点为属于该系统的ip,从而可实现根据所述逻辑回归曲线的分类特性,对节点进行分类,确定节点是否归属于所述系统。

对于流量抓包后对比得到的未知资产节点,统计未知节点和其他节点的关联数量和流量包数量,运用系统归属模型可以自动判断是否属于该系统。

图5示出了本发明又一实施例提供的一种资产识别方法的系统归属自动判断示意图。

参照图5,若判断获知所述第一传输数据在第一空间的位置在曲线的左下方的圆圈标记,表示不属于所述逻辑回归曲线对应的所述系统。若判断获知所述第一传输数据在第一空间的位置在曲线的右上方的圆圈标记,表示属于所述逻辑回归曲线对应的所述系统。

本实施例提供的资产识别方法,至少具有以下技术效果:

通过在第一空间设置逻辑回归曲线,根据第一传输数据与逻辑回归曲线的相对位置,确定第一传输数据对应的待识别资产是否属于所述系统,由此可达到自动智能化的识别资产所属的系统类型,从而快速、准确的进行资产识别。

图6示出了本发明又一实施例提供的一种资产识别方法的流程示意图。

参照图6,在上述实施例的基础上,所述步骤13之后,可进一步的应用本发明实施例提供的方法对系统内的资产类型进行识别。

可选地,一个系统内的资产类型有多种,例如app服务器、web服务器、缓存服务器、接口服务器、文件服务器、数据库服务器等。

本发明实施例提供的方法具体包括以下步骤:

步骤21、获取预设时间段内的待识别资产的第二传输数据,所述第二数据包括所述待识别资产与所述系统内的资产进行数据传输的数据包数和所述系统内的资产的应用用户类型。

可选地,对于待识别资产,基于待识别资产的标识,通过网络包工具获取预设时间段内的待识别资产的第二传输数据。

其中,所述待识别资产可为待识别的服务器,所述数据包数为待识别的服务器与所述系统内的服务器之间传输的数据包的数量,所述应用用户类型是指所述系统内的服务器上的应用软件的用户类型。

举例来说,所述系统内的服务器为app服务器,除了app类型的用户,还可有多种类型的用户在app服务器上。

网络包工具可获取所述待识别资产与其他资产传输的数据包,对数据包进行分析可得到所述待识别资产与所述系统内资产传输的数据包数,所述系统内资产上的应用用户类型。

步骤22、将所述第二传输数据映射至第二空间,确定所述第二传输数据在第二空间的位置。

在本实施例中,可采用多种数据可视化的方式获得所述第二传输数据在第二空间的位置。可选地,所述第二空间可为二维坐标系,将所述第二传输数据映射至一个二维坐标系的方式可有多种。

具体地,可根据所述资产的应用用户类型,确定所述第二传输数据的横坐标,并根据系统内资产传输的数据包数,确定所述传输数据的总坐标,得到确定所述第二传输数据在第二空间的位置。

步骤23、根据所述第二传输数据在第二空间的位置以及预先确定的资产类型与第二样本传输数据在第二空间的位置的对应关系,确定所述第二传输数据对应的待识别资产的资产类型。

在本步骤之前,获取预先确定的资产类型与第二样本传输数据在第二空间的位置的对应关系,所述对应关系是通过机器学习算法得到的。

可选地,基于待识别资产的系统,通过tcpdump命令抓取指定时间段内经过该服务器网卡的流量包,解析出流量包中和该ip存在关联关系的系统内其他ip,并统计ip之间流量包的数量,所述资产上的应用软件用户。

对解析出的ip和资产数据库进行比对,所述资产数据库是指存储有所有运维部门负责的设备硬件和软件配置信息的数据库,每一个服务器资产都有至少一个ip记录,根据查找表1得到未知资产与已知系统的关系。

举例来说,若通过步骤13确定得到的待识别资产所属的系统为表1中的已知系统1,可得到已知系统1中资产相关的信息。

将已知系统的资产历史数据,作为第二样本传输数据,通过机器学习算法进行训练,得出已知资产的资产归属模型,即每一个资产类型与第二样本传输数据在第二空间的位置的对应关系,将所述第二传输数据在第二空间的位置,与第二样本传输数据在第二空间的位置进行匹配。

例如,第二样本传输数据在第二空间的位置与资产类型为app服务器的资产对应,若所述第二传输数据在第二空间的位置与app服务器的资产的位置匹配,则可确定所述第二传输数据对应的待识别资产为app服务器,若不匹配,再与第二空间内对应web服务器的第二样本传输数据的位置进行匹配,以此类推,由此能通过该模型自动判断新的未知资产属于哪一类服务器资产。

本实施例提供的资产识别方法,至少具有以下技术效果:

通过根据待识别资产的第二传输数据,得到所述第二传输数据在第二空间的位置,并根据预先确定的资产类型与第二样本传输数据在第二空间的位置的对应关系,确定所述第二传输数据对应的待识别资产的资产类型,由此可达到自动智能化的识别资产所属的资产类型,从而提高工作效率。

图7示出了本发明又一实施例提供的一种资产识别方法的流程示意图。

参照图7,在上述实施例的基础上,本实施例提供的资产识别方法。所述第二空间具有至少一个预先确定的质心,所述质心与预设的资产类型对应,且是根据所述资产的第二样本传输数据确定的。

所述方法步骤23,确定所述第二传输数据对应的待识别资产的资产类型的方式可有多种,本实施例举例说明其中一种。

步骤23’、将与所述第二传输数据距离最近的质心对应的资产类型,作为所述待识别资产的资产类型。

在确定所述第二传输数据在第二空间的位置后,通过在第二空间中所述第二传输数据距离与所述质心的距离,根据所述质心的分类特性,可将所述第二传输数据进行分类,确定待识别资产是否归属于所述资产类型。

在步骤23’之前,确定未知资产的系统归属后,基于已知系统的资产历史数据和k-means算法进行机器训练得出模型,判断未知资产属于何种资产类型。

具体地,k-means算法是一种很常见的聚类算法,它的基本思想是:通过迭代寻找k个聚类的一种划分方案,使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。

具体地,获取预设时间段内的已知资产的第二样本传输数据,所述第二数据包括与所述系统内已知资产传输的数据包数和所述已知资产的应用用户类型;采用k-means聚类算法对所述第二样本传输数据进行训练,确定与预设的资产类型对应的所述质心。

k-means算法的基础是最小误差平方和准则。其代价函数是:

式中,μc(i)表示第i个聚类的均值,也就是算法本身的特征值的均值。

在本步骤中,代价函数越小越好,直观的来说,各类内的样本越相似,其与该类均值间的误差平方越小,对所有类所得到的误差平方求和,即可验证分为k类时,各聚类是否是最优的。

上式的代价函数无法用解析的方法最小化,只能有迭代的方法。k-means算法是将样本聚类成k个簇(cluster),其中k是给定的,求解过程为:通过计算不断收敛每一个样本都归属于一个分类c(i),算法描述如下:

1、随机选取k个聚类质心点;

2、重复下面过程直到收敛。

对于每一个样例i,计算其应该属于的类:

式中,c(i)表示i的分类,μj表示j的质心。

对于每一个类j,重新计算该类的质心:

式中,μj表示j的质心。

图8-11分别示出了本发明又一实施例提供的一种资产识别方法的k-means算法示意图。

参照图8-11,分别表示了样例相同的情况下,计算得到的4种质心。

根据所述系统的第二样本传输数据确定所述质心,具体为:通过k-means算法,对已知系统资产,即第二样本传输数据进行机器训练,实现如下:

图12示出了本发明又一实施例提供的一种资产识别方法的机器训练得到的服务器资产类归属模型示意图。

参照图12,取6个聚类质心点,分别代表6类服务器资产,统计已知服务器上的应用用户类型,以及和其他节点之间的流量包数量,通过计算确认已知资产的类归属,绘制已知服务器分布图,再对每一类资产重新计算其质心,重复上述过程,直到所有已知服务器资产都归类到图中。

图13示出了本发明又一实施例提供的一种资产识别方法的服务器资产类归属模型判断示意图。

参照图13,对于新增的未知服务器资产,统计其上的应用用户类型和其他节点的流量包数量,按照同样的方式显示在分布图上,通过和不同质心点之间距离的判断,来自动确认未知资产属于哪一类服务器资产。

举例来说,若判断获知所述第二传输数据在第二空间的位置与app服务器的质心最近,表示与app服务器属于同种资产类型。

本实施例提供的资产识别方法,至少具有以下技术效果:

通过在第二空间设置质心,根据第二传输数据与质心的距离,确定第二传输数据对应的待识别资产属于何种资产类型,由此可达到自动智能化的识别资产所属的资产类型,从而快速、准确的进行资产识别。

图14示出了本发明又一实施例提供的一种资产识别方法的流程示意图。

参照图14,在上述实施例的基础上,所述步骤23之后,可进一步的应用本发明实施例提供的方法对系统内的集群类型进行识别。

可选地,在同一系统中,同种资产类型的资产可构成多个集群,每一集群包括多个资产类型相同的资产。

本发明实施例提供的方法具体包括以下步骤:

步骤31、获取预设时间段内的待识别资产的第三传输数据,所述第三传输数据包括所述待识别资产与同种资产类型的资产之间的传输的数据包数和所述系统内的资产的标识。

可选地,对于待识别资产,基于待识别资产的标识,通过网络包工具获取预设时间段内的待识别资产的第三传输数据。

其中,所述待识别资产可为待识别的服务器,所述数据包数量为待识别的服务器与所述系统中与待识别的服务器属于同种类型的服务器之间传输的数据包的数量,所述系统内的资产的标识可为与待识别的服务器属于同种类型的服务器的编号。

例如,待识别的服务器为app服务器,所述系统中已知的app服务器总量为7,7个app服务器具有对应的服务器标识如编号1-7,获取待识别app服务器分布与7个app服务器进行数据传输的数据包的数量。

网络包工具可获取所述待识别资产与其他资产传输的数据包,对数据包进行分析可得到所述待识别资产与资产传输的资产标识,以及传输的数据包数。

步骤32、将所述第三传输数据映射至第三空间,确定所述第三传输数据在第三空间的位置。

可采用多种数据可视化的方式获得所述第三传输数据在第三空间的位置。可选地,所述第三空间可为二维坐标系,将所述第三传输数据映射至一个二维坐标系的方式可有多种。具体地,可根据所述资产标识,确定所述第三传输数据的横坐标,并根据资产传输的数据包数,确定所述传输数据的总坐标,得到确定所述第三传输数据在第三空间的位置。

步骤33、根据所述第三传输数据在第三空间的位置以及预先确定的集群类型与第三样本传输数据在第三空间的位置的对应关系,确定所述第三传输数据对应的待识别资产的集群类型。

在本步骤之前,获取预先确定的集群类型与第三样本传输数据在第三空间的位置的对应关系,所述对应关系是通过机器学习算法得到的。

可选地,基于待识别资产的系统,通过tcpdump命令抓取指定时间段内经过该服务器网卡的流量包,解析出流量包中和该ip存在关联关系的系统内其他ip,并统计ip之间流量包的数量。

再对解析出的ip和资产数据库进行比对,所述资产数据库是指存储有所有运维部门负责的设备硬件和软件配置信息的数据库,每一个服务器资产都有至少一个ip记录,根据查找表得到已知系统的资产的集群类型。

将已知系统的资产历史数据,作为第三样本传输数据,通过机器学习算法进行训练,得出已知资产的集群归属模型,即每一个资产所属的集群与第三样本传输数据在第三空间的位置的对应关系,将所述第三传输数据在第三空间的位置,与第三样本传输数据在第三空间的位置进行匹配。

例如,第三样本传输数据在第三空间的位置与第一集群类型的资产对应,若所述第三传输数据在第三空间的位置与第一集群的资产的位置匹配,则可确定所述第三传输数据对应的待识别资产归属于第一集群,若不匹配,再与第三空间内第二集群类型的资产的位置进行匹配,以此类推,由此能通过该模型自动判断新的未知资产属于哪一类集群。

本实施例提供的资产识别方法,至少具有以下技术效果:

通过根据待识别资产的第三传输数据,得到所述第三传输数据在第三空间的位置,并根据预先确定的集群类型与第三样本传输数据在第三空间的位置的对应关系,确定所述第三传输数据对应的待识别资产的集群类型,由此可达到自动智能化的识别资产所属的集群类型,从而提高工作效率。

图15示出了本发明又一实施例提供的一种资产识别方法的流程示意图。

参照图15,在上述实施例的基础上,本实施例提供的资产识别方法。所述第三空间具有预先确定的多元拟合曲线,所述多元拟合曲线与预设的集群类型对应,且是根据所述集群的第三样本传输数据确定的。其中,针对业务支撑系统中的某一系统包括多种资产类型,同种类型的资产构成多个集群,对于每一集群在第三空间对应一个多元拟合曲线,所述多元拟合曲线可用于判定待识别资产是否归属于所述多元拟合曲线对应的集群。

所述方法步骤32,确定所述第三传输数据在第三空间的位置的方式可有多种,本实施例举例说明其中一种。

所述方法包括:

步骤32’、获取所述第三传输数据在第三空间的拟合曲线。

对于服务器资产,统计其和关联服务器ip、以及流量包数量,计算拟合曲线fw(x)。

具体地,根据与所述待识别资产传输的资产数量,确定所述第三传输数据的横坐标,并根据所述数据包数量,确定第三传输数据的纵坐标,可根据现有技术中拟合算法,得到确定所述第三传输数据在第三空间的拟合曲线。

举例来说,采用多元拟合算法:

给定某一函数类型y=f(x),以及m个数据点(x,y)的集合,极小化绝对偏差|yi-f(xi)|的平方和,即确定函数y=f(x)中的参数,进行极小化:

式中,函数中的参数作为自变量,绝对偏差的平方和作为目标函数,利用多元函数极值理论就可以解决。

比如:设预期模型的形式为:

y=f(x)=a0+a1x+…+anxn

式中,n是固定的。

通过最小二乘估计即要求极小化(以n=2为例):

s对参数求偏导,令其等于零得到方程:

正规方程组解的矩阵表示:

则正规方程组为:

(aat)a=aty

若aat可逆,正规方程的解为:

a=(aat)-1aty

得到y值,即为所述第三传输数据在第三空间的拟合曲线。

所述方法步骤33,确定所述第三传输数据对应的待识别资产的集群类型的方式可有多种,本实施例举例说明其中一种。

所述方法包括:

步骤331、确定所述第三传输数据的拟合曲线与预先确定的拟合曲线的拟合系数。

步骤332、将拟合系数最大时的拟合曲线对应的集群类型,作为待识别资产的集群类型。

计算第三空间中第三传输数据的拟合曲线和预先确定的拟合曲线的拟合系数。其中,拟合系数越大,说明和哪条曲线越贴近,即归属哪个集群。

通过在第三空间中所述第三传输数据的拟合曲线与预先确定的拟合曲线的拟合系数的计算,可将所述第三传输数据进行分类,确定待识别资产归属于哪一个集群。

在步骤331之前,确定未知资产的资产类型归属后,对于同种资产类型,有多个集群,还需确定属于哪一集群,可基于已知系统的资产历史数据和多元拟合的机器学习算法进行机器训练得出模型,判断未知资产属于哪个集群。

具体地,获取预设时间段内的已知资产的第三样本传输数据,所述第三样本传输数据包括已知资产与集群外资产传输的资产数量,以及传输的数据包数;采用多元拟合算法对所述第三样本传输数据进行训练,确定与预设的集群类型对应的所述多元拟合曲线。

通过多元拟合的机器学习算法,对已知系统集群的流量抓包信息进行实时训练得出模型,实现对新增的未知节点的集群自动判断。

分别统计集群外关联服务器ip与集群内服务器交互流量包数量,然后取均值,再通过多元拟合算法计算得出已知集群的拟合曲线f(x)。

图16示出了本发明又一实施例提供的一种资产识别方法的一个集群的多元拟合曲线示意图。

参照图16,针对系统内的多个集群,对每一集群进行分析处理。获取每一集群与集群外传输的资产的数量,作为第三空间的横坐标,对于每一集群传输的流量包总量,作为纵坐标,可得到每一已知集群在第三空间的多元拟合曲线。

图17示出了本发明又一实施例提供的一种资产识别方法的系统中多个集群多元拟合曲线示意图。

参照图17,用同样的方法,可得出该系统中所有集群的多元拟合曲线f1(x)、f2(x)……fn(x)。

图18示出了本发明又一实施例提供的一种资产识别方法的集群归属模型判断示意图。

参照图18,对于新增的未知服务器资产,统计其传输的资产数量,以流量包数量,按照同样的方式显示在第三空间上。

具体地,统计其和关联服务器ip、以及流量包数量,计算回归曲线fw(x),并和已知集群的回归曲线f1(x)作比对。

通过下述公式计算拟合系数,拟合系数越大,说明和哪条曲线越贴近,即归属哪个集群。

式中,r为拟合系数,n为集群个数,fw(xi)为每条曲线xi对应y值。

本实施例提供的资产识别方法,至少具有以下技术效果:

通过在第三空间设置系统内各集群的拟合曲线,根据第三传输数据与拟合曲线的拟合系数,确定第三传输数据对应的待识别资产归属的集群,由此可达到自动智能化的识别资产所属的集群类型,从而快速、准确的进行资产识别。

图19示出了本发明又一实施例提供的一种资产识别系统示意图。

参阅图19,发明又一实施例提供的一种资产识别系统,所述系统包括流量抓包模块、系统归属判断模块、资产归属判断模块、集群归属判断模块。

其中,流量抓包模块用于基于已知的服务器ip,通过tcpdump命令抓取指定时间段内经过该服务器网卡的流量包,解析出流量包中和该ip存在关联关系的其他ip,并统计ip之间流量包的数量。再对解析出的ip和资产数据库进行比对,找出未知资产,并用统计学的方法,归纳出未知资产和已知资产之间的关系矩阵,如表1。

系统归属判断模块用于基于已知系统的资产历史数据,通过逻辑回归的机器学习算法进行训练,得出已知资产的系统归属模型,并能通过该模型自动判断新的未知资产是否属于该系统。

具体地,系统归属判断模块可运行实现如图1和图2的方法的步骤。

通过逻辑回归算法,对已知系统资产进行机器训练,可训练出如图4的逻辑回归曲线。

对于流量抓包后对比得到的未知资产节点,统计未知节点和其他节点的关联数量和流量包数量,运用以上的系统归属模型可以自动判断是否属于该系统,如图5所示系统归属自动判断。

资产类型判断模块用于确定未知资产的系统归属后,该模块根据系统中已知的各类资产信息和k-means算法进行机器训练得出模型,判断未知资产属于何种资产类型。

具体地,资产类型判断模块可运行实现如图6和图7的方法的步骤。

通过k-means算法,对已知系统资产进行机器训练,具体实现如下:

取6个聚类质心点,分别代表6类服务器资产,统计已知服务器上的应用用户类型,以及和其他节点之间的流量包数量,通过计算确认已知资产的类归属,绘制已知服务器分布图,再对每一类资产重新计算其质心,重复上述过程,直到所有已知服务器资产都归类到图中,可训练出如图12的服务器资产类归属模型。

对于新增的未知服务器资产,统计其上的应用用户类型和其他节点的流量包数量,按照同样的方式显示在分布图上,通过和不同质心点之间距离的判断,来自动确认未知资产属于哪一类服务器资产,如图13所示服务器资产类归属模型判断。

集群归属判断模块用于通过多元拟合的机器学习算法,对已知系统集群的流量抓包信息进行实时训练得出模型,实现对新增的未知节点的集群自动判断。

具体地,集群归属判断模块可运行实现如图14和图15的方法的步骤。

通过多元拟合算法,分别统计集群外关联服务器ip与集群内服务器交互流量包数量,然后取均值,再通过多元拟合算法计算得出已知集群的拟合曲线f(x),可训练出如图16的一个集群多元拟合曲线。

用同样的方法,可得出该系统中所有集群的拟合曲线,如图17所示。

对于新增的未知服务器资产,统计其和关联服务器ip、以及流量包数量,计算拟合曲线fw(x),并和已知集群的拟合曲线f1(x)作比对,计算拟合系数,拟合系数越大,说明和哪条曲线越贴近,即归属哪个集群,如图18所示集群归属模型判断。

本发明实施例提供的资产识别系统,自动抓取资产信息,并和资产数据库进行比对,核查出未知资产信息,再通过机器学习的算法,将未知资产按系统归属、资产归属、集群归属等进行分类识别,更新进系统拓扑图中。具体可用于实现上述方法实施例的方法,本实施例不再赘述。

本实施例提供的资产识别系统,至少具有以下技术效果:

通过机器学习算法自动判定未知资产归属哪个系统、系统中的哪类资产、资产中的哪个集群,减少了人工确认的过程,提高了更新数据的准确性。

图20示出了本发明又一实施例提供的一种计算机设备的结构示意图。

参阅图20,本发明实施例提供的计算机设备,所述计算机设备包括存储器(memory)201、处理器(processor)202、总线203以及存储在存储器201上并可在处理器上运行的计算机程序。其中,所述处理器201、存储器202通过所述总线203完成相互间的通信。

可选地,所述计算机设备还可包括通信接口(communicationsinterface)204,所述通信接口204用于该设备与其他通信设备之间的信息传输。

所述处理器201用于调用所述存储器202中的程序指令,以执行所述程序时实现如图1-2的方法,且还实现如下方法:

所述第一空间具有预先确定的逻辑回归曲线,逻辑回归曲线与预设的系统类型对应,且是根据所述系统的第一样本传输数据确定的,具体为:获取预设时间段内的已知资产的第一样本传输数据,所述第一样本传输数据包括与所述已知资产传输的资产数量和数据包数量;采用逻辑回归算法对所述第一样本传输数据进行训练,确定与预设的系统类型对应的所述逻辑回归曲线。

在另一种实施方式中,所述处理器执行所述程序时实现如图6-7的方法,且还实现如下方法:

所述第二空间具有至少一个预先确定的质心,质心与预设的资产类型对应,且是根据资产的第二样本传输数据确定的,具体为:获取预设时间段内的已知资产的第二样本传输数据,所述第二数据包括与所述系统内已知资产传输的数据包数和所述已知资产的应用用户类型;采用k-means聚类算法对所述第二样本传输数据进行训练,确定与预设的资产类型对应的所述质心。

在另一种实施方式中,所述处理器执行所述程序时实现如图14-15的方法,且还实现如下方法:

所述第三空间具有预先确定的多元拟合曲线,所述多元拟合曲线与预设的集群类型对应,且是根据所述集群的第三样本传输数据确定的,具体为:获取预设时间段内的已知资产的第三样本传输数据,所述第三样本传输数据包括已知资产与集群外资产传输的资产数量,以及传输的数据包数;采用多元拟合算法对所述第三样本传输数据进行训练,确定与预设的集群类型对应的所述多元拟合曲线。

本实施例提供的计算机设备,可用于执行上述方法实施例的方法对应的程序,本实施不再赘述。

本实施例提供的计算机设备,至少具有以下技术效果:

通过所述处理器执行所述程序时实现根据待识别资产的第一传输数据,得到第一传输数据在第一空间的位置,并根据系统类型与第一样本传输数据在第一空间的位置的对应关系,确定待识别资产的系统类型,由此可达到自动智能化的识别资产所属的系统类型,从而提高工作效率。

最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1