配电房物联网中设备类型识别方法与流程

文档序号:25437437发布日期:2021-06-11 21:55阅读:96来源:国知局
配电房物联网中设备类型识别方法与流程
本发明属于配电房物联网领域,涉及一种配电房物联网中设备类型识别方法。
背景技术
:在配电房物联网环境中,大量的传统设备在进行数字化改造时几乎没有配置防护能力,影响了整个系统的安全性和可靠性。同时设备类型识别作为进行物联网安全防护的重要基础,大部分物联网的安全连接都是建立在准确的设备类型识别之上,因此高效的、精确的设备类型识别方法十分有必要。机器学习算法已经广泛被利用在设备识别的分类场景中,然而机器学习的方法需要大量的数据作为支撑。在一个新的环境中,如果利用通过之前环境数据训练出来的模型,当前可以通过在线学习的方法,根据反馈数据实时快速地对模型进行调整,让模型适应新环境的变化来提高模型的准确率。但是对于已经存在的在线学习方法,一方面,以批处理的方法获取训练数据并更新模型,在模型的训练过程中会极大地占用系统资源,并且模型的更新很难具有实时性,另一方面,在模型刚开始搭建在新的环境中时,也难以让模型在刚部署的阶段有一个实时稳定的分类效果。技术实现要素:本发明所要解决的技术问题是克服上述现有技术存在的缺陷,提供一种配电房物联网中设备类型识别方法,以获得设备最终的类型判别,实现快速发现、实时响应、准确定位配电房物联网中设备。为此,本发明采用如下的技术方案:配电房物联网中设备类型识别方法,其步骤包括:对于通过镜像和经过交换机的流量,采用旁路解析生成流量日志;根据用户指定ip范围,利用探针服务器进行主动扫描,根据不同的传输协议,主动向网络中设备发送不同的协议指令,获取网络中设备的详细信息并生成流量日志;利用本地文件的日志数据采集器主动检测流量日志更新,根据更新的日志信息生成日志流输入到流处理模型中;在流处理模型中,根据得到的设备信息,按照不同设备的mac地址对数据进行划分,首先将mac地址作为设备的唯一标识,然后对与该mac地址相关的数据进行整理建指纹表,表中数据作为该设备的指纹;当新的日志进入设备指纹表中时,若日志中相关的mac地址在表中已经存在,则对mac地址对应的设备指纹特征进行改动,若日志相关的某个mac地址在表中不存在,则通过日志中mac地址相关的数据生成新的设备指纹;之后,将新生成或有所改动的设备指纹以流的形式,分别传入设备画像流处理模型以及机器学习流处理模型中;结合设备画像流处理模型以及机器学习流处理模型,对物联网设备指纹进行分析,从而获得设备最终的类型判别。为了让流处理模型一开始便具备更高的准确率,并且可以在反馈数据增加的时候不断提升模型的性能,本发明结合了设备画像和在线学习搭建了新的学习模型,并且利用流处理的方法。本发明抓取流量日志,利用流处理的方法在日志中实时地进行指纹提取,在日志流中,创建多个流处理功能模块对流数据进行处理和分析,最终利用设备画像流处理模块和机器学习流处理模块联合对设备指纹进行分析,从而获得设备最终的类型判别。进一步地,在流处理的流程中,首先对不同的日志信息进行筛选:针对http、ssl、smb、mqtt、dns、dhcp、onvif网络协议日志,分析日志,提取类型判断需要用到的特征,确定以下的特征值作为类型判定的依据:onvif协议、流量进出比、源ip常访问端口、目的ip监听端口、dns注册域名、源ip常用的软件包、user_agent用户代理。进一步地,当设备指纹流入设备画像流处理模型中,对设备指纹进行分析认定,采用一维指纹特征和多维指纹特征相结合的方法,优先采用一维特征判定,其次采用多维特征判定。进一步地,若场景中需要识别的设备类型有n个,分别为d1,d2,…,dn,则设备画像流处理模型最终输出命中每一类型设备的概率为进一步地,对于进入机器学习流处理模型中的设备指纹数据,首先利用特征工程的方法,对其进行筛选和处理,其中特征处理包括数据清洗、数据规范化和特征衍生与提取;特征筛选采用过滤法、包装法和嵌入法;然后搭建相应的机器学习流处理模型。进一步地,所述的机器学习流处理模型的搭建包括模型选择和在线学习;所述的模型选择:通过对比模型对特征分布的要求、模型的鲁棒性、模型的资源消耗情况、模型的可更新性、模型的样本外准确率,选择基于boosting和树形模型的xgboost;所述的在线学习:针对有用户交互的场景,在基础的模型预测功能外,添加在线学习的特性,当模型判断的设备类型与用户的预期不符时,用户通过在交互页面上简单地更新设备的类型,从而一方面修正该设备的设备类型,另一方面更新模型。更进一步地,所述的模型更新逻辑如下:1)判断用户是否更新了设备的类型;2)若用户更新了设备类型,记录该设备不同时间段的特征;3)当特征数据积累到一定程度,在原模型的基础上,进一步训练模型,且提高最新特征数据的权重;4)保存训练好的新模型,并将新模型应用到后续的预测中;训练模型后,通过模型判断不同的设备,输出命中每一类型设备的概率进一步地,得到两个流处理模型的判断概率后,采用一种基于学习等级的权重配置方法对两个模型得到的概率结果进行投票,从而得到命中每一个设备的概率。进一步地,设定机器学习流处理模型针对不同设备类型识别的模型成熟度为:在模型部署到一个新的环境中后,按照不同设备的数据规模,对于不同的设备,设定阈值如在线学习阶段统计不同设备相关的训练数据数量则在一开始将模型成熟度初始化为(0,1)区间中的随机数或0.5,然后在每次在线学习中,更新每一个最后结合两个流处理模型,对物联网设备类型进行判断,输出命中每一类型设备的最终概率为:式中,为命中每一类型设备的最终概率。本发明具有的有益效果:本发明为了让流处理模型一开始便具备更高的准确率,并且可以在反馈数据增加的时候不断提升模型的性能,本发明结合了设备画像和在线学习搭建了新的学习模型,并且利用流处理的方法。本发明在配电房的物联网环境中,提供了一种快速发现、实时响应、准确定位物联网设备的分类方法。附图说明图1为本发明配电房物联网中设备类型识别方法的流程图。具体实施方式下面将结合具体实施方式和说明书附图对本发明技术方案作进一步具体说明。本实施例提供一种配电房物联网中设备类型识别方法,其步骤如下:对于通过镜像和经过交换机的流量,采用旁路解析生成流量日志。根据用户指定ip范围,利用探针服务器进行主动扫描,根据不同的传输协议(常见的有tcp、udp等,或私有协议hikvision等),主动向网络中设备发送不同的协议指令,获取网络中设备的详细信息并生成流量日志。利用本地文件的日志数据采集器(filebeat)主动检测流量日志的更新,根据更新的日志信息生成日志流输入到流处理模型中。在流处理模型中,根据得到的设备信息,按照不同设备的mac地址对数据进行划分,首先将mac地址作为设备的唯一标识,然后对与该mac地址相关的数据进行整理建指纹表,表中数据作为该设备的指纹;当新的日志进入设备指纹表中时,若日志中相关的mac地址在表中已经存在,则对mac地址对应的设备指纹特征进行改动,若日志相关的某个mac地址在表中不存在,则通过日志中mac地址相关的数据生成新的设备指纹;之后,将新生成或有所改动的设备指纹以流的形式,分别传入设备画像流处理模型以及机器学习流处理模型中。结合设备画像流处理模型以及机器学习流处理模型,对物联网设备指纹进行分析,从而获得设备最终的类型判别。在流处理的过程中,首先对不同的日志信息进行筛选:针对http,ssl,smb,mqtt,dns,dhcp,onvif等网络协议日志,分析日志,提取类型判断需要用到的特征,最终确定了以下的特征值作为类型判定的依据:onvif协议、流量进出比、源ip常访问端口,目的ip监听端口,dns注册域名,源ip常用的软件包、user_agent用户代理。dhcp:通常mac地址可以与厂商对应上,厂商旗下的设备也是非常鲜明,如厂商为apple,inc.生产的设备绝大多数是pc和手机,厂商为hangzhouh3ctechnologiesco.,limited生产的设备为ipc(网络摄像机)和nvr(网络硬盘录像机),将该字段进行onehot编码后可以作为特征之一。http:useragent原始字段包含了设备的操作系统等信息,可以作为判断依据之一,而且还可以从原始字段解析出类型,如ssh:server和ssh:client等,对于cs架构的服务判断有帮助,再从服务判断设备类型,针对以上信息进行离散化处理。根据以上得到的设备信息,按照不同设备的mac地址对数据进行划分,首先将mac地址作为设备的唯一标识,然后对与该mac地址相关的数据进行整理建指纹表,表中数据作为该设备的指纹;当新的日志进入设备指纹表中时,若日志中相关的mac地址在表中已经存在,则对mac地址对应的设备指纹特征进行改动,若日志相关的某个mac地址在表中不存在,则通过日志中mac地址相关的数据生成新的设备指纹;之后,将新生成或有所改动的设备指纹以流的形式,分别传入设备画像流处理模型以及机器学习流处理模型中。当设备指纹流入设备画像流处理模型中后,对设备指纹进行分析认定,采用一维指纹特征和多维指纹特征相结合的方法,优先采用一维特征判定,其次采用多维特征判定。其中一维特征的例子:在onvif协议中,源ip如果是作为onvif的发起方,将其设备类型判定为nvr的概率是100%,目的ip的设备类型100%为ipc;二维特征的例子:根据当前流量进出比进行类型判定,设定当前设备流入流量为ti,当前设备流出流量为to,则流量进出比设定对于ti/o的设备画像权重表为:ti/o命中的设备赋予的权值[0,1)ipc6[1,10)server4[10,+∞)nvr6此时需要额外的特征值进行进一步加权命中,例如选择监听端为37777/8000,则添加权重5为大华的nvr,多特征权重越大,越能最终确定设备的具体类型,此为多维特征特征筛选。针对用到的协议,进一步抽象和总结协议内容,不同的设备类型会包含特有的协议,如web服务器涉及的协议有http、ssl等,db服务器涉及的协议有smb等。数据包的大小是重要特征之一,在同一时间段内,在不存在白噪声的情况下,每种类别的设备,流量流入流出趋于稳定,且在数值上有一定区别,此外,数据流量的进出比也可以抽象为特征,缩小数值在量纲上的影响。目标ip被访问端口可以与协议详解,补充协议广泛性的缺点,对于具体端口会运行特定的服务,通过服务可以反映出设备类型,如镜像流量中一台设备的被访问端口为80端口,在该端口上很大可能运行的是web服务,因此该设备大几率是一台web服务器,所以针对此特征,对该设备命中web服务器赋予一个较大的权值,而被访问端口为554端口的设备,大几率是一台ipc或nvr,所以对该设备命中ipc和该设备命中nvr赋予一个较大的权值。若场景中需要识别的设备类型有n个,分别为则设备画像流处理模型最终输出命中每一类型设备的概率对于进入机器学习流处理模型中的设备指纹数据,首先利用特征工程的方法,对其进行筛选和处理,其中特征处理包括数据清洗、数据规范化、特征衍生与提取等;特征选择利用到了过滤法、包装法、嵌入法等,然后搭建相应的机器学习模型。模型选择通过对比模型对特征分布的要求、模型的鲁棒性、模型的资源消耗情况、模型的可更新性、模型的样本外准确率等特征,最终选择了基于boosting和树形模型的xgboost。在线学习针对有用户交互的场景,在基础的模型预测功能外,添加了在线学习的特性。当模型判断的设备类型与用户的预期不符时,用户可通过在交互页面上简单地更新设备的类型,从而一方面修正该设备的设备类型,另一方面更新模型。模型更新逻辑如下:1.判断用户是否更新了设备的类型;2.若用户更新了设备类型,记录该设备不同时间段的特征;3.当特征数据积累到一定程度,在原模型的基础上,进一步训练模型,且提高最新特征数据的权重;4.保存训练好的新模型,并将新模型应用到后续的预测中。在线学习的特性可让模型不断学习所在环境的特点,以使模型能更准确地预测设备的类型;同时,该特性也使得模型可以学习训练集范围外的设备类型,从而达到传统模型无法做到的训练集标签外预测。训练模型后,通过模型判断不同的设备,输出命中每一类型设备的概率得到两个流处理模型的判断概率后,设计一种基于学习等级的权重配置方法,对两个模型得到的概率结果进行投票,从而得到命中每一个设备的概率。首先设定机器学习流处理模型针对不同设备类型识别的模型成熟度为:在模型部署到一个新的环境中后,按照不同设备的数据规模,对于不同的设备,设定阈值(默认为500)。如在上述在线学习阶段统计不同设备相关的训练数据数量则在一开始的时候将模型成熟度初始化为(0,1)区间中的随机数(或0.5),然后在每次上述在线学习中,更新每一个即,通过数据的不断流入,机器学习流处理模型针对每个不同类型设备的成熟度将随着该类型数据量的增加而不断提升,从而在最终决策中获得更大的影响力,最终结合两个流处理模型,对物联网设备类型进行判断,输出命中每一类型设备的概率为:本发明中所描述的具体实施例仅仅是对本发明精神所举例说明。本发明所属
技术领域
的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但不会偏离本发明的精神或者超越所附权利要求书所定义的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1