物联网边缘计算环境中异常数据的检测方法、装置及设备与流程

文档序号：16887574发布日期：2019-02-15 22:46阅读：346来源：国知局

本发明实施例涉及物联网网络安全技术领域，特别是涉及一种物联网边缘计算环境中异常数据的检测方法、装置、设备及计算机可读存储介质。

背景技术：

物联网为一种按照一定的协议，将任何物品通过信息传感设备与互联网连接起来进行信息交换和共享，以实现智能化识别、定位、跟踪、监控和管理的无处不在的网络，从2009年提出“感知中国”以来，物联网已成为新兴战略性产业。

从安全技术角度出发，针对物联网安全的技术包括以确保自身安全的认证技术，确保安全传输的密钥建立和分发机制，确保数据自身安全的数据加密等。这些技术都是被动的防范，没有对入侵的主动检测能力。而基于入侵检测的物联网安全技术为一种积极主动的防御技术，入侵检测系统主要通过监控整个网络和系统的状态、行为以及系统的使用情况来检测系统用户的越权使用以及系统外部入侵者对网络或系统进行入侵的企图，不仅可以检测来自外部的入侵，还可以监控内部用户的非授权行为。基于入侵检测系统的物联网安全体系作为保障物联网安全的重要体系，已成为当前物联网网络安全的研究热点。

物联网与边缘计算的集成是当前研究热点之一。由于物联网边缘设备之间缺乏信任，不利于将物联网边缘计算作为外包计算服务。

与传统的网络安全认证机制不同，如基于密码学的认证机制只能解决恶意节点发起的外部攻击，但是无法有效地防止由节点被俘引起的内部攻击。信任机制是解决网络内部攻击最有效的方法。通过对服务质量的判断，解决了提供相应访问控制的问题，通过保证所有通信设备在服务合作中都是可信的，使传统的安全服务更加可靠。

物联网边缘计算正在遭受着各种恶意行为，如虚假反馈、恶意攻击和串通作弊。如何准确检测网络数据中的异常数据，进而构建有效的信任计算机制，保证任务的顺利实现，已成为物联网边缘计算应用和系统的热点问题。

技术实现要素：

本公开实施例提供了一种物联网边缘计算环境中异常数据的检测方法、装置、设备及计算机可读存储介质，提高了物联网边缘计算环境中异常数据的检测准确率，有利于入侵节点的精确定位，有利于提升物联网计算边缘计算环境中的物联网设备间信任机制的真实度。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种物联网边缘计算环境中异常数据的检测方法，基于无线传感器网络中的边缘雾节点，包括：

获取非边缘雾节点采集的目标数据，所述目标数据的结构基于预先构建的数据采集模型；

调用预先构建的聚类模型对所述目标数据进行聚类处理，以检测所述目标数据中的异常数据；

其中，所述数据采集模型为预先构建的7元组数据结构，各元组中的数据由相对应的目标数据填充所得，所述数据结构包括类元组、对象元组、代理节点元组、数据信息类型元组、代理节点判定元组、环境信息元组及组数据元组；所述聚类模型用于将输入的数据分类到正常数据簇或异常数据簇。

可选的，所述类元组包括所在簇的簇头节点id、所在簇的节点数量及簇完成的事件；所述对象元组包括传感器节点的id、代理节点的id及代理节点所在簇；所述数据信息类型元组包括发送的消息类型、消息交互的成功率、消息交互对象及接收的消息信号强度指示；所述环境信息元组包括节点剩余的能量、节点的交互次数、节点收集边缘计算环境中的数据；所述组数据元组包括节点加入网络时的组号及节点所在簇。

可选的，在所述调用预先构建的聚类模型对所述目标数据进行聚类处理，以检测所述目标数据中的异常数据之后，还包括：

当所述目标数据中存在异常数据，确定所述异常数据对应的节点设备id，以作为入侵节点。

可选的，在所述调用预先构建的聚类模型对所述目标数据进行聚类处理，以检测所述目标数据中的异常数据之后，还包括：

当所述目标数据中存在异常数据，计算所述异常数据的数据量，并确定所述异常数据所属的第一节点；

计算所述第一节点与待确定信任度的目标节点之间的全部数据量；

判断所述异常数据的数据量与所述全部数据量的比值是否大于预设阈值；

若是，则所述第一节点和所述目标节点不信任；

若否，则所述第一节点和所述目标节点信任。

可选的，所述聚类模型为基于特征权重的全局k-means算法对所述目标数据进行聚类处理；所述特征权重的全局k-means算法为在利用全局k-means算法进行聚类中心的选取过程中，利用lank-means算法确定聚类属性权重的算法。

可选的，在所述获取非边缘雾节点采集的目标数据，所述目标数据的结构基于预先构建的数据采集模型之后，还包括：

判断所述目标数据的数据量是否超过第一预设阈值；

若否，则所述目标数据不需要进行降维处理；

若是，判断所述目标数据的数据量是否超过第二预设阈值；

若所述目标数据的数据量没有超过第二预设阈值，则使用模糊隶属函数对所述目标数据进行降维处理；

若所述目标数据的数据量超过第二预设阈值，则主成分分析算法对所述目标数据进行降维处理。

本发明实施例另一方面提供了一种物联网边缘计算环境中异常数据的检测装置，基于无线传感器网络中的边缘雾节点，包括：

模型构建模块，用于构建7元组数据结构的数据采集模型，各元组中的数据由节点采集相对应的数据填充所得，所述数据结构包括类元组、对象元组、代理节点元组、数据信息类型元组、代理节点判定元组、环境信息元组及组数据元组；

多维度目标数据获取模块，用于获取非边缘雾节点采集的目标数据，所述目标数据的结构基于预先构建的数据采集模型；

异常数据检测模块，用于调用预先构建的聚类模型对所述目标数据进行聚类处理，以检测所述目标数据中的异常数据；所述聚类模型用于将输入的数据分类到正常数据簇或异常数据簇。

本发明实施例还提供了一种物联网边缘计算环境中异常数据的检测设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述物联网边缘计算环境中异常数据的检测方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有物联网边缘计算环境中异常数据的检测程序，所述物联网边缘计算环境中异常数据的检测程序被处理器执行时实现如前任一项所述物联网边缘计算环境中异常数据的检测方法的步骤。

本发明实施例提供了一种物联网边缘计算环境中异常数据的检测方法，无线传感器网络中的边缘雾节点获取一般节点从物联网当前边缘计算环境中采集的已有维度的属性数据，并将其填充至数据采集模型相应的数据元组中，调用预先构建的聚类模型对采集的多维度数据进行聚类处理，实现网络数据中异常数据的检测。其中，数据采集模型为预先构建的7元组数据结构，各元组中的数据由相对应的目标数据填充所得，数据结构包括类元组、对象元组、代理节点元组、数据信息类型元组、代理节点判定元组、环境信息元组及组数据元组；聚类模型用于将输入的数据分类到正常数据簇或异常数据簇。

本申请提供的技术方案的优点在于，在边缘计算的大环境下，由于边缘雾节点的资源与能量都很充足，将异常数据检测计算放在边缘端，而感知层的一般节点仅仅传输和感知数据，不会影响无线节点的生命周期，从而大大的降低了对物联网整体生命周期的影响；基于多维度数据采集模型采集的多维度数据用于异常数据的检测，相比单一信息维度(例如只考虑通信双方的能量或交互成功次数)，可大幅提升物联网边缘计算环境中异常数据检测的准确率，进而有利于入侵节点的精确定位，还有利于提升物联网计算边缘计算环境中的物联网设备间信任机制的真实度。

此外，本发明实施例还针对物联网边缘计算环境中异常数据的检测方法提供了相应的实现装置、设备及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置、设备及计算机可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种物联网边缘计算环境中异常数据的检测方法的流程示意图；

图2为本发明实施例提供的另一种物联网边缘计算环境中异常数据的检测方法的流程示意图；

图3为本发明实施例提供的再一种物联网边缘计算环境中异常数据的检测方法的流程示意图；

图4为本公开根据一示例性实施例示出的物联网边缘计算环境中异常数据的检测方法的流程示意图；

图5为本发明实施例提供的物联网边缘计算环境中异常数据的检测装置的一种具体实施方式结构图；

图6为本发明实施例提供的物联网边缘计算环境中异常数据的检测装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种物联网边缘计算环境中异常数据的检测方法的流程示意图，本发明实施例的执行主语为无线传感器网络中的边缘雾节点，本发明实施例可包括以下内容：

s101：获取非边缘雾节点采集的目标数据，所述目标数据的结构基于预先构建的数据采集模型。

物联网采用雾架构的设计，使得在wsn(wirelesssensornetwork，无线传感器网络)边缘计算环境中，可以把大量的计算转移到雾节点上，进而增强整个系统整体的性能，并且系统的生命周期不会受到较大影响。

多维度目标数据由物联网中除边缘雾节点之外的一般节点例如路由节点、源节点采集，然后在基于底层协议以数据包格式传送至边缘雾节点。

数据采集模型为预先构建的7元组数据结构，各元组中的数据由相对应的目标数据填充所得，数据结构包括类元组、对象元组、代理节点元组、数据信息类型元组、代理节点判定元组、环境信息元组及组数据元组。

数据采集模型的7元组数据结构可定义为：

＜o，c，a，m，r，e，g＞

＝＜n，c,d，f，a，ca，m，v，l，r，i，nr，g，no，j＞。

式中，类元组可定义为c＝＜c，d，f＞，c为簇名，也即簇头节点的id(所在簇的簇头节点id)，d为所在簇的节点数量(或者是簇中传感器的数量)，f为簇完成的事件，也即簇的功能，例如检测温度，湿度等等。

对象元组可定义为o＝＜n，a，ca＞，n为传感器节点的id，a为代理节点的id，ca为代理节点所在簇。

代理节点元组为包含代理节点数据的元组，代理节点为当一个节点死亡后，代替死亡节点继续工作的那个节点。一般的协议均会选择在通信范围内，选择能量最大的节点作为此节点的代理节点。可选的，在节点的信号覆盖范围内，可将能量最大的节点作为代理节点。

数据信息类型元组可定义为m＝＜m，v，l，r＞，m为发送的消息类型，例如为数据信息还是控制信息，本模型所有的数据都是从节点加入网络后开始收集。v为消息交互的成功率，也即消息传输成功的比率。在这段时间内与一个节点交互成功的次数与交互总次数的比例。如果这段时间内，既有数据信息交互，也有控制信息交互，那么m为比例大的信息类型，v的数值为它们的期望值。l为消息交互对象，也即与当前节点(c)交互的节点的id。r为rssi(receivedsignalstrengthindication)，即接收的消息信号强度指示。其中，m和v如此设计对应关系，是考虑到整个数据结构不同元组的制约关系。整个数据结构由7个元组构成，不同元祖、不同属性间有相互制约的关系，这样，若有恶意节点伪造数据(不符合网络实际应用环境的数据)，就可以在对数据聚类的过程中，将伪造数据识别为异常数据(这样设计7元组，使得不同元组之间相互制约，单独改变一些属性数据，可被识别为异常数据。

代理节点判定元组为判断当前节点是否为代理节点，可定义为r＝＜i＞，取值范围可为(0，1)。

环境信息元组可定义为e＝＜nr，q，no＞，指sensor节点母板上的物理参数和应用环境的数据。其中，nr为节点剩余的能量，q为节点的交互次数，no为节点收集边缘计算环境中的数据，与类元组中的f(簇中完成的功能，也就是作为sensor节点，负责收集环境中的什么种类的信息)相呼应，反应这类信息的数值。

组数据元组可定义为g＝＜j，c＞，可包括节点加入网络时的组号及节点所在簇。在t/4这段时间内，加入网络的节点为一个组，组号为ti。可用于表示对象即所处理节点是新加入的还是之前就在网络里的。如果之前就在网络里，那么j为-1。

s102：调用预先构建的聚类模型对目标数据进行聚类处理，以检测目标数据中的异常数据。

聚类模型用于将输入的数据分类到正常数据簇或异常数据簇，此处的聚类模型可对输入的目标数据进行两类别的聚类，即判断多维目标数据中哪些维度的数据是异常数据，哪些维度的数据为正常数据。

聚类模型的建立和数据的聚类实现过程可参见相关技术的描述，此处，便不再赘述，本申请对采用的聚类模型的类型不做任何限定。

在本发明实施例提供的技术方案中，在边缘计算的大环境下，由于边缘雾节点的资源与能量都很充足，将异常数据检测计算放在边缘端，而感知层的一般节点仅仅传输和感知数据，不会影响无线节点的生命周期，从而大大的降低了对物联网整体生命周期的影响；基于多维度数据采集模型采集的多维度数据用于异常数据的检测，相比单一信息维度(例如只考虑通信双方的能量或交互成功次数)，可大幅提升物联网边缘计算环境中异常数据检测的准确率，进而有利于入侵节点的精确定位，还有利于提升物联网计算边缘计算环境中的物联网设备间信任机制的真实度。

在采集的边缘计算环境中的网络数据中存在异常数据时，表明有不受任何的节点入侵，为了定位入侵节点，基于上述实施例，请参阅图2，还可包括：

s103：判断目标数据中是否有异常数据，若是，则执行s104。

s104：确定异常数据对应的节点设备id，以作为入侵节点。

从多维度目标数据中找出异常数据后，根据异常数据的数据类型(也即这些数据在数据采集模型中的数据元组类型)在网络中确定相应的节点设备id，定位的这个节点设备即为入侵节点，从而实现入侵检测。由于异常数据检测时，考虑多维度信息，大幅提高了异常数据检测的准确度，进而有效的提升整个物联网的安全性。根据异常数据定位入侵节点的实现过程，可参阅相关技术的描述，此处，便不再赘述。

相关技术在建立物联网的信任机制时，多采用基于多源反馈信息融合的iot边缘设备可靠、轻量级的信任计算机制，例如d-to-d直接信任：设备dj到设备di的直接信任，是一种设备完成请求任务能力的量化值，其基于两个设备之间的历史交互记录。b-to-d反馈信任：来自代理节点bk到节点设备dj的反馈信任，是一种基于代理的客观计算的评级。在数据计算(或转发)任务完成之后，代理节点bk将计算节点设备dj实时信任。当另一个节点设备di请求代理节点bk，代理节点bk将值发送给请求者(di)。d-to-d总体信任：设备完成要求的任务能力的量化价值(该设备是信任评估的对象)。总体信任计算是基于直接信任，以及代理的反馈信任。

尽管可很好的利用了节点间的空间关系，但是最底层的信任度计算的标准(即在计算信任度时，所谓的正面评分总数与负面评分总数)所用的数据维度为一维(即只用了节点通信的通信次数)。这样，对于实际应用环境的描述太少，也缺欠真实性，导致建立的信息机制真实度较差。鉴于此，本申请基于上述实施例，请参阅图3，还可包括：

s105：计算异常数据的数据量。

s106：异常数据确定的节点为第一节点，计算第一节点与待确定信任度的目标节点之间的全部数据量。

目标节点和第一节点之间可为已经建立信任机制但需要进行重新确定二者之间的信任关系的，或者是二者之间还没有建立信任关系的，这均不影响本申请的实现。

两个节点之间建立信任关系所需的全部数据可参见相关技术的描述，此处，便不再赘述。

s107：判断异常数据的数据量与全部数据量的比值是否大于预设阈值，若是，则执行s108；若否，则执行s109。

本领域技术人员可根据实际的物联网整体运行环境、各外界设备的数量及各自参数等来确定阈值，本申请对此不做任何限定。

举例来说，异常数据的数据量为a，第一节点与目标节点之间的全部数据量为n，若a/n＞1/4，则异常数据占整体数据太多，二者之间的信任度较低，可为二者建立不信任关系，反之，则可为二者建立信任关系。

s108：第一节点和目标节点不信任，为第一节点和目标节点建立不信任关系。

s109：第一节点和目标节点信任，为第一节点和目标节点建立信任关系。

通过对物联网中各节点之间通过本申请的技术方案进行信任关系的建立，便可根据节点间的直接信任和间接信任来建立整个网络的全局信任机制了。

由于异常数据检测时，考虑多维度信息，大幅提高了异常数据检测的准确度，进而有效的提升整个物联网的信任机制的真实度。

为了进一步提升异常数据检测的准确度，还可通过提升聚类模型的聚类效果来实现。可选的，聚类模型可为基于特征权重的全局k-means算法对目标数据进行聚类处理；特征权重的全局k-means算法为在利用全局k-means算法(globalk-means，gkm)进行聚类中心的选取过程中，利用lank-means算法(lkm)确定聚类属性权重，从而得到更加准确和稳定的聚类结果的算法。

law-k-means(lkm)算法为基于k-means的一种局部属性权重方法，为了确定目标属于哪一类，该算法采用权重差异测试方法来建立每一类的重要属性组。

基于特征权重的全局k-means算法训练得到的聚类模型的实现过程可参阅下述过程：

lkm试图最小化样本与聚类中心间的差异测量，lkm的目标函数如式所示：

且满足：

0≤wl,j≤1，1≤l≤k，1≤j≤n；

1≤j≤n；

0≤λl,i≤1，1≤l≤k，1≤i≤m；

1≤l≤k。

式中，n，k，m分别代表一组数据的个数，类数和维度。wl,j代表第j个样本数据属于第l个类别的隶属度权重大小，λl,i代表第i维样本属性对应第l个类别的作用权重大小。β是一个大于1的参数(例如可取1.8)。zl,i代表第l个聚类中心数据的第i维数据属性的数值。xj,i代表第j个样本数据的第i维样本属性的数值。w＝[wl,j]代表一个k*n的整数矩阵，z＝[z1,z2,......zk]代表k个聚类中心，λ＝[λl,i]代表一个k*n的实数矩阵。d(zl,i，xj,i)表示一个相似性测量，可表示聚类中心zl和样本数据xj关于第i维属性的相似性测量。d(zl,i，xj,i)可通过计算欧氏距离得到的。

其中，在上述公式中有三个未知的变量w，z和λ，可采用部分优化的方式进行逐步的优化。因此，每步中都包括三个未知变量的优化，可通过最小化准则函数进行优化，实现过程可如下所述：

首先固定未知变量w，z和λ，的计算如下所示：

然后固定w和λ，更新聚类中心的方法与k-means算法更新的方法是一致的，最终的公式如下所示：

最后固定w和z，权重矩阵λ通过下面公式计算得到，该公式的推导过程中可应用拉普拉斯乘子技术对目标函数进行优化：

重复该过程直到准则函数的目标值不再减小为止，结束整个算法。

假设有一组数据集x＝{x1，x2,......xn}，xi∈r^d，(i＝1，2，…，n)，将这组数据集划分到k个类别中(z1，z2，…，zk)，即为聚类问题。其中解决此类聚类问题最为经典的算法是k-means算法，k-means算法将类聚类问题转化为最优化问题，通过求解目标函数的最小化问题，来确定最终的聚类中心。其中目标函数为每个样本数据和聚类中心数据的欧式距离总和。通常为了分析方便，聚类的准则函数别称为“聚类错误”或者聚类目标函数值，公式如下所示：

其中，xi代表每一组数据；zk代表所选取的第k个聚类中心；f(z1...zk)是最后计算出的函数值，值越小，代表选取的聚类中心越好；如果数据xi∈zk，则w(x)＝1，否则为0。

gkm算法首先解决仅聚为一类(k＝1)的问题，此时最优的聚类中心位于所有数据的质心位置，即z1＝mean(x)。在已经求出了k(k>1)类问题的结果之后，便可通过以下方式求解(k+1)类聚类问题：(z1，…，zk)表示已经求出的k类问题的最优解，设置初始位置为(z1，…，zk，xi)，(i＝1，2，…，n)执行n次k-means算法得出的最优结果所对应的聚类中心就是(k+1)类聚类问题的初始最优解(z1，…，zk，zk+1)。然后执行k-means算法优化初始解(z1，…，zk，zk+1)直到结果不再改善为止。通过采用上面的方法最终能够得到k类问题的最优解，同时也得到了聚为(k<k)类时的最优解。算法通过一个确定有效的全局搜索来最小化聚类错误函数，故其性能因为不受聚类中心初始位置的影响而非常稳定。

为了能够更好的解决多维数据中的聚类问题，克服lkm算法对初始聚类中心的极度敏感性，发挥其在特征权重计算上的优势，同时考虑到gkm算法的稳定性，可结合了lkm算法的维度属性的权重计算和gkm算法的聚类框架，从而提出了基于特征权重的全局k-means算法，有效地提高了多维数据聚类的稳定性和正确性。

基于特征权重的全局k-means算法实现过程如下所示：

1、初始化k＝1；β＝1.8；

2、利用lkm算法得到第(k+1)类的初始最优聚类中心。

(z1，…，zk)和(λ1，…，λk)己经计算得到，(z1，…，zk)是聚类问题的最优聚类中心，然后从数据集xi(i＝1，2，…，n)中选择第k+1类的初始聚类中心。

利用下述公式更新wli，1＜＝l＜＝k+1：

初始化然后将已经确定(z1，…，zk，xi)，(w1，w2，…，wk+1)和[λ1，…，λk，λk+1]带入下述公式：

其中，在数据集xi(i＝1，2，…，n)中，能够使聚类错误值j最小的数据点就是第k+1类的聚类初始最优中心，即zk+1＝xi。

3、利用lkm算法更新(k+1)类聚类问题的聚类中心(z1，…，zk，zk+1)：

更新wli，1＜＝l＜＝k+1。

更新zli，1＜＝l＜＝k+1。

更新λli，1＜＝l＜＝k+1。

通过将(z1，…，zk，xi)，(w1，w2，…，wk+1)和[λ1，…，λk，λk+1]代入到目标函数中，更新聚类错误值，得到j^t，t为lkm算法在执行时迭代的次数，初始化迭代次数可为1。

判断是否满足|j^t-j^t-1|＜＝10e-4，如果结论成立转向步骤4，否则执行下述步骤，优化聚类中心，直到满足跳出条件，同时更新t＝t+1。

4、判断是否满足k+1＞k，如果满足，则算法结束，否则执行2，同时更新k＝k+1。

由上可知，在gkm算法每次进行聚类中心的选取过程中，引入lank-means算法，不仅可求得聚类中心，而且确定了聚类属性权重，最终得到了更加准确和稳定的聚类结果，从而有利于提升异常数据检测的准确度。

由于各节点间存在一定的制约关系，通过对采集的目标数据进行鉴别，可去除一部分错误的数据，举例来说：(1)每个数据元组中簇头节点的id(c)与代理节点所在簇(ca)在绝大多数情况下，应该是相同的，不同的情况为：

该节点处在簇的边缘，且与其相邻的簇外节点为该节点临近节点中能量最大的；

该节点是入侵节点；

数据在传输过程中有噪音干扰。

(2)每个元组中簇所完成的功能(f)与该节点发送消息的类型(m)应该一致，即绝大部分发送消息的类型为数据信息，而极小部分为控制信息。不同的情况为：

(m)为控制信息的部分为：

该节点为簇头节点(即n与c相同)；

此节点刚刚加入网络(即j为这段时间内，所有数据包中最大的)；

该节点是入侵节点；

数据在传输过程中有噪音干扰。

(3)同一个簇中完成事件功能(f)与环境中，senser所监控的数据(no)应一致，这表明，在网络中，同一簇的节点完成同一个簇头节点分发下来的任务，这样带来的约束还有(4)，不同情况为：

该节点是入侵节点；

数据在传输过程中有噪音干扰。

此节点刚刚加入网络(即j为这段时间内，所有数据包中最大的)；

(4)交互对象(l)所在的簇的簇头(c)都相同，因为它们所在同一簇；不同情况为：

该节点是入侵节点；

数据在传输过程中有噪音干扰。

此节点刚刚加入网络(即j为这段时间内，所有数据包中最大的)；

将感知的数据路由到网关节点。这时交互双方其中之一必定是簇头节点，而另一个为另一个簇的普通节点或簇头节点。

(5)在一段时间内，母板上能量(nr)的差值，与母板的信息传递次数(q)成正比。即信息传递次数越多，能量消耗越大，而不会出现信息传递少，能量消耗大；或者信息传递多，能量消耗少的情况。不考虑数据包在传递过程中的噪声影响，针对信息传递次数越多，能量消耗越大的情况，解释为此节点是入侵节点，除了在应用网络中承担节点功能外，它还向网络外的攻击者传递网络中的信息；信息传递多，能量消耗少的情况，解释为该节点是入侵节点，它在强行让自己成为簇头节点和代理节点，恶意的消耗此节点的能量，或者在伪造信息，隐瞒自身泄密的事实。因为随着节点交互次数的增多，母板上所用的能量增多，剩余能量会很少，交互信息还会带来约束有(6)；不同情况为：

该节点是入侵节点；

数据在传输过程中有噪音干扰。

(6)交互对象(l)所对应得数据元组(即n等于l的数据元组)，其中的l、nr、q与约束(5)是相似的，并且约束(5)与约束(6)，因为是数据交互双方，所以整体上保持相一致性。

可以将这些数据筛选出来单独处理，这样目标数据的范围缩小，异常数据检测将会更准确。

请参见图4，图4为本发明实施例提供的另一种物联网边缘计算环境中异常数据的检测方法的流程示意图，本发明实施例例如可应用于无线传感器网络边缘计算应用系统中，可包括以下内容：

s401：获取非边缘雾节点采集的目标数据，目标数据的结构基于预先构建的数据采集模型。

s402：判断目标数据的数据量是否超过第一预设阈值，若否，则执行s406，若是，则执行s403。

若目标数据的总体数据的数量较小，例如网络中节点不足100个，可直接进行后续聚类计算。

s403：判断目标数据的数据量是否超过第二预设阈值，若是，则执行s405，若否，则执行s404。

若目标数据的总体数据量处于中等范畴，例如网络中节点数量范围在100至500之间，则使用主成分分析算法对目标数据进行降维处理，而后进行聚类计算；

若目标数据的总体数据量庞大，例如网络中节点数量大于500个，则使用模糊隶属函数对目标数据进行降维处理。

s404：使用模糊隶属函数对目标数据进行降维处理。

s405：使用主成分分析算法对目标数据进行降维处理。

s406：调用预先构建的聚类模型，基于特征权重的gkm算法对目标数据进行聚类处理，以检测目标数据中的异常数据。

s407：根据用户的需求判断执行入侵节点检测还是建立信任机制，若进行入侵节点检测，则执行s408，若进行信任机制建立，则执行s409。

s408：确定异常数据对应的节点设备id，以作为入侵节点。

s409：计算异常数据的数据量及异常数据所属第一节点与与待确定信任度的目标节点之间的全部数据量。

s410：判断异常数据的数据量与全部数据量的比值是否大于预设阈值，若是，则执行s411；若否，则执行s412。

s411：第一节点和目标节点不信任，为第一节点和目标节点建立不信任关系。

s412：第一节点和目标节点信任，为第一节点和目标节点建立信任关系。

可对目标数据进行降维处理，以减少输入聚类模型中的目标数据的维度，加快对异常数据的判别。但是，由于降维处理后减少了数据维度，也代表损失了一部分现实的信息。

主成分分析(principalcomponentanalysis，pca)为将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中，为了全面分析问题，往往提出很多与此有关的变量(或因素)，因为每个变量都在不同程度上反映这个课题的某些信息。

在用统计分析方法研究多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，将重复的变量(关系紧密的变量)删去多余，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

可采用f1(选取的第一个线性组合，即第一个综合指标)的方差来表达，即var(f1)越大，表示f1包含的信息越多。因此在所有的线性组合中选取的f1应该是方差最大的，故称f1为第一主成分。如果第一主成分不足以代表原来p个指标的信息，再考虑选取f2即选第二个线性组合，为了有效地反映原来信息，f1已有的信息就不需要再出现在f2中，用数学语言表达就是要求cov(f1，f2)＝0，则称f2为第二主成分，依此类推可以构造出第三、第四，……，第p个主成分。

采用主成分方法对目标数据进行降维的算法流程可如下所述：

目标数据的数据结构为：

∑＝＜n，c,d，f，a，ca，m，v，l，r，i，nr，g，no，j＞

＝＜s1,s2,s3,s4,s5,s6,s7,s8,s9,s10,s11,s12,s13,s14,s15,＞

＝＜o1,o2,...＞^t

对数据结构∑进行中心化：

数据标准化(归一化)处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

计算∑的协方差矩阵∑^t；

对∑^t进行特征值分解；

取出最大的n个特征值对应的特征向量，标准化后，得到特征向量矩阵；

对si，转化为新的数据zi＝∑t*oi，这样便得到降维后的数据。

针对有标签的目标数据，也即采集到的数据明确清楚哪些数据元组为入侵节点的，采用模糊隶属函数降维数据可参阅下述描述：

假设目标数据为表格中所述，process为节点的id，systemcall为目标数据的属性，decision为入侵节点的标签：

表1目标数据信息表

计算属性systemcall，即s(i)属于decisiond(d)的后验概率：

式中，pr(x)指后验概率；d(d)为标签类型normal(正常)或者abnormal(异常)。

s(i,j)为目标数据中第i行第j列的数据，例如：

定义后验概率向量，计算不同的后验概率的相似度：

c(j)＝[c(j,1),c(j,2),...c(j,d)]

上述公式用于对属性s(j)相对于标签d(这里标签要用到所有的)后验概率的形式转化，方便后面模糊隶属函数的书写。s(j)指数据中第j个属性，d(i)表示第i种标签。pr表示后验概率。

模糊隶属函数：

式中，δ^c为选择性误差，例如δ^c＝0.5，μ^d为对应于标签d的模糊隶属函数值，c(i)与c(j)为属性i、j对应于所有标签的后验概率；pr为后验概率。

对本申请的数据结构进行聚类，以此达到降维的目的。假设已有一部分s(i)聚类成m(g)，计算他们的相似性。

式中，m(g)为已经聚类好的簇的聚类中心m(g)组成的向量；g表示聚类中心的个数；d为数据中所有标签组成的向量；|d|表示d中标签的个数，也是标签号；c(j)表示属性j对应标签向量d中所有标签的后延概率；μ^g(c(j)，m(g))表示计算g个已有测聚类簇的聚类中心与c(j)的模糊隶属函数值(即相似度)。m(g)为得到的一些不同属性的聚类结果。这里指一个聚类中心组成的向量，d为标签的向量，μ^g为后延概率c(j)对应于已有聚类g的模糊隶属函数。

初始的属性簇产生后，可更新每个簇的期望和标准差。然后再与新的属性向量聚合，看新的属性向量属于那一个簇。

式中，m(g)＝[m(g，1)，m(g，2)，…，m(g，d)]＝m^d(g)，为已聚类的簇g标记成标签d的均值，μ^d表示相对于标签向量d的模糊隶属函数值。

使用下述公式计算针对给定的标签d，目标数据的元组数据与待分类簇之间的相似度：

式中，m^f(g，d)为最后一次更新后聚类结果的均值，su为聚类结果产生后更新的选择性误差。

由上可知，本公开解决了相关技术在入侵检测和信任机制的建立方面使用数据维度单一的问题，使用多维数据，对设备所在的应用环境有更加具体和真实的描述。并且在边缘计算的大环境下，把大多数的计算量转移到边缘端雾节点上，进而不会影响无线节点的生命周期，不会明显影响网络的生命周期。

本发明实施例还针对物联网边缘计算环境中异常数据的检测方法提供了相应的实现装置，进一步使得所述方法更具有实用性。下面对本发明实施例提供的物联网边缘计算环境中异常数据的检测装置进行介绍，下文描述的物联网边缘计算环境中异常数据的检测装置与上文描述的物联网边缘计算环境中异常数据的检测方法可相互对应参照。

参见图5，图5为本发明实施例提供的物联网边缘计算环境中异常数据的检测装置在一种具体实施方式下的结构图，基于无线传感器网络中的边缘雾节点，该装置可包括：

模型构建模块501，用于构建7元组数据结构的数据采集模型，各元组中的数据由节点采集相对应的数据填充所得，数据结构包括类元组、对象元组、代理节点元组、数据信息类型元组、代理节点判定元组、环境信息元组及组数据元组。

多维度目标数据获取模块502，用于获取非边缘雾节点采集的目标数据，目标数据的结构基于预先构建的数据采集模型。

异常数据检测模块503，用于调用预先构建的聚类模型对目标数据进行聚类处理，以检测目标数据中的异常数据；聚类模型用于将输入的数据分类到正常数据簇或异常数据簇。

可选的，在本实施例的一些实施方式中，请参阅图6，所述装置还可以包括：

入侵节点定位模块504，用于当所述目标数据中存在异常数据，确定所述异常数据对应的节点设备id，以作为入侵节点。

在另外一些实施方式中，所述装置例如还可以包括信任机制构建模块505，所述信任机制构建模块505可包括：

异常数据量计算子模块，用于当目标数据中存在异常数据，计算异常数据的数据量，并确定异常数据所属的第一节点；

全部数据量计算子模块，用于计算第一节点与待确定信任度的目标节点之间的全部数据量；

判断子模块，用于判断异常数据的数据量与全部数据量的比值是否大于预设阈值；

不信任关系建立子模块，用于当异常数据的数据量与全部数据量的比值大于预设阈值，第一节点和目标节点不信任；

信任关系建立子模块，用于当异常数据的数据量与全部数据量的比值不大于预设阈值，则第一节点和目标节点信任。

此外，所述装置例如还可以包括数据降维模块506，所述数据降维模块506可包括：

降维判断子模块，用于判断目标数据的数据量是否超过第一预设阈值；

降维方法鉴别子模块，用于当目标数据需要降维(即目标数据的数据量超过第一预设阈值)，判断目标数据的数据量是否超过第二预设阈值；

主成分分析降维子模块，用于当目标数据的数据量超过第二预设阈值，则使用主成分分析算法对目标数据进行降维处理；

模糊隶属函数降维子模块，用于当目标数据的数据量没有超过第二预设阈值，则使用模糊隶属函数对目标数据进行降维处理。

可选的，在本实施例的另一些实施方式中，所述模型构建模块501例如还可以为类元组包括所在簇的簇头节点id、所在簇的节点数量及簇完成的事件；对象元组传感器节点的id、代理节点的id及代理节点所在簇；数据信息类型元组包括发送的消息类型、消息交互的成功率、消息交互对象及接收的消息信号强度指示；环境信息元组包括节点剩余的能量、节点的交互次数、节点收集边缘计算环境中的数据，组数据元组包括节点加入网络时的组号及节点所在簇的模块。

在本实施例的一些其他实施方式中，所述装置还可以包括错误数据提取模块507，用于根据节点间的制约关系，提取目标数据中的错误数据。

本发明实施例所述物联网边缘计算环境中异常数据的检测装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

由上可知，本发明实施例提高了物联网边缘计算环境中异常数据的检测准确率，有利于入侵节点的精确定位，有利于提升物联网计算边缘计算环境中的物联网设备间信任机制的真实度。

本发明实施例还提供了一种物联网边缘计算环境中异常数据的检测设备，具体可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上任意一实施例所述物联网边缘计算环境中异常数据的检测方法的步骤。

本发明实施例所述物联网边缘计算环境中异常数据的检测设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，存储有物联网边缘计算环境中异常数据的检测程序，所述物联网边缘计算环境中异常数据的检测程序被处理器执行时如上任意一实施例所述物联网边缘计算环境中异常数据的检测方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种物联网边缘计算环境中异常数据的检测方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴晓鸰;于龙海
技术所有人：广东工业大学
我是此专利的发明人

上一篇：可视化模块编程系统及其控制方法与流程
上一篇：医用引流装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。