一种物联网分析方法与流程

文档序号:11155557阅读:966来源:国知局
一种物联网分析方法与制造工艺
本发明涉及大数据领域,特别是一种物联网分析方法。
背景技术
:随着物联网技术的不断发展,基于物联网的视频、卡口、门禁、停车场、Wifi、IC卡等物联网的信息资源智能化采集成为了可能,利用多网络、多终端的智能数据感知采集模式收集海量的时空信息资源。针对上述物联网技术发展,如何利用大数据实现公安工作效能提升,是目前大数据应用的热点、也是研究的热点问题。因此需要提供一种能够完成对该时空信息数据进行分析处理的系统。技术实现要素:本发明的目的在于克服现有技术的缺点与不足,提供了一种物联网分析方法。本发明通过以下的方案实现:一种物联网分析方法,包括以下步骤:S1:接收物联网设备终端的时空数据;S2:将接收的数据转换为统一格式的数据;S3:对数据进行分布式存储;S4:对数据进行过滤;S5:对数据进行关联规则进行数据挖掘,获得时空关联数据;S6:存储经过数据挖掘的时空关联数据和物联网设备终端的时空数据。进一步,所述步骤S2中,具体为:将物联网设备终端的数据转换为xml文件。进一步,所述步骤S4中包括以下步骤:S41:将重复的冗余数据进行过滤;S42:根据业务需要对数据进行过滤;S43:根据设定的时间范围进行数据过滤。进一步,所述步骤S5包括以下步骤:S51:处理数据挖掘所采用的训练数据的信息;S52:对数据挖掘模型的算法进行训练;S53:验证模型输出结果;S54:对测试成功的模型进行运行;S55:对模型输出结果进行输出展示。进一步,所述步骤S51中包括以下步骤:S511:确定训练数据所包含的属性信息;S512:训练数据的各个维度统一离散到[0,1]的取值范围;S513:确定进行模型结果验证的参数。进一步,所述步骤S54中包括以下步骤:S541:设置任务名称、执行方式、开始执行时间和资源占用,并保存在任务列表中;S542:根据任务列表,按时运行模型任务;S543:在模型运行中进行监控,包括监控当前任务中的信息、当前任务运行状态、反馈信息以及任务运行历史记录。进一步,所述执行方式包括:立即执行、定时执行和周期执行。进一步,所述S55中具体包括以下步骤:S551:将数据结果结合形成数据集,并存储在数据资源池中;S552:将分析结果推送封装为发布服务接口。进一步,所述步骤S6中,当对物联网设备终端的时空数据进行存储时,按照网点编号,存储每个网点的空间数据和属性数据;所述空间数据包括:网点位置和坐标;所述属性数据包括:设备类型、采集信息类型、采集信息的频率和采集信息的空间覆盖范围。进一步,所述步骤S6中,还根据空间和时间分析,确定每个物联网网点的时空依赖关系,并进行储存。相比于现有技术,本发明提供了一种分析方法,可以利用这些时空数据,从时间和空间两个维度梳理、挖掘、分析其时空关联关系。将海量、杂乱的时空数据,按照其内部的时空关系、时空关联规则进行存储,为公安的情报分析、犯罪挖掘、案件侦破提供线索、拓展情报分析手段、提高破案率、辅助警务策略的制定等,提供精准、科学、高效的大数据支持依据。为了更好地理解和实施,下面结合附图详细说明本发明。附图说明图1是本发明的时空关系分析方法的步骤流程图。图2是本发明的数据转换的处理流程图。图3是步骤S4的具体步骤流程图。图4是步骤S5的具体步骤流程图。图5是步骤S51的具体步骤流程图。图6是步骤S54的具体步骤流程图。图7是步骤S55的具体步骤流程图。图8是主要设计的关系表及关系表属性结构示意图。图9是对象时空关系管理关系表结构图。图10是对象分类关系管理关系表结构图。具体实施方式以下结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。请参阅图1,其为本发明的时空关系分析方法的步骤流程图。一种物联网分析方法,包括以下步骤:S1:接收物联网设备终端的时空数据。具体的,以公安侦查中常用的物联网设备终端为例,所接收的物联网设备终端可以包括监控视频、门禁系统、WiFi、IC卡和停车场监控视频等。S2:将接收的数据转换为统一格式的数据。由于智能采集网点物联网终端采集设备的多样性,必然存在数据异构的问题。本发明的数据转换模块旨在将不同终端设备采集到海量数据统一到一致的格式标准之下,便于系统的后续处理。而为了将不同数据统一为相同的格式标准,本实施例中采用的为xml格式文件。而目前在互联网领域,已存在一个广泛应用的数据交换接口标准XML(ExtensibleMarkupLanguange扩展标记语言)。XML文件的可读性极强。具体的请同时参阅图2,其为本发明的数据转换的处理流程图。在制定好XML文件的格式标准之后,根据不同的智能终端设备感知层协议,编写相应的接口,就可以把相应智能终端设备的数据转换为系统统一识别的XML文件。而在本实施例中,所采用的的系统xml文件格式规范如下表1所示:表1节点名称说明device设备属性name代表名称,coordinate代表坐标times监控时间表time监控时刻INFOS获取信息列表INFO获取信息,属性name为信息唯一标识S3:对数据进行分布式存储。在本发明中,采用云计算中的Hadoop分布式框架进行分布式数据处理。由于Hadoop分布式文件系统HDFS是以支持大数据集合为目标的,故利用HDFS对物联网产生的异构海量数据进行分布式存储。S4:对数据进行过滤。在本发明中,根据具体需求,采用基于Spark编程模型的Hive分布式数据仓库对智能终端采集的数据进行数据清洗过滤、删除兀余信息。进一步请参阅图3,其为步骤S4的具体步骤流程图。所述步骤S4中包括以下步骤:S41:将重复的冗余数据进行过滤。对于待清洗数据,首先进行异常冗余数据的检验,这里主要对于数据是否完全重复且基于服务的数据长度是否一致进行判断。S42:根据业务需要对数据进行过滤。这里应与具体支撑应用平台密切相关,在数据挖掘模型的具体应用中,业务需求可能只包括某一限定范围的信息。例如可以定义以下几个规则:只选定某个型号的智能终端的数据,产品号及版本号等信息;限定具体时间,地点以及应用人及相关信息。对于可能存在异常的孤立数据进行业务判定。对于不匹配的数据进行过滤处理。S43:根据设定的时间范围进行数据过滤。根据数据的时间记录进行过滤,可以根据业务要求指定时间范围。对不在该时间范围的数据进行过滤。S5:对数据进行关联规则进行数据挖掘,获得时空关联数据。时空数据挖掘的过程分三个阶段:时空数据的准备阶段、时空数据的挖掘阶段和时空数据结果的解释和评估阶段。进一步同时参阅图4,其为本发明的步骤S5的具体步骤流程图。所述步骤S5包括以下步骤:S51:处理数据挖掘所采用的训练数据的信息。这里主要应用在前期的数据准备阶段。进一步请参阅图5,其为本发明的步骤S51的具体步骤流程图。进一步,所述步骤S51中包括以下步骤:S511:确定训练数据所包含的属性信息;S512:训练数据的各个维度统一离散到[0,1]的取值范围;S513:确定进行模型结果验证的参数。一般训练样本分为训练数据和验证数据两个部分,直接用验证数据去验证训练出来的模型效果。S52:对数据挖掘模型的算法进行训练。在本实施例中,所采用的训练模型见下表2所示:表2以下针对上述表格中的5中算法模型进行具体的介绍,具体如下:第一、时空关联关联规则(AssociationRules)的概念首先由R.Agrawal等人于1993年提出的,是反映一个事物与其他事物之间的相互依赖性或相互关联性。关联规则数据挖掘(简称关联规则挖掘)就是从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识。随着收集和存储的数据规模越来越大,特别是类似于Hadoop这样的分布式数据处理系统的诞生,使得数据处理的规模呈指数及增长,人们对从这些数据中挖掘相应的关联规则越来越感兴趣,关联规则挖掘也倍受数据挖掘领域专家的关注,得到了深入的研究和发展。时空关联规则的理论是在关联规则的基础之上发展而来,特制那些既有空间约束又有时态约束的关联规则。其主要意义在于研究空间对象随时间变化的规律,以发现海量时空数据中处于一定时间间隔的空间位置的关联规则。本发明中所采用的算法为:目前关联规则挖掘算法中最为流行的是Apriori算法。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,其实现过程主要分为两个步骤:1.依据支持度找出所有频繁项集(频度)2.依据置信度产生关联规则(强度)Apriori算法的应用非常广泛,但其所挖掘的关联规则一般都假定为永远有效。针对时空关联规则挖掘,需要在算法中加入时间约束和空间约束。其基本思路是将含有时间约束和空间约束的数据源首先按照空间位置进行整理,生成信息一地址对,然后根据Apriori算法生成侯选集,由侯选项集生成频繁项集,直到频繁项集不能生成更长的侯选为止。再把时间因素加入进去,将时间区间用一个适宜的推广因子进行推广,得出相应的含有地址约束的项目与扩展时间区间的元素对,当(项目一地址)对落入相同的推广时间区间内,则产生关联规则,即含有时空约束的关联规则。第二、时空同现时空同现模式挖掘是针对复杂时空数据提取同现模式的过程。时空同现模式是在同位模式的基础上添加了时空符合兴趣度形成的模式。空间同位模式是从地理空间中发现的那些频繁的且紧密相邻的空间特征的集合,同位规则试图将关联规则泛化为空间索引的点集合数据集。时空同现模式就是在时空维下,不同对象类型子集的实例在一些时间段中在空间上是相互邻近的(或符合某种空间关系的)。同现模式是在同位模式的基础上,提出时空复合兴趣度的概念作为同现模式的判断标准。时空复合兴趣度是将空间兴趣度和时间兴趣度相结合本发明采用的算法为:依据时空同现模式挖掘的基本理论,要进行时空同现模式的挖掘,首先需要挖掘同一时间段内的同位模式。空间同位模式数据挖掘方法依然是基于Apriori算法思想。其基本思路为:1、遍历计算空间内不同特征类型下,每两个实例(分属于不同的特征类型)之间的期望距离(初步将期望距离定义为欧氏距离)。以任意两个实例间的期望距离为例,可分别计算出实例一的不确定点群到实例二中心点的期望距离,和实例二的不确定点群到实例一中心点的期望距离。2、这两个实例间的期望距离便是这两个期望距离中的最大值。若实例间的期望距离小于等于距离阈值,则把该实例对作为候选实例对。遍历所有类型下的所有实例对,直至不再产生候选实例对。得到所有的候选实例对之后,便需要计算候选实例对中每种特征类型所对应的空间参与度。在得出模式的空间参与度之后,同空间参与度阈值做比较,若前者大于等于后者,那么该模式即为空间同位模式。在确定所有的空间同位模式后,再计算时空同现模式。先计算空间同位模式的时间参与度,若大于等于时间参与度阈值,则该模式为时空同现模式。第三、时空聚类时空聚类就是指基于空间和时间相似度把具有相似行为的时空对象划分到同一组中,使组间差别尽量大,而组内差别尽量小。时空聚类分析能够更好地发现和分析地理现象发展变化的规律与本质特征并预测其发展趋势。时空聚类分析是一种非监督分类的方法,它依据判断相似性准则将所有时空实体划分成一系列时空簇。同一时空簇内,对象之间的差异要尽量小于不同时空簇的对象间的差异。我们采用时空密度聚类的算法来进行基于智能采集网点的时空聚类分析。时空密度聚类是空间密度聚类在时空域上的扩展,其采用密度作为实体间相似性的度量标准,将时空簇视为一系列被低密度区域(噪声)分割的高密度连通区域。DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据集中发现任意形状的聚类。DBSCAN中的几个定义:E邻域:给定对象半径为E内的区域称为该对象的E邻域;核心对象:如果给定对象E邻域内的样本点数大于等于MinPts,则称该对象为核心对象;直接密度可达:对于样本集合D,如果样本点Q在P的E邻域内,并且P为核心对象,那么对象Q从对象P直接密度可达;密度可达:对于样本集合D,给定一串样本点Pi,Pv...Pn,P=P1,假如对象Pi从Pi-l直接密度可达,那么对象Q从对象P密度可达;密度相连:存在样本集合D中的一点0,如果对象0到对象P和对象Q都是密度可达的,那么P和Q密度相联ST-DBSCAN聚类是DBSCAN聚类在时间维上的扩展。扩展的方面是:E邻域扩展为时空邻域;直接密度可达扩展为时空直接密度可达。除了时空邻域定义的改变,顾及非空间属性的ST-DBSCAN聚类还需要定义算法中的其他概念:时空对象、属性差函数判定阈值e、时空直接密度可达、时空核心对象判定阈值MinPts等第四、时空分类时空分类主要是基于时空对象特征构建分类模型来预测时空对象所属类别或所在具体空间位置。与时空聚类不同,时空分类是一种监督分类算法。是以建立统计识别函数为理论基础,依据典型样本训练方法进行分类的技术。即根据已知训练区提供的样本,通过选择特征参数,求出特征参数作为决策规则,建立判别函数以对各待分类数据进行分类。适用于监督分类的算法很多,如SVM支持向量机、BP神经网络、贝叶斯统计、决策树建模等。针对智能采集网点时空数据的数值多样性的特征,我们考虑采用BP神经网络算法构建监督分类的预测模型。BP神经网络首先构造一个包含输入层、输出层和隐藏层的多层网络结构。其中输入层为经处理的智能网点时空特征数据,输出层为时空数据的目标类别。其基本特征包括:1、网络中每个神经元包含一个连续可微的非线性激活函数2、网络展示高度的连接线,其强度由网络的突触权值确定BP神经网络应用反向传播的方法,训练网络的各个突触权值。训练过程分为如下两个阶段:1、前向阶段:网络的突触权值是固定的,输入信号在网络中一层层传播,直到达到突出端。2、反向阶段:通过比较网络的输出和期望输出产生的误差信号,将误差信号再次通过网络一层层传播,并对网络的突触权值进行不断的修正第五、时空轨迹频繁人们感兴趣的是从一个时空序列里发现频繁重复的路径,即时空轨迹频繁模式。这些轨迹频繁重复模式能协助完成关于移动对象的分析、预测等任务,进而可将其应用于经营商业、旅游业和管理城市交通等方面的决策。除了对轨迹数据之外,序列挖掘对象还包括诸如时空事件数据集等其他时空数据,在这些事件数据集中不包含对象的轨迹数据,而是由不同类型事件序列组成的集合。通过扫描时空数据库产生映射图和轨迹信息列表,在映射图上进行深度优先遍历以寻找频繁轨迹模式。许多移动对象(包括交通工具、动物、移动电话用户等),在固定的时间区间内总是遵循相同或近似相同的路线,展现出一定的周期性规律,这些周期模式不仅可用于压缩移动数据,还可用来预测对象未来的移动方向,这种周期模式隐含在时空数据中需要挖掘才能发现。根据现有频繁模式挖掘的理论成果,采用一种基于后缀树的时空轨迹频繁模式挖掘算法结合DBSCAN算法较为符合物联网时空数据关联挖掘的项目需求。后缀树是一种数据结构,能快速解决很多关于字符串的问题。时空轨迹频繁模式挖掘可以转换为频繁序列模式的挖掘,而后缀树作为一种数据结构,可以存储序列数据并且其查询性能较好。通过对后缀树进行改进使其可以存储兴趣区域序列和时间信息,而且可以减少数据的存储,并可以增量挖掘轨迹模式。算法实现的具体步骤为:首先通过后缀树挖掘出候选的轨迹频繁模式,然后进一步对产生的结果进行挖掘,通过聚类的方式提取出带有停留时间的频繁模式。对于轨迹化,Tb定义轨迹间的距离,若二者有着不同的置序列,则距离为正无穷,若二者之间有着相同的位置序列,则计算其距离。最后通过基于密度的DBSCAN算法迸行轨迹频繁项聚类。S53:验证模型输出结果。本步骤主要对已保存的模型作验证,通常采用训练样本数据集交叉验证的方法,验证数据模型是否符合训练数据的期望输出。S54:对测试成功的模型进行运行。进一步请参阅图6,其为本发明的步骤S54的具体步骤流程图。所述步骤S54中包括以下步骤:S541:设置任务名称、执行方式、开始执行时间和资源占用,并保存在任务列表中。进一步,所述执行方式包括:立即执行、定时执行和周期执行。S542:根据任务列表,按时运行模型任务;S543:在模型运行中进行监控,包括监控当前任务中的信息、当前任务运行状态、反馈信息以及任务运行历史记录。S55:对模型输出结果进行输出展示。进一步请同时参阅图7,其为步骤S55的具体步骤流程图。进一步,所述S55中具体包括以下步骤:S551:将数据结果结合形成数据集,并存储在数据资源池中。其中,有权限的用户可直接到资源池中查询查看。S552:将分析结果推送封装为发布服务接口。该推送的内容可以为预警内容。这里的预警推送方式可以通过与当前分析总线进行对接,将分析结果中预警信息推送封装为预警发布服务接口,各警种业务系统可调用该接口,查询数据挖掘分析推送发布的结果数据集。S6:存储经过数据挖掘的时空关联数据和物联网设备终端的时空数据。进一步,所述步骤S6中,当对物联网设备终端的时空数据进行存储时,按照网点编号,存储每个网点的空间数据和属性数据;所述空间数据包括:网点位置和坐标;所述属性数据包括:设备类型、采集信息类型、采集信息的频率和采集信息的空间覆盖范围。进一步请同时参阅图8,其为主要设计的关系表及关系表属性结构示意图。所述步骤S6中,还根据空间和时间分析,确定每个物联网网点的时空依赖关系,并进行储存。所述关系数据库模块还根据空间和时间分析,确定每个物联网网点的时空依赖关系,并进行储存。本发明中利用空间邻接分析,结合时间服务半径,确定每个物联网点间的时空依赖关系,并按其时空依赖关系存储物联网点间关系,为物联网感知数据处理、数据挖掘做准备。另外,所述关系数据库模块在对经过数据挖掘的时空关联数据进行储存时,包括以下两种情况:第一、对象时空关联关系存储请参阅图9,其为对象时空关系管理关系表结构图。以感知对象人、车为例,从人、地、车、时间四个维度描述对象的时空关系。主要关系分为:1、人员时空行为挖掘与存储。2、车辆时空行为挖掘与存储。3、人员与车辆时空关系挖掘与存储。4、人员与人员时空关系挖掘与存储。5、车辆与车辆时空关系挖掘与存储。第二、对象分类关系存储请参阅图10,其为对象分类关系管理关系表结构图。对象分类关系存储主要管理某一时间段内、针对某一具体警情时间所做的聚类分析、分类分析结果。相比于现有技术,本发明提供了一种分析系统,从而利用这些时空数据,从时间和空间两个维度梳理、挖掘、分析其时空关联关系。将海量、杂乱的时空数据,按照其内部的时空关系、时空关联规则进行存储,为公安的情报分析、犯罪挖掘、案件侦破提供线索、拓展情报分析手段、提高破案率、辅助警务策略的制定等,提供精准、科学、高效的大数据支持依据。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1