一种在大数据挖掘中传感器采集非结构化数据的方法

文档序号:9667405阅读:1032来源:国知局
一种在大数据挖掘中传感器采集非结构化数据的方法
【技术领域】
[0001] 本发明涉及大数据挖掘领域,尤其涉及一种在大数据挖掘中传感器采集非结构化 数据的方法。
【背景技术】
[0002] 继计算机、互联网之后,物联网的出现带来了信息领域的第三次浪潮,根据美国研 究机构Forrester预测,物联网所带来的产业价值将比互联网大30倍,物联网将成为下一 个万亿元级别的信息产业业务。作为一个新兴学科,物联网受到了越来越多的关注,成为全 球信息领域的焦点。一个简单的物联网结构如图1所示,前端有传感器,后端有数据中心。 传感器把采集到的结构化数据和非结构化数据都上传到数据中心,在物联网结构中数据中 心存储的数据达到PB,EB,ZB,将来甚至到达YB。根据IT调研公司IDC的预测,到2015年, 全球的数字数据量大约会达到7. 9ZB。在这些大数据中80%的数据为非结构化数据(比如: 图像,声音,影视等),而仅仅不到20%的数据是结构化数据(比如:数字,符号等)。对于 结构化数据,传统的搜索方式只需服务器根据关键字进行简单的查找搜索即可得到结果。 但是在非结构化数据管理中,如果要查找数据,目前的方法大多是通过一些复杂的算法,筛 选出一些相关的信息。相对于传统的根据关键字查找的方式来说,非结构化数据管理中在 查找数据时,不仅花费了大量的时间,同时也产生了大量的功耗。
[0003] 为了降低在非结构化数据中查找数据的时间,一种方式是通过开发更好的算法, 另一种方式是提高服务器的性能。对于第一种方式来说,随着时间的推移,数据中心存储的 数据容量越来越大,也就意味着要频繁的开发新的算法才能到达降低时间的目的,由此就 需要大量的研发经费。对于第二种方式来说,高性能的服务器大多来自于欧美一些国家,而 在这些高性能的服务器中又可能存在着"后门",如果服务器中存放的有保密数据,那么这 些数据有被盗取的风险。
[0004] 因此,本领域的技术人员致力于开发一种在大数据挖掘中传感器采集非结构化数 据的方法,使得传感器采集的非结构化的数据结构化,以便于大数据挖掘。

【发明内容】

[0005] 有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何降低在非结构化 数据中查找数据的时间。
[0006] 为实现上述目的,本发明提供了一种在大数据挖掘中传感器采集非结构化数据的 方法,包括下列步骤:
[0007] S1、提供第一类传感器,用于采集非结构化数据;提供第二类传感器,用于采集结 构化数据;数据中心,用于存储所述非结构化数据和/或所述结构化数据;提供数据采集设 备,所述数据采集设备包括微控制器,所述微控制器用于处理所述第一类传感器和/或所 述第二类传感器采集到的数据,所述数据采集设备中至少包括一个所述第二类传感器;提 供本地存储,用于存储所述非结构化数据和/或所述结构化数据;
[0008]S2、所述第一类传感器采集非结构化数据,存储于所述本地存储或上传到数据中 心保存;
[0009]S3、所述第二类传感器在特定触发条件下采集结构化数据,存储于所述本地存储, 或上传到数据中心;所述结构化数据的数据结构为记录,每一条记录包括采集的数据,和/ 或来自所述微控制器或所述数据中心对该数据采集设备做出的响应和相应时间戳的结构 化数据;
[0010]S4、通过搜索匹配所述数据采集设备中的所述第二类传感器采集的结构化数据记 录,得到相应的时间戳;
[0011]S5、所述数据中心的处理器或所述数据采集设备中的微控制器按照所述时间戳直 接调出由所述第一类传感器采集到的所述非结构化数据中拥有相同时间戳的数据。
[0012] 进一步地,所述第一类传感器包括摄像装置、拾音装置。
[0013] 进一步地,所述第二类传感器包括温度传感器、湿度传感器、气体传感器、震动传 感器。
[0014] 进一步地,所述结构化数据包括温度、湿度、气体。
[0015] 进一步地,所述非结构化数据包括视频、声音。
[0016] 进一步地,所述特定条件包括静止影像至动态影像的变换、温度阈值、湿度阈值、 气体浓度。
[0017] 本发明提出一种在大数据挖掘中传感器采集非结构化数据的方法,在本发明中前 端的数据采集设备如图2所示,微控制器用来处理传感器采集到的数据,在该设备中至少 包含一个传感器。
[0018] 数据采集设备中的传感器分为两类:
[0019] a.具有实时性采集功能(第一类传感器)。这一类传感器采集的数据大多是一些 图片,声音,视频等第一类非结构化数据,需要大容量的存储器来存储。所以传感器把采集 到的数据上传到数据中心或存放在本地存储器。
[0020] b.具有触发性采集功能(第二类传感器)。这一类传感器被设置为当外界环境到 达设定的触发值时,传感器才开始采集数据。传感器没触发时,为了节省功耗处于休眠状 态。这类传感器采集的数据大多是一些诸如气体浓度,外界温度等结构化数据。由于该类 传感器记录的数据容量非常小,可以存放在本地的存储器上,也可以上传到数据中心。
[0021] 当前端数据采集设备的第二类传感器被触发后,传感器开始采集数据m,前端数据 采集设备并同时把当前的时间m记录下来,其记录的数据如表格1所示。
[0022]
[0023]表格1
[0024] 然后,把采集到的数据和时间信息,即Time Stamp存储在本地的存储器上,或者是 上传到数据中心。前端数据采集设备的微控制器或者数据中心的处理器对采集到的数据会 进行处理,并立即做出响应,处理器或者微控制器做出的响应记录如表格2所示。
[0025]
[0026] 表格 2
[0027] 由以上所述可知,在本发明中前端的数据采集设备不仅实时采集到了非结构化的 大数据,同时根据设定的触发值采集了一些小容量的结构化数据并记录下了时间,而且微 控制器或者是处理器做出的响应也被记录了下来。
[0028] 本发明提出的一种在大数据挖掘中传感器采集非结构化数据的方法,其原理在于 先通过搜索匹配根据前端数据采集设备中的第二类传感器采集并记录的结构化数据,通过 查找匹配得到相应的时间戳。然后后端数据中心的处理器或数据采集设备中的微控制器按 照时间戳直接调出由第一类传感器采集到的非结构化大数据中拥有相同时间戳的数据。如 果在对结构化数据查找匹配时得到多个满足查找条件的时间戳,在本发明中可以对这些查 找匹配出的第二类传感器采集并记录的结构化数据设定优先级,然后后端数据中心根据优 先级由时间戳对非结构化数据进行查找调取。每一条记录包括采集的数据,和/或来自所 述微控制器或所述数据中心对该数据采集设备做出的响应和相应时间戳的结构化数据。整 个流程如图3所示。<
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1