基于物联网的数据分析方法

文档序号:8512603阅读:335来源:国知局
基于物联网的数据分析方法
【技术领域】
[0001] 本发明涉及物联网,特别涉及一种基于物联网的数据分析方法。
【背景技术】
[0002] 物联网实现了用户对信息的传感、收集与感知。但利用物联网进行信息交换与通 信的过程中会产生海量的数据如射频数据、传感器数据等,这些数据不断的增多加大了用 户从中获取有用信息的难度。为了提高物联网的数据处理功能,现有技术结合应用云计算、 大数据技术,构建百万计算机集群的云模式,以分布式计算技术与存储机制,增强物联网的 计算功能。然而,现有的物联网在面对海量业务数据方面仍然不够快速地进行分析、处理、 存储、挖掘,从而无法实现有价值信息的快速提取,物联网商业决策因此尚未得到最快的服 务。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于物联网的数据分析方 法,包括:
[0004] 利用主程序来进行控制与管理数据分析的策略,向计算节点传送算法实现计算, 将Map/Reduce的数据处理策略存储在策略存储节点中;
[0005] 利用分布式存储扫描数据库,查找频繁项集所获得的关联规则,在各个计算节点 中并行进行扫描处理,获得各计算节点上的局部频繁项集,然后利用主程序将实际的全局 的支持度、频繁项集统计与确定出来,主程序经过汇总生成最终结果并反馈给用户。
[0006] 优选地,所述获得各计算节点上的局部频繁项集,进一步包括:
[0007] (1)以固定大小的数据集为一个单位进行分配,将数据层的数据库水平均匀划分 成η个子集,将其发送到m个工作节点;
[0008] (2)将每个候选项集X的支持度的初始值设置为1,每个工作节点扫描各自分配到 的子集,产生一个包含候选1-项集到候选K-项集的集合CP ;
[0009] (3)预先定义分区函数,将m个工作节点生成的候选1-项集到候选K-项集分成r 个不同的分区,连同各自的支持度发送到r个节点;各节点把同一项集的支持度累加,得到 各项集的最终支持度,将其与设定的最小支持度的累加数进行比较,删除支持度小于所述 最小支持度的累加数的项集,确定一个局部的频繁项集集合Lp ;
[0010] (4)合并所有节点的结果,生成全局的频繁项集集合L ;
[0011] (5)根据预设的最小置信度遍历频繁项集,得到强关联规则。
[0012] 优选地,所述步骤(1)到步骤(5)利用Map/Reduce来实现,其中Map/Reduce的操 作过程包括:
[0013] (1)将数据层的数据库水平划分成η块,把η个数据子集发送到m个执行Map任务 的节点,由主程序负责调度,将处理任务分配给处于空闲列表中的工作程序; _4] (2)格式化η个数据子集,产生(ID,Val)对,其中ID表示数据库中的事务ID,Val 为相应事务ID对应的列表值;
[0015] (3)Map函数对输入的每个(ID,Val)进行扫描,生成一个局部候选1-项集到候 选k-项集的集合CP,每个候选项集的累计支持度初始值设置为1,Map函数输出中间结果 (Item_set,1)对,其中Item_set表示CP中的候选项集;
[0016] (4)在每个执行Map函数的工作程序上增加预定义的可选的分区函数,将Map函数 产生的中间结果进行合并,输出中间键值对(Item_set,sup),sup表示Item_set在数据子 集中的支持度的累加值,然后利用散列函数
【主权项】
1. 一种基于物联网的数据分析方法,用于处理物联网中的射频标签数据,其特征在于, 包括: 利用主程序来进行控制与管理数据分析的策略,向计算节点传送算法实现计算,将 Map/Reduce的数据处理策略存储在策略存储节点中; 利用分布式存储扫描数据库,查找频繁项集所获得的关联规则,在各个计算节点中并 行进行扫描处理,获得各计算节点上的局部频繁项集,然后利用主程序将实际的全局的支 持度、频繁项集统计与确定出来,主程序经过汇总生成最终结果并反馈给用户。
2. 根据权利要求1所述的方法,其特征在于,所述获得各计算节点上的局部频繁项集, 进一步包括: (1) 以固定大小的数据集为一个单位进行分配,将数据层的数据库水平均匀划分成η 个子集,将其发送到m个工作节点; (2) 将每个候选项集X的支持度的初始值设置为1,每个工作节点扫描各自分配到的子 集,产生一个包含候选1-项集到候选K-项集的集合CP ; (3) 预先定义分区函数,将m个工作节点生成的候选1-项集到候选K-项集分成r个不 同的分区,连同各自的支持度发送到r个节点;各节点把同一项集的支持度累加,得到各项 集的最终支持度,将其与设定的最小支持度的累加数进行比较,删除支持度小于所述最小 支持度的累加数的项集,确定一个局部的频繁项集集合Lp ; (4) 合并所有节点的结果,生成全局的频繁项集集合L ; (5) 根据预设的最小置信度遍历频繁项集,得到强关联规则。
3. 根据权利要求2所述的方法,其特征在于,所述步骤(1)到步骤(5)利用Map/Reduce 来实现,其中Map/Reduce的操作过程包括: (1) 将数据层的数据库水平划分成η块,把η个数据子集发送到m个执行Map任务的节 点,由主程序负责调度,将处理任务分配给处于空闲列表中的工作程序; (2) 格式化η个数据子集,产生(ID,Val)对,其中ID表示数据库中的事务ID,Val为 相应事务ID对应的列表值; (3) Map函数对输入的每个(ID,Val)进行扫描,生成一个局部候选1-项集到候选k-项 集的集合CP,每个候选项集的累计支持度初始值设置为1,Map函数输出中间结果 set,1)对,其中Item_set表示CP中的候选项集; (4) 在每个执行Map函数的工作程序上增加预定义的可选的分区函数,将Map函数产生 的中间结果进行合并,输出中间键值对(Item_set,sup),sup表示Item_set在数据子集中 的支持度的累加值,然后利用散列函数:(?]?〇Α η j=i 其中Hi1Iik为K-项集中的项在数据库的项集中对应的序号,按升序排列,r为划分的不 同分区的数目,将分区函数产生的(Item_set,sup)分成r个分区,主程序将各分区分配到 对应的Reduce函数; (5) Reduce节点读取分区函数提交的键值对(Item_set,sup),对其进行排序及合并 后,形成(Item_set,list (sup)),再进行相应Reduce操作,得到各候选项集在D中的实际 支持度累加数,保留所有大于等于最小支持度累加数SUPjnin的候选项集,即局部频繁项 集的集合LP ;合并!个分区中Reduce函数输出的项集,得到最终的频繁项集的集合L ; (6)当完成全部的Map操作和Reduce操作后,主程序激活用户程序,Map/Reduce返回 到相应的调用点。
【专利摘要】本发明提供了一种基于物联网的数据分析方法,该方法包括:利用主程序来进行控制与管理数据分析的策略,向计算节点传送算法实现计算,将Map/Reduce的数据处理策略存储在策略存储节点中;利用分布式存储扫描数据库,查找频繁项集所获得的关联规则,在各个计算节点中并行进行扫描处理,获得各计算节点上的局部频繁项集,然后利用主程序将实际的全局的支持度、频繁项集统计与确定出来,主程序经过汇总生成最终结果并反馈给用户。本发明提出了一种基于物联网的数据分析方法,采用分布式处理方式实现物联网海量数据的分析和挖掘,有效提高了物联网中的数据处理效率。
【IPC分类】G06F17-30
【公开号】CN104834751
【申请号】CN201510284082
【发明人】王美婷
【申请人】成都艺辰德迅科技有限公司
【公开日】2015年8月12日
【申请日】2015年5月28日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1