基于云计算机框架的电动汽车数据挖掘系统与挖掘方法

文档序号:7789108阅读:277来源:国知局
专利名称:基于云计算机框架的电动汽车数据挖掘系统与挖掘方法
技术领域
本发明涉及一种电动汽车海量数据的挖掘系统与实现方法,具体涉及一种基于云计算机框架的电动汽车数据挖掘系统与挖掘方法。
背景技术
电动汽车具有节能减排等优势,近年来发展迅速。然而电动汽车的发展还处在“建设时期”,离广泛普及有一段距离。主要原因是电动汽车整车质量特别是其最核心零部件电动电池的质量还不成熟。电动电池循环寿命较短、成本也相对较较高,其适应性与安全性都有待考量。此外,电动汽车基础设施的建设也未能及时跟进,合理部署充电站和充电桩,提高城市有限资源的利用率,将会极大的促进电动汽车的普及和推广。目前已有一些电动汽车远程监控系统,监控电动汽车运行的情况,并对这些实时数据进行统计和分析,以找出电动汽车发生故障的原因、运行数据的规律等。例如,福特公司开发的纯电动汽车远程监控系统,福特的工程师根据此监控反馈的信息已经完成了至少 20处动力电池管理系统管理策略的改进。此外,上海汽车集团股份有限公司技术中心与同济大学、上海燃料电池汽车动力系统有限公司合作开发了上汽新能源汽车远程监控系统, 此系统实现了批量车辆运行的在线监控,故障的智能化处理、车载终端软件的升级、数据的记录和存储等功能。上述的监控系统均采用集中监控方式。据统计电动汽每分钟上传到服务器的数据量平均为82. 41Λ,根据十城千辆政策,到2012年北京市电动汽车将达5000辆, 那么5000辆电动汽车一年上传到服务器的数据总量将达到52T。如此大的数据量,集中监控的方式在数据存储和处理上都难以承受,因此基于云计算来实现类似的监控系统是十分必要的。中科院计算所与中科深江电动汽车厂合作的基于云计算的电动汽车远程监控系统,就采用了云计算开源框架Hadoop存储和处理电动汽车上传的数据,实现了千辆级电动汽车的实时监控、历史回放、故障预警与处理、数据统计分析等功能。然而现有的监控系统, 不论是集中式还是基于云计算框架的,都仅仅通过人工定义的统计条件去分析电动汽车故障产生的规律和原因,为电动汽车电池和电池管理系统的改进只能提供有限的信息。一些隐藏在海量数据之中有价值的信息不能被挖掘出来,这些信息可能是意想不到的制约关系或规律,会对电池极其管理系统的改进提供非常大的帮助。

发明内容
本发明的目的之一是提供一种基于云计算机框架的电动汽车数据挖掘系统;本发明另一个目的是提供一种基于云计算机框架的电动汽车数据挖掘方法。实现本发明第一个目的的技术方案是提供一种基于云计算机框架的电动汽车数据挖掘系统,包括数据采集模块、与数据采集模块通过3G网络相连的挖掘系统前端模块、 与挖掘系统前端模块相连的云计算机Hadoop集群模块。进一步,所述挖掘系统前端模块包括数据导入模块、关联规则挖掘模块、频繁路段挖掘模块,所述数据导入模块与数据采集模块通过3G网络相连,关联规则挖掘模块、频繁路段挖掘模块分别与数据导入模块相连。进一步,所述云计算机Hadoop集群模块包括数据处理模块和数据存储模块,所述数据处理模块与关联规则挖掘模块和频繁路段挖掘模块相连。实现本发明的另一个目的技术方案是提供一种基于云计算机框架的电动汽车数据挖掘方法,包括如下步骤步骤1、由数据采集模块采集数据,并通过3G网络传送到挖掘系统前端,挖掘系统前端将要挖掘的数据集切分为若干独立的数据块并记录;步骤2、并行统计每个数据块中所有支持度大于最小支持度的频繁1个数据字段, 结果存储在F-Iist中;步骤3、将F-Iist中的频繁1个数据字段分为G个组;步骤4、云计算机Hadoop集群模块中分组并行执行FPGrowth算法,,生成并保存相关的局部闭频繁模式集;步骤5、合并局部闭频繁模式集,生成全局的闭频繁模式集,最后根据全局闭频繁模式集生成无冗余的关联规则。进一步,在步骤3中,对G个组的每个组进行标记为一个G-List,并对应编号gid。进一步,在步骤4中,在执行FPGrowth算法时,加入融合、剪枝、闭合检查步骤。本发明具有积极的效果(1)、本系统中,将电动汽车远程监控系统和数据挖掘子系统完美的结合起来,既保证了远程监控系统的实时服务,又充分利用了云计算平台 Hadoop的存储高可扩展性、计算框架mapreduce高容错性等为数据挖掘系统的实现提供了基础。且系统可处理的数据量满足电动汽车的发展需求,使用数据发掘的方式摆脱了人工的统计与分析,自动的挖掘电动汽车数据之间的关联关系。(2)、本发明中,采用的挖掘方法,与相比传统的PFPGrowth算法相比,使用的执行时间几乎一样,但是挖掘出的闭频繁模式数量与完全频繁模式相比显著减少,适用性广,使用数据挖掘的方法摆脱了人工的系统与分析,自动挖掘电动汽车数据之间的关联关系,并标示出频繁路段区域范围,实用性好,而且其可扩展性强,挖掘时间短,挖掘结果无冗余,确保了电动汽车的发展与应用。


图1为本发明的系统框图;图2为本发明的PFPGrowth算法流程图。
具体实施例方式(实施例1)一种基于云计算机框架的电动汽车数据挖掘系统,见图1,包括数据采集模块1、 与数据采集模块1通过3G网络相连的挖掘系统前端模块2、与挖掘系统前端模块相连2的云计算机Hadoop集群模块3。挖掘系统前端模块2包括数据导入模块21、关联规则挖掘模块22、频繁路段挖掘模块23,所述数据导入模块21与数据采集模块1通过3G网络相连,关联规则挖掘模块22、 频繁路段挖掘模块23分别与数据导入模块21相连。
云计算机Hadoop集群模块3包括数据处理模块31和数据存储模块32,所述数据处理模块31与关联规则挖掘模块22和频繁路段挖掘模块23相连。将电动汽车远程监控系统和数据挖掘子系统完美的结合起来,既保证了远程监控系统的实时服务,又充分利用了云计算平台Hadoop的存储高可扩展性、计算框架 mapreduce高容错性等为数据挖掘系统的实现提供了基础。且系统可处理的数据量满足电动汽车的发展需求,使用数据发掘的方式摆脱了人工的统计与分析,自动的挖掘电动汽车数据之间的关联关系。(实施例2)—种基于云计算机框架的电动汽车数据挖掘方法,见图2,包括如下步骤步骤1、由数据采集模块采集数据,并通过3G网络传送到挖掘系统前端,挖掘系统前端将要挖掘的数据集切分为若干独立的数据块并记录;步骤2、并行统计每个数据块中所有支持度大于最小支持度的频繁1个数据字段, 结果存储在F-Iist中;步骤3、将F-Iist中的频繁1个数据字段分为G个组;步骤4、云计算机Hadoop集群模块中分组并行执行FPGrowth算法,,生成并保存相关的局部闭频繁模式集;步骤5、合并局部闭频繁模式集,生成全局的闭频繁模式集,最后根据全局闭频繁模式集生成无冗余的关联规则。进一步,在步骤3中,对G个组的每个组进行标记为一个G-List,并对应编号gid。进一步,在步骤4)中,在执行FPGrowth算法时,加入融合、剪枝、闭合检查步骤。挖掘方法,与相比传统的PFPGrowth算法相比,使用的执行时间几乎一样,但是挖掘出的闭频繁模式数量与完全频繁模式相比显著减少,适用性广,使用数据挖掘的方法摆脱了人工的系统与分析,自动挖掘电动汽车数据之间的关联关系,并标示出频繁路段区域范围,实用性好,而且其可扩展性强,挖掘时间短,挖掘结果无冗余,确保了电动汽车的发展与应用。用户(电动汽车研发人员)筛选待挖掘的电动汽车数据,筛选条件包括a)车辆范围选定,选择单车或者多车。当用户需要挖掘某一特定的车辆在某一段时间内运行的数据中隐含的信息时,选择单车条件,包括车牌号码、车辆运行起始时间和结束时间。当用户需要挖掘某一类型的电动汽车在某一段时间内运行的数据中隐含的信息时,选择多车条件,包括车辆生产日期范围、车辆的型号、车辆运行起始时间和结束时间。b)数据范围选定。挖掘数据之间的关联规则时,可以从所有的电池数据字段、电机数据字段、电动汽车动态变化的数据字段中选择感兴趣的字段挖掘。GPS数据默认只有经度和纬度两个数据字段,采样频率可以由用户自行设定,默认为100%。根据前一筛选条件,将符合筛选条件的电动汽车数据从HBase导入到HDFS文件系统中。在导入的同时,对于电动汽车数据之间关联规则的数据做以下处理a)空值处理由该数据字段的均值填补。b)数据离散化对于电动汽车的一条数据记录,包含了若干数据字段,这些数据字段可以划分为电机信息、电池信息和车辆动态信息。将每个数据字段的数值编码为一个四位整数。第一位代表该数据字段所属类型,若属于电池信息类则为A、电机信息类则为B、车辆动态信息则为C。第二位代表该数据字段的具体名称。数据字段的范围为(-⑴,mirr·· max,+ -),其中min为最小值,max为最大值。将该范围分为若干个区间,异常数据将落在区间(-C ,min)和(maX,+c )中。编码的第三位和第四位代表该数值所属的值区间编号。 如此便形成一个四位整数编码与数据字段的数值对应表。此编码方式不仅压缩了数据,在生成关联规则的时候依靠这个对应表也很容易还原成自然语言。对频繁路段数据所做的预处理方式为,忽略不完整的经纬度点对,采用无替换简单随机采样方法(SRSW0R方法)从N个数据中随即抽取η行。用户提交挖掘任务。用户在提交挖掘任务时可以自己定义一些与算法有关的参数,包括最小支持度、最小置信度、规则的最长长度。最小支持度越高,得到的闭频繁模式集的数量就越少,最小置信度越高得到的关联规则的数量就越少。根据电动汽车的数据规律以及挖掘实验经验,本系统设定了最小支持度的默认值为40%,最小置信度的默认值为 80%。在Hadoop集群中执行电动汽车数据关联规则挖掘算法。其中电动汽车数据之间的关联规则挖掘算法执行10至60,频繁路段挖掘算法仅执行10至50 :10将预处理过的数据集分为若干相互独立的数据分片,每个数据分片包含若干行数据记录,每个数据记录的包含若干四位的编码整数,每个编码整数称为一个数据项。20并行统计数据集中所有支持度大于最小支持度的数据项。其中每个Mapper读入一个数据分片,输入为(key,value = Ti),Ti为一条数据记录,输出(key = a」,value' =1),Bj为Ti的一个数据项,Bj e Ti。Reducer将相同的key值所对应的value相加记为 S,如果S大于最小支持度,则输出键值对(key" =aj; value" = S)。意味着数据项…出现的总次数为S,大于最小支持度。将Reducer输出结果保存到F-Iist中。30将F-Iist分为Q组,每组有一个独立的编号gid。将结果保存在一个Hashmap 中,记为G-list。40分组执行基于闭频繁模式挖掘算法。每个Mapper输入G-Iist和一个数据分片(key = gid, value = Ti),其中Ti为数据记录。将属于Ti的每一个数据项 替换为相应的 gid。Mapper 输出(key' = gid, value' = ITi [1]…Ti [L]}),其中 L 为在数据记录 Ti 中gid从右面开始第一次出现的位置编号。如此Reduce阶段便可归并与每个gid相关的数据项,共有Q组,在每组数据项集合中执行以下挖掘算法,步骤如下410计算局部的频繁1项集,将其排列,建立头表。420根据头表的顺序降序排列数据记录中的数据项。并建立一颗压缩的局部频繁模式树。初始化一个k大堆,维护本组数据项集中支持度前K大的闭合频繁模式。430由于电动汽车数据属于重复率较高的数据,只采用自底向上的挖掘方法递归挖掘局部频繁模式树。对于头表中的一个数据项%,构造%的条件模式基,并根据条件模式基建立 为前缀的条件模式树,执行4440)至4460)策略。440融合策略若%的所有条件模式基都包含公共的前缀Y且不存在Y的超集,那么% U Y为一个候选闭频繁模式。步骤4460)对其进行闭合检查。若通过检查,则将此候选闭频繁模式保存到本组的k大堆中,调整最大堆,否则抛弃此候选集。450剪枝策略对于一个候选频繁模式X,若有一个已经挖掘出的闭频繁模式Z,Z 为X的超集,且X与Z具有相同的支持度,可X以及X的子孙都可以被剪掉。
460闭合检查,根据CLOSET+,对于一个候选的闭频繁模式,只需与k大堆中已挖掘出的结果比较,若不是K大堆中任何一个闭频繁模式的子集,则将候选模式加入K大堆中, 并调整K大堆。470递归挖掘 的条件模式树。递归执行4430)到4470)。50合并所有组的局部频繁模式集。再次执行闭合检查,以确保全局的频繁模式集为闭合的。每个Mapper输入gid和与其相关局部频繁模式集,输出(key = s,value) :key 一个支持度lvalue为具有支持度为s的一个频繁模式。Reducer归并相同支持度的频繁模式,检查此相同的支持度的频繁模式集中是否存在两个的闭频繁模式X和Y,X为Y的超集,若存在则将Y去除。Reducer输出(key' ,value' )key'为支持度,value'为此支持度的闭频繁模式集合。60根据全局频繁模式集合生成关联规则。对于全局闭频繁模式中的任意两个闭频繁模式X,Y,若满足X U Y也是一个闭频繁模式,且没有闭频繁模式Z使得XcZc(XkJY), 并且X与Y所得的置信度大于最小置信度,那么生成关联规则χ- > Y。将挖掘结果返回给客户端,并以易理解的方式展示出来。显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。
权利要求
1.一种基于云计算机框架的电动汽车数据挖掘系统,包括数据采集模块、与数据采集模块通过3G网络相连的挖掘系统前端模块、与挖掘系统前端模块相连的云计算机Hadoop 集群模块。
2.根据权利要求1所述的基于云计算机框架的电动汽车数据挖掘系统,其特征在于 所述挖掘系统前端模块包括数据导入模块、关联规则挖掘模块、频繁路段挖掘模块,所述数据导入模块与数据采集模块通过3G网络相连,关联规则挖掘模块、频繁路段挖掘模块分别与数据导入模块相连。
3.根据权利要求2所述的基于云计算机框架的电动汽车数据挖掘系统,其特征在于 所述云计算机Hadoop集群模块包括数据处理模块和数据存储模块,所述数据处理模块与关联规则挖掘模块和频繁路段挖掘模块相连。
4.一种基于云计算机框架的电动汽车数据挖掘方法,包括如下步骤步骤1、由数据采集模块采集数据,并通过3G网络传送到挖掘系统前端,挖掘系统前端将要挖掘的数据集切分为若干独立的数据块并记录;步骤2、并行统计每个数据块中所有支持度大于最小支持度的频繁1个数据字段,结果存储在F-Iist中;步骤3、将F-Iist中的频繁1个数据字段分为G个组;步骤4、云计算机Hadoop集群模块中分组并行执行FPGrowth算法,,生成并保存相关的局部闭频繁模式集;步骤5、合并局部闭频繁模式集,生成全局的闭频繁模式集,最后根据全局闭频繁模式集生成无冗余的关联规则。
5.根据权利要求4中所述的基于云计算机框架的电动汽车数据挖掘方法,其特征在于在步骤3中,对G个组的每个组进行标记为一个G-List,并对应编号gid。
6.根据权利要求5中所述的基于云计算机框架的电动汽车数据挖掘方法,其特征在于在步骤4中,在执行FPGrowth算法时,加入融合、剪枝、闭合检查步骤。
全文摘要
本发明的第一个目的是公开了一种基于云计算机框架的电动汽车数据挖掘系统,包括数据采集模块、与数据采集模块通过3G网络相连的挖掘系统前端模块、与挖掘系统前端模块相连的云计算机Hadoop集群模块;本发明系统将电动汽车远程监控系统和数据挖掘子系统完美的结合起来,保证了远程监控系统的实时服务,又充分利用了云计算平台Hadoop的存储高可扩展性、计算框架mapreduce高容错性等,精确度高。本发明的另一个目的是公开了一种基于云计算机框架的电动汽车数据挖掘方法。本发明方法的适用性广,使用其摆脱了人工的系统与分析,实用性好,而且其可扩展性强,挖掘时间短,挖掘结果无冗余,确保了电动汽车的发展与应用。
文档编号H04L29/08GK102567488SQ20111043145
公开日2012年7月11日 申请日期2011年12月21日 优先权日2011年12月21日
发明者刘新宇, 朱晓进, 毕经平 申请人:江苏远为科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1