一种基于体域网和云计算的医疗大数据处理方法与流程

文档序号:11590163阅读:202来源:国知局
一种基于体域网和云计算的医疗大数据处理方法与流程

本发明涉及无线人体局域网、云服务器及大数据领域,包括对人体生理数据的采集、保护、存储及分析具体而言,具体涉及基于无线人体局域网采集医疗大数据并在存储保护数据安全和隐私的基础上进行实时分析的方法。



背景技术:

无线人体局域网是一种可长期监视和记录人体健康信号的基本技术,早期应用主要是用来连续监视和记录慢性病(如糖尿病、哮喘病和心脏病等)患者的健康参数,提供某种方式的自动疗法控制。这些早期的应用都是一些单一化的设备,能够针对的病症或者安全决策有限。而且传统的无线传感器网络安全与隐私保护技术并不太适应于计算和存储能力更加有限的的无线人体局域网,对本系统中的无线人体局域网的安全与隐私性问题的解决变得很有挑战性和非常必要。同时需要综合云计算和大数据技术的优势。近年来,随着微电子技术的发展,可穿戴、可植入、可侵入的服务于人的健康监护设备已经出现,无线人体局域网伴随着智能穿戴设备等的应用越来越广泛,产生的数据量是巨大的,而且增长速度惊人,因此这些医疗数据的存储传输和安全隐私保护成为了一个极大的挑战,也是普通大众所关心的热点问题。过去的医疗数据隐私保护非常薄弱,甚至有的没有隐私保护措施,在信息化的今天,人们越来越重视隐私的保护,融合生物信息安全的隐私保护技术可以带来更为安全的策略。

随着云技术的发展,云存储技术得到了广泛的应用。而目前并没有与医疗结合较好的云存储系统。一般的云存储方案设计前提是支持大容量的流式数据操作,涉及到的数据量较大时,若数据块设置较小,需要读取的数据块就会变多,由于数据块在硬盘上非连续存储,磁头移动时间和寻道时间就会随之增加,所以文件块大小一般设置较大(一般不小于64m)。并且,若单个文件块过小会导致目录的长度增加,增加了目录的内存开销。而在医疗中,单条数据记录一般都是较小的kb规模,这就带来了存储效率的问题。

随着信息数据化步伐的加快,从工业上的生产制造到生活中的电子商务;从企业的信息管理系统到政府部门的电子政务;从社交网络上的媒体信息到在线视频图像资料,每天都伴随着大量的数据产生;大数据(bigdata)是继云计算和物联网之后it产业的又一次颠覆性技术变革,是经济和技术发展的必然结果云存储和云计算成为大规模数据处理的新兴产物,而目前流行的hadoop就是一种实现云存储和云计算的方法,hadoop具有高可靠性、高扩展性、高效性和高容错性等优点,已经被业界采用。



技术实现要素:

本发明的目的在于克服现有技术的不足,一种基于体域网和云计算的医疗大数据处理方法,能够通过无线人体局域网把各种健康传感器的数据采集传输到云端,基于云端的存储访问和计算能力,解决单一传感设备分析效率低下的问题;通过传输加密技术进行医疗数据的存储和隐私保护,有效解决了传统患者隐私泄露等问题;在无线人体局域网中,各类穿戴设备和植入设备的传感器存储和处理能力有限,通过无线网络实时传输到云端,利用大数据技术解决实这些实时传输的数据的去冗余存储和实时决策分析,使得现代医疗更智能化,通过分析传感器中采集的各种健康参数,提高疾病的检测识别率,从而进行早期的预防,降低了医疗成本。

本发明解决其技术问题所采用的技术方案是:

一种基于体域网和云计算的医疗大数据处理方法,包括:

附着在用户身上的嵌入式或携带式生理传感器感知用户生理数据;

所述生理传感器利用apteen协议,通过diffie-hellman密钥交换协议生成对称密钥对所述生理数据进行加密,利用merkle树对生理数据进行签名,并将加密和签名后的生理数据通过qos(qualityofservice,服务质量)路由协议以多跳的方式传输给移动设备;所述移动设备利用对称密码算法对生理传感器上传的用户生理数据进行解密及对用户身份和传输数据的完整性进行验证;

所述移动设备将验证后的用户生理数据通过internet发送给云服务器进行数据存储和数据分析;

所述云服务器将数据分析的结果进行存储,并发送给所述移动设备。

所述生理传感器利用apteen协议,通过diffie-hellman密钥交换协议生成对称密钥对生理数据进行加密,利用merkle树对生理数据进行签名,并将加密和签名后的生理数据通过qos路由协议传输给移动设备;所述移动设备利用对称密码算法对生理传感器上传的用户生理数据进行解密及对用户身份和传输数据的完整性进行验证,具体包括:

步骤a,初始化:所述移动设备生成一对公私钥密钥对{mpublic,mprivate},根据实际情况设置各个生理传感器的相关参数集p={ht,st,ct},当生理传感器请求注册时,移动设备广播公钥mpublic、哈希值并将生理传感器的id号和所述相关参数集中的各相关参数用私钥mprivate加密后发送给生理传感器;其中,相关参数ht表示硬阀值,st表示软阀值,ct表示传感器连续两次成功发送数据给移动设备的时间间隔;

步骤b,密钥生成:移动设备和生理传感器利用diffie-hellman密钥交换方法,生成加密传输数据的密钥;

步骤c,数据传输:生理传感器利用生成的密钥对感知数据进行加密,并利用merkletree计算加密密钥和感知数据的哈希值,将生理传感器id号、加密后的感知数据及加密密钥和感知数据的哈希值发送给移动设备,移动设备接收到数据后通过公钥的哈希值对生理传感器进行初步的身份认证,认证通过后对数据进行解密,解密成功后计算密钥和数据的哈希值,通过比较哈希值是否相等来验证数据的完整性;

步骤d,妥协生理传感器检测:移动设备用私钥对广播消息加密后进行发送,生理传感器如果能用公钥解密成功,则将生理传感器id号、利用merkletree对加密密钥和公钥进行运算得到的哈希值发送给移动设备,移动设备通过比较该哈希值对生理传感器进行认证,如果该值与移动设备计算得到的不一致,手动将其剔除;

步骤e,参数更新:对收集的数据进行分析处理,当相关参数需要重新设置时,重复步骤a~d。

所述步骤b具体包括:

生理传感器si选取小于硬阀值的最大素数qi和它的一个素根ai,如果不存在则选取大于硬阀值的最小素数qi和它的一个素根ai,移动设备根据同样的方法选取素数qi和它的素根ai;其中,i=1,2,3,…,表示生理传感器的编号;

生理传感器si选择一个随机数ri,然后计算将yi和公钥的哈希值和生理传感器的id号发送给移动设备,然后采用常用的md5算法进行哈希运算,移动设备通过比较来对生理传感器si进行认证;

移动设备选择一个随机数ri,计算移动设备将yi'和用私钥将生理传感器si的id号加密后广播,生理传感器接收数据包后用公钥对id解密,若解密成功说明数据来源可信,将提取出id号与自己的id号比较,若不相同则将该数据包丢弃,若相同则保存y′i;

移动设备c和生理传感器si分别计算加密密钥:

c:

si:

所述步骤c具体包括:

根据apteen协议,当生理传感器si首次感知到的数据d≥ht时,生理传感器si将d发送给移动设备,并将d存入内部变量sv中,之后当生理传感器si感知的数据d≥ht且|d-sv|≥st或者当前时间与上次发送的时间的间隔δt≥ct时,生理传感器发送感知数据;

生理传感器si对感知数据进行哈希运算,利用merkle树,通过对感知数据的哈希值和公钥的哈希值进行哈希运算;将id号、哈希运算后的感知数据及发送给移动设备;

移动接收到数据后,根据id找到对应的密钥ki,若用ki能解密成功则对解密后的数据进行运算,将运算结果与数据包中的值进行比较,如果相等,则进一步认证数据来源可靠,且数据没有被篡改,如果ki不能成功解密,丢弃该数据包。

所述数据存储采用包括负载均衡层、一级缓存层、二级缓存层和云存储层的安全存储系统来实现;所述负载均衡层通过linux虚拟服务器(lvs,linuxvirtualserver)结合ospf(openshortestpathfirst开放式最短路径优先)协议实现;其一级缓存层通过web服务器(webserver)实现,用于存储访问频率高的数据;其二级缓存层通过医疗服务器(medicalserver)实现,作为一级缓存的补充,还用于缓存部分医疗数据分析结果;其云存储层通过分布式文件系统(mfs)实现,用于存储所有的原始数据和分析结果数据;数据访问时由先由负载均衡层解决负载均衡,然后访问一级缓存层,若未在一级缓存层中找到访问数据,则访问二级缓存层,若未在二级缓存层中找到访问数据,则访问云存储层读取数据。

所述分布式文件系统包括代理模块、目录模块、存储模块、监测模块、hbase数据库模块和zookeeper协调模块;所述模块对外提供api接口,屏蔽内部存储的结构和细节,对内向存储模块提起访问数据请求,及向目录模块申请目录查询和调度服务;所述目录模块用于向hbase数据库模块申请获取用户自定义数据,并接收代理模块和zookeeper协调模块的请求;所述hbase数据库模块用于存储包括文件名、类型和目录树的用户自定义元数据;所述zookeeper协调模块用于向目录模块提出元数据更改请求;所述监测模块向存储模块定期发起检查并将检查到的存储模块的状态发送给zookeeper协调模块;所述存储模块为存储核心,用于向zookeeper协调模块注册存储数据。

所述存储模块中设计了超级块;在文件存储到存储模块时,将每个小文件和文件对应的唯一id组成一个片;再将片通过顺序写入或尾缀的方式组成一个超级块进行存储;然后在存储模块中建立超级块偏移表,将对应的文件id值记录下来。

所述数据分析采用基于hadoopmapreduce的流式大数据处理方法实现,具体包括:

接收到通过网络传输而来的数据和存储在安全存储系统中的数据,然后把数据按照大小进行分片;

分片后的数据通过策略分配机制进行数据到达速率的匹配,然后传递给map任务节点进行初步分析;

每一个map任务节点的处理速度不同,通过网络传输到系统的数据根据到达速率和map任务节点的完成速度进行任务的再分配,并把产生的中间数据缓存到每个map任务节点的本地,供reduce任务节点读取数据;

每个reduce任务节点读取map任务节点产生的中间数据,并进行下一步处理,每一个reduce任务节点的处理速度也不同,速度快的reduce任务节点继续读取map任务节点输出的中间缓存数据;

每个reduce任务节点在处理数据的同时把处理好的数据按照时间段进行汇总输出最终的结果。

本发明的一种基于体域网和云计算的医疗大数据处理方法,其既能保护数据的完整性,隐私性,可认证性,检测出被妥协节点,又能节省节点能量,延长无线人体局域网的生命周期。生理传感器附着在用户身上采集用户数据,用户移动设备如pda(personaldigitalassistan,掌上电脑)收集所有生理传感器的生理数据并进行加密和签名,用户敏感数据加密和签名使用计算简单的对称加密和签名技术,具体的通过利用具有主动传感器网络和被动传感器网络特征的apteen协议,diffie-hellman密钥交换方法和能验证数据完整性的merkletree来实现。

本发明的一种基于体域网和云计算的医疗大数据处理方法,在数据主要通过无线人体局域网中的各种智能穿戴设备和植入式设备的传感器,采集各种健康参数(包括血液ph值、体温、血压、葡萄糖、呼吸等),并且通过无线网络传输到云端的服务器中。因为传感器传输的数据量比较小而且存在连续性,冗余性等问题,因此在数据存储部分,采用针对小文件的云存储系统,对传感器采集的各类数据进行存储。在数据分析部分采用优化的大数据分析框架对存储在云端的数据进行清洗预处理,简化数据、去除噪声,然后根据传输数据的到达频率,实现一种流式的实时分析模式。

本发明的一种基于体域网和云计算的医疗大数据处理方法,提出基于云存储的医疗小文件系统,通过设计多层次结构来保证保证数据访问效率,采用超级块方案来保证数据存储效率。

本发明的一种基于体域网和云计算的医疗大数据处理方法,提供一种基于hadoopmapreduce的流式大数据分析解决方案,对存储在云端的医疗数据进行分析挖掘出其中蕴含的信息,通过流式方案解决数据处理的实时性问题。

本发明的一种基于体域网和云计算的医疗大数据处理方法,其硬件实现平台包括:基于无线人体局域网的数据采集系统(包括各种生理传感器和移动设备),分布式文件存储系统(hdfs)实现医疗大数据的存储,预测和分析算法在mapreduce计算框架中实现,通过zookeeper进行平台的配置和系统进程的协调工作。

本发明具有如下有益效果:

(1)本发明方法利用apteen协议,将主动式传感网和被动式传感网结合起来,使用户既能从整体上了解自己的身体状况,又可及时处理突发情况,极大的发挥了人体局域网的功能。利用通信双方共有的信息来生成密钥,减少了数据的传输,保证了密钥分配的安全性,更好的保护了数据的隐私性。结合数字签名和merkletree来实现对节点身份的认证和数据完整性的认证,增加了攻击者篡改数据和伪装合法用户的难度,提高了认证效率;利用大数据分析,得到的参数更加精准,可靠;

(2)本发明方法的安全存储系统具有四层的整体架构,最底层为分布式云存储层;第一层为负载均衡层,第二层为一级缓存层,第三层二级缓存层,第四层为数据存储层;访问时由第一层解决负载均衡,若访问到第二层未命中,则访问第三层,若第三层访问仍未命中,则访问第四层mfs读取元数据;通过多层访问机制,提高了访问效率,并且利用多层访问,对外屏蔽内部系统结构具有较好的安全性;在第四层中的分布式文件系统通过超级块方案解决了小文件访问效率的问题;

(3)本发明方法将处理实时流大数据的框架设计为处理实时的密集型流式数据;hadoopmapreduce框架存在结构和功能上的限制,用于处理静态的数据,本发明方法采用自适应的mapreduce框架,在传统的hadoopmapreduce框架的基础上实现了对需要实时处理的流式数据进行分析处理。

附图说明

图1本发明实施例的系统图;

图2是本发明实施例的merkletree原理图;

图3是本发明初始化阶段移动设备与生理传感器之间数据交互的流程图;

图4是本发明数据传输阶段生理传感器与移动设备之间数据交互的流程图;

图5是本发明数据传输阶段生理传感器加密信息的流程图;

图6是本发明的移动设备对接收数据解密和完整性验证的流程图;

图7是本发明的移动设备判断生理传感器是否被妥协的流程图;

图8是本发明的安全存储系统的四层整体架构图;

图9是本发明的分布式文件系统的六大模块的框图;

图10是本发明的超级块结构的示意图;

图11是本发明基于hadoopmapreduce的流式大数据分析解决方案的数据流程图。

具体实施方式

以下将结合附图及实施例对本发明做进一步的详细说明。

参见图1和图2所示,本实施例的一种基于体域网和云计算的医疗大数据处理方法应用在由三个部分组成的系统中,所述系统包括:无线人体局域网1、云存储服务器2和云计算服务器3。通过无线人体局域网1采集数据,存储到云存储服务器2中,并且传输到云计算服务器3进行数据分析,分析后的结果保存到云存储服务器2,并且反馈给无线人体局域网1的用户;整个系统中的数据都是双向流动的。

具体的,其中无线人体局域网1包括各种生理传感器和移动设备(如移动手机、pda等)。每个生理传感器附着在用户的身上用来监测用户的身体状况,生理传感器利用apteen协议,通过diffie-hellman密钥交换协议生成对称密钥对生理数据进行加密,利用merkle树对生理数据进行签名,并将加密和签名后的生理数据通过qos(qualityofservice,服务质量)路由协议以多跳的方式传输给pda;pda利用对称密码算法对生理传感器上传的用户生理数据进行解密及对用户身份和传输数据的完整性进行验证;pda将验证后的生理数据通过internet传输给云服务端。

进一步的,参见图2至图7所示,主要通过利用具有主动传感器网络和被动传感器网络特征的apteen协议,diffie-hellman密钥交换方法和能验证数据完整性的merkletree来实现用户生理数据进行加密和签名验证,包括如下步骤:

步骤a,初始化:如图3所示,移动设备生成一对公私密钥对{mpublic,mprivate},根据实际情况设置各个生理传感器的相关参数集p={ht,st,ct},当生理传感器请求注册时,移动设备广播公钥mpublic及其哈希值将节点的id号和相关参数用私钥加密后发送给相关生理传感器。

步骤b,密钥生成:移动设备和节点选取小于硬阀值的最大素数q和q的一个素根a,若不存在则选取大于硬阀值的最大素数和它的一个素根。利用diffie-hellman密钥交换方法,生成加密传输数据的密钥。

步骤c,数据传输:如图4所示,生理传感器利用生成的密钥对感知数据进行加密,并根据merkletree(如图2所示)计算加密密钥和感知数据的哈希值,将加密后的数据,哈希值,公钥的哈希值发送给移动设备,移动设备接收到数据后通过公钥的哈希值对生理传感器进行初步的身份认证,认证通过后对数据进行解密,如果能解密成功说明生理传感器可信,解密成功后计算密钥和数据的哈希值,通过比较哈希值是否相等来验证数据的完整性,具体的移动设备解密检验数据完整性过程如图6所示。

步骤d,妥协节点检测:移动设备用私钥对广播消息加密后发出,生理传感器如果能用公钥解密成功,说明消息来自于可信方,生理传感器发送id号,利用merkletree对加密密钥和公钥进行运算得到的值给移动设备,移动设备通过比较该哈希值对生理传感器进行认证,如果该值与移动设备计算得到的不一致,则说明该生理传感器已被妥协,手动将其剔除。

步骤e,参数更新:利用大数据分析方法对收集的数据进行综合分析处理,具体的,使用利用有监督分类方法对数据进行分析,当相应的参数需要重新设置时,重复a-d。

所述步骤a中,根据apteen协议结合实际情况给具有不同功能的生理传感器设置不同的参数p={ht,st,ct},当生理传感器注册时根据节点的功能分配id和p,如下:

其中c表示移动设备。

所述步骤b中,根据生理传感器和移动设备都共有的参数,利用diffie-hellman密钥交换方法,生成加密密钥,具体过程如下:

(1)生理传感器si选取小于硬阀值的最大素数qi和它的一个素根ai,如果不存在则选取大于硬阀值的最小素数qi和它的一个素根ai,移动设备c根据相同的方法选取素数qi和它的素根ai,这样c不用发送素数和素根给节点,节点不用接收相关数据,减少节点能量消耗,增加了素数的素根的安全性。

(2)生理传感器si选择一个随机数ri,计算将yi和公钥的哈希值和生理传感器的id号发送给c,我们采用常用的md5算法进行哈希运算,c通过比较来对生理传感器进行认证:

(3)c选择一个随机数ri计算c将yi'和用私钥将si的id号加密后广播,si节点接收数据包后用公钥对id解密,若解密成功说明数据来源可信,将提取出id号与自己的id好比较,若不相同则将该数据包丢弃,若相同则保存yi'。

c→si(i=1,2,…,n)=[yi',e(id)]。

(4)c和si分别计算加密密钥:

c:

si:

所述步骤c中,利用apteen协议传输数据,采用对称密码算法对数据进行加密,减少加密时能量消耗,利用merkle树进行节点数据的完整性验证和身份验证,如图5所示,其具体步骤如下:

(1)根据apteen协议,当si首次感知到的数据d≥ht时,si将d发送给c,并将d存入内部变量sv中,之后当si感知的数据d≥ht且|d-sv|≥st或者当前时间与上次发送的时间的间隔δt≥ct时,si节点发送感知数据。

(2)为了验证si的可靠性和数据的完整性,对感知数据进行哈希运算,利用merkle树,对感知数据的哈希值和公钥的哈希值进行哈希运算。

(3)c接收到数据后,根据id找到对应的密钥ki,若用ki能解密成功则说明数据来源可信,对解密后的数据进行运算,将运算结果与数据包中的值进行比较,如果相等,则进一步认证数据来源可靠,且数据没有被篡改,如果ki不能成功解密说明数据来源不可靠,丢弃该数据包。

所述步骤d中,通过判断加密密钥和公钥是否改变来判断si是否被妥协,利用merkle树,既减少了数据传输长度,又可同时判断加密密钥和公钥是是否改变,如图7所示,具体的:

用私钥加密的广播消息。

如果si节点能用公钥对广播消息进行解密说明广播消息来源可靠,否则丢弃该广播数据包,若c计算的与接收到的值相等,则说明si可靠,否则,该生理传感器已被妥协,手动剔除该生理传感器。

所述步骤e中,利用大数据方法对收集的数据进行综合分析,能更好的找到数据内部规律,分析得到的参数更加精准,可靠。

基于上述可知,将远程医疗保健服务系统设计具有安全与高效性,可以通过计算简单的对称加密、对称签名算法对用户敏感数据进行加密和签名,且通过云服务对数据进行存储,扩大了远程医疗服务系统的存储空间。

基于云存储的医疗小文件系统,如图8所示,分为四个层次。

第一层由lvs结合ospf组成;

第二层由webserver组成;

第三层由medicalserver组成;

第四层由mfs组成。

其访问步骤包括:

(1)第一层负责负载均衡,提高系统灵活性和增加系统吞吐量;

(2)第二层作为一级缓存,缓存部分最热的数据,有效降低访问数据所需时间;

(3)第三层作为二级缓存,缓存部分次热数据,作为一级缓存的补充;同时,缓存部分医疗数据分析结果;

(4)第四层是云存储层,保存所有的数据。

云存储层的mfs,如图9所示分为六个模块,具体的,

代理模块proxy可向存储模块store提起访问数据,还可向目录模块catalogue申请目录查询和调度服务;

目录模块catalogue可向数据库模块hbase申请获取用户自定义数据;

数据库模块hbase负责存储文件名、类型和目录树等用户自定义元数据;

协调模块zookeeper可向目录模块catalogue提出元数据更改请求;

监测模块inspection向存储模块store定期发起检查并将检查到的存储模块store的状态发送给给zookeeper;

存储模块store是存储核心,会向zookeeper注册存储元数据。

具体的,所述的代理模块可以对外屏蔽内部存储的结构和细节,对外提供api(applicationprogramminginterface),这样可以保证医疗信息数据的安全,也方便以后提供更多的功能。

所述目录模块发生写请求时,根据监测模块得到的节点信息进行评估,然后在节点内存完成调度,最后返回存储模块中。发生读请求时可根据需求和文件名等在hbase中查询一次,可以得到存储模块节点集合具体的文件信息就可完成读操作。目录模块是负责元信息查找和存储调度的模块,信息存储在目录模块的内存中。所有目录模块的节点内容保持一致,可以便于扩展。

所述的数据存储模块负责所有的数据存储。由于是针对医疗数据的存储,用户数据存储周期长,所需操作较少,所以仅提供增、删、读操作,单个存储模块也可以直接工作提供服务而不依赖其他功能模块。在初始化阶段存储模块和协调模块zookeeper对卷轴和索引完成双向同步。

所述的监测模块负责监控所有的存储模块节点,按预设时间对存储模块节点进行检查。监测模块可以尝试读取某个文件,出现异常时就去zookeeper中存储模块节点的路径更新状态。根据需求监测模块可以监控各个存储节点的状态信息,例如延迟、剩余时间以及写入延迟等等。

所述的数据库模块为自定义数据模块,存储文件名、类型和目录树等用户自定义元数据。

所述的协调模块与其它模块协同工作。

如图10所示,在store中设计了超级块。在文件存储到存储模块store时,将每个小文件和key值(文件对应的唯一id)组成一个片,再将片通过顺序写入或尾缀的方式组成一个超级块进行存储。然后在store中建立超级块偏移表,将对应的key值记录下来。后续访问时根据偏移表便可访问到小文件的位置。在文件存储到store时,将每个小文件和key值(文件对应的唯一id)组成一个片,再将片通过顺序写入或尾缀的方式组成一个超级块进行存储。然后在store中建立超级块偏移表,将所有的key值记录下来。后续访问时根据偏移表便可访问到小文件的位置。

如图11所示,在基于hadoopmapreduce的流式大数据分析解决方案中,通常采集的数据(呼吸,心血管,胰岛素,血液,葡萄糖和体温)通过网络进行传输,采样频率由传感器的容量和移动设备的处理速率决定。在如上所述的解决方案中根据数据的到达速率,进行任务分配,并且基于守护进程机制来实现每一个map和reduce任务,而不是像传统的mapreduce那样处理存储在hdfs上的静态数据,在数据分析完成后map和reduce任务就结束了。新的map任务多次读取被缓存在hdfs中的流式数据,map任务处理数据并产生中间键值对传送给reduce任务。流式数据处理步骤如下:

(1)接收到通过网络传输而来的数据和存储在医疗小文件存储系统中的数据,然后把数据按照大小进行分片;

(2)分片后的数据通过策略分配机制进行数据到达速率的匹配,然后传递给map任务节点进行初步分析;

(3)每一个map任务节点的处理速度不同,通过网络源源不断的到达系统的数据更具到达速率和map任务节点的完成速度进行任务的再分配,并把产生的中间数据缓存到每个节点的本地,供reduce任务节点读取数据;

(4)每个reduce任务节点读取map任务节点产生的中间数据,并进行下一步处理,每一个reduce任务节点的处理速度也不同,速度快的节点继续读取map任务节点输出的中间缓存数据;

(5)每个reduce任务节点在处理数据的同时把处理好的数据按照时间段进行汇总输出最终的结果。

上述实施例仅是用来说明本发明,而并非用作对本发明的限定。应当指出,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1