一种基于Hadoop的用户健康数据分析方法和系统的制作方法

文档序号:8395933阅读:785来源:国知局
一种基于Hadoop的用户健康数据分析方法和系统的制作方法
【技术领域】
[0001]本发明涉及大数据的分布式处理和数据挖掘领域,特别涉及一种基于Hadoop的用户健康数据分析方法和系统。
技术背景
[0002]进入二十一世纪以来,我国各项事业得到了迅猛的发展,无论是在工业、农业以及科学技术方面,都取得了举世瞩目的成绩,人民生活水平不断提高。但是,在这样一个大发展的背景下,医疗健康领域长期存在的问题并没有得到很好的解决,反而更加严重。特别是对其产生的海量健康数据的有效处理方面以及针对多样化的健康信息为用户提供良好的服务方面,都存在着具体的应用瓶颈。对于这样大量的数据,往往不能对其高效长久的存储,更不用说进行有效处理挖掘出有用的信息,健康数据中所蕴含的大量“宝藏”就这样被丢弃。对医疗健康大数据进行有效处理已经成为我过医疗体系改革的关键之一。
[0003]另一方面,大数据作为最近国内外研宄的热门领域,得到越来越多高校以及企业的重视。Hadoop便是其中最为典型的大数据处理平台。然而,除了 Google、MB、阿里巴巴等这样的大企业将Hadoop具体应用到其自身企业商用软件平台上,其他领域对Hadoop的应用就显得相当匮乏。尤其是对于民生息息相关的医疗健康领域,采用Hadoop大数据处理技术的具体应用尚处于起步阶段。虽然有一些理论研宄,但是缺乏具体的应用实现,更没有人利用Hadoop大数据处理平台为用户提供具体的健康服务。
[0004]综上两点,海量的健康数据得不到有效处理和应用,针对健康服务领域的大数据处理技术没有具体的实现。因此,如何有效存储健康大数据,并且采用大数据处理技术如Hadoop对其进行有效处理,而且能够针对用户需求进行数据挖掘为用户提供相应的服务,已经成为一个新兴技术研宄方向下的具体实现的难题。而本发明能够很好地解决上面的问题。

【发明内容】

[0005]本发明目的在于解决上述现有技术的不足,提供了一种基于Hadoop的用户健康数据分析方法和系统,该系统的业务逻辑层引入了 Hadoop分布式处理平台,大大提高了健康数据的处理速度。
[0006]本发明解决其技术问题所采取的技术方案是:一种基于Hadoop的用户健康数据分析方法,该方法包括如下步骤:
[0007]步骤1:用户健康服务程序接收到大数据的处理请求后,调用Hadoop平台,启动MapReduce编程框架对采集到的大数据进行分布式处理。
[0008]步骤2:MapReduce程序从HDFS中获取已经存储的海量健康数据,以及任务所需的资源进行数据分析处理。
[0009]步骤3:将经过大数据分析处理后的最终结果存入HBase。
[0010]步骤4:用户服务程序根据用户需求直接从HBase中查找自己所需的信息,并经过网页渲染便可呈现给客户。
[0011]本发明是采用基于MapReduce的Apr1ri方法进行关联分析,能够及时为用户提供健康建议和预警。本发明的数据存储是采用HBase,适合健康数据多样化、稀疏化的特征。
[0012]本发明还提供了一种基于Hadoop的用户健康数据分析系统,该系统包括:个人基本健康信息管理模块、个人体测数据管理模块、统计分析模块、数据挖掘模块、分布式存储模块。所述的分布式存储模块负责后台存储;个人基本健康信息管理模块和个人体测数据管理模块用于将后台数据进行前台展示;统计分析模块和数据挖掘模块是对后台存储的数据进行处理分析。
[0013]本发明系统模块具体的功能包括:
[0014]个人基本健康信息管理模块的功能是:对个人的基本信息进行有效存储和展示。
[0015]个人体测数据管理模块的功能是:对个人的体测数据进行有效存储和展示。
[0016]统计分析模块的功能是:对个人的基本健康数据以及体测数据,提供多种类型的统计分析功能。
[0017]数据挖掘模块的功能是:通过数据挖掘算法对用户的体测数据、饮食习惯、身体状况、过往病史等信息进行关联分析,找到其中的强关联规则,为用户提供医疗健康建议。
[0018]分布式存储模块的功能是:起到一个分布式的后台存储功能的作用。
[0019]本发明系统的软件框架包括表示层、业务逻辑层和数据访问层,在业务逻辑层引入Hadoop平台对大数据进行处理分析,并且在数据访问层提供对HBase操作的接口,采用HBase可以对数据进行高效持久化存储。
[0020]本发明系统软件框架的业务逻辑层提供了 MapReduce处理接口,对于大数据处理的业务直接调用Hadoop集群进行数据处理。
[0021]本发明针对海量健康数据,采用业务与显示相分离的设计思想,针对用户的不同需求提供定制的健康服务。
[0022]有益效果:
[0023]1、本发明的业务逻辑层引入了 Hadoop分布式处理平台,大大提高了健康数据的处理速度。
[0024]2、本发明采用基于MapReduce的Apr1ri方法进行关联分析,能够及时为用户提供健康建议和预警。
[0025]3.本发明在系统框架上的设计能为大数据处理相关的系统模块的实现提供
[0026]了基础。
[0027]4、本发明的数据存储是采用HBase,适合健康数据多样化、稀疏化的特征,并且大大减少了数据存储所需的空间,便于大数据的持久化存储。
【附图说明】
[0028]图1为本发明的方法流程图。
[0029]图2为本发明改进后的系统三层结构示意图。
[0030]图3为本发明系统的结构示意图。
【具体实施方式】
[0031]下面结合说明书附图对本发明创造作进一步的详细说明。
[0032]如图1所示,本发明提供了一种基于Hadoop的用户健康数据分析方法,该方法包括如下步骤:
[0033]步骤1:用户健康服务程序接收到大数据的处理请求后,调用Hadoop平台,启动MapReduce编程框架对采集到的大数据进行分布式处理。
[0034]步骤2:MapReduce程序从HDFS中获取已经存储的海量健康数据,以及任务所需的资源(输入划分、配置信息、jar包等)。然后进行本地计算,即在数据所在的Block执行map任务。
[0035]步骤3:对map的输出数据经过shuffle后,根据不同的key将map的中间结果分配给不同的reduce任务,并且将reduce任务输出的最终结果存入HBase。
[0036]步骤4:用户服务程序根据用户需求直接从HBase中查找自己所需的信息,并经过网页渲染便可呈现给客户。
[0037]本发明是采用基于MapReduce的Apr1ri方法进行关联分析,能够及时为用户提供健康建议和预警。
[0038]本发明的数据存储是采用HBase,适合健康数据多样化、稀疏化的特征。
[0039]如图2所示,本发明还提供了一种基于Hadoop的用户健康数据分析系统,相对于传统的业务应用的三层结构,该系统在业务逻辑层引入Hadoop平台对大数据进行处理分析,并且在数据访问层提供对HBase操作的接口,采用HBase可以对数据进行高效持久化存储。整个系统采用传统的Br0wser-Server架构。客户端使用页面浏览器,不需要用户安装繁琐的各种应用程序,大大增加了系统的适用范围,减少了系统维护的难度。表现层根据用户不同的业务需求,不仅可以提供简单的数据文本显示,也能根据业务提供各种统计图表以及健康建议。核心在于业务逻辑层,在传统应用服务下提供了 MapReduce处理接口,对于大数据处理的业务可以直接调用Hadoop集群进行数据处理。数据访问层的数据访问对象(Data Access Object,DAO)封装了基本的MySQL操作以及HBase操作,根据不同业务需求访问传统关系型数据库如MySQL、Oracle,或者访问HBase。对于这样的分层结构,确保了系统的扩展性和适用性,当需要加入新的业务时,只需要在业务逻辑层进行相应的改动,而不需要触及底层数据库。使系统实现了面向服务、针对大数据的特点。
[0040]如图3所示,本发明提供了一种基于Hadoop的用户健康数据分析系统,该系统包括个人基本健康信息管理模块、个人体测数据管理模块、统计分析模块、数据挖掘模块、分布式存储模块。分布式存储模块负责后台存储,个人基本健康信息管理模块和个人体测数据管理模块用于前台展示,统计分析模块和数据挖掘模块对后台存储的数据进行处理分析。
[0041]个人基本健康信息管理模块的功能是:包括个人用户的基本资料信息以及健康数据。个人基本资料主要有用户姓名、性别、年龄、出生日期、职业等。并且当用户首次注册时系统会为其分配一个唯一识别的用户ID。这些数据主要由用户注册时自行填写,并可以随时修改。健康数据主要有过往病史、血压、身高、体重、身高体重指数(BMI)、身材、饮食习惯、身体状况等。其中如血压、身高、体重这些数据主要通过一些便携式体测仪器由用户自己或者医务人员测得,并将你更新为最新的数值。过往病史、饮食习惯则由用户在注册时填写或者由医务人员在为用户检查完身体后填写。身体状况、身材等项目主要由分析模块根据用户的体测数据分析处理后自行得出。此外,还可以为用户配备不同的运动监测仪器,记录用户的日常运动情况,因此还需设置一个设备编号来代表用户所使用的监测仪器。
[0042]本发明的系统在处理这些数据时首先会检查数据的完整性,若不完整则会要求用户进行补充。这些基本健康信息除了可以为用户直观的显示其自身的各种信息,同时能为医疗数据分析提供大量的真实数据。再进行数据挖掘分析后为用户提供各种健康服务。
[00
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1