基于大数据并行处理的健康决策系统的制作方法

文档序号:14555029阅读:179来源:国知局
基于大数据并行处理的健康决策系统的制作方法

本发明涉及基于大数据并行处理的健康决策系统。



背景技术:

在医疗过程中如何从管理科学角度较少可避免的不良事件的发生,保障患者安全性,提高医疗品质与效率是国家医学理论界的重要研究课题之一。互联网、智能传感器、大数据、机器学习等新兴信息通信技术与信息感知方式的快速发展,使数据驱动的健康医疗涵盖更多的方向,并将在临床治疗的比较效果研究、临床决策支持系统、对医疗档案的先进分析中为有效降低医疗决策失误发挥重要的作用。

医疗与健康决策支持主要是要提高医疗系统的品质与效率,从已研究的方向来看:第一类,集中运用运筹学理论与方法、基础工业工程,从人为失误、医疗流程和医疗风险等方面探讨医疗管理与服务系统存在的问题,以达到提升医疗管理与医疗服务品质与效率的目标。这一类的研究多基于运筹学模型,优化医疗过程、改善医院管理,为后续研究提供了宝贵的医疗实践经验和大量基础性的数据。第二类,随着模式识别、信息资源管理、移动互联、大数据等新技术、新模式与新需求的发展与应用,开始对由医疗大数据引发的逻辑推理等深层次问题进行探讨。这些研究力图将原来应用于军事决策、自动化辨识、数据挖掘领域的研究成果应用于医疗决策系统,研究角度也扩展到基于案例推理、基于规则的推理、不确定性、信息获取与传递和信息融合、数据处理效率等数据驱动的医疗决策支持领域。

当前,新一轮科技革命和产业变革孕育兴起,大数据的积聚、理论算法的革新、计算能力的提升及网络设施的演进,驱动人工智能发展进入新阶段,人工智能正加快与经济社会各领域渗透融合,带动技术进步、推动产业升级、助力经济转型、促进社会进步。

在医疗人工智能领域,人体健康的抽象化概念进行数据化分析和进行数据化的健康决策制定是无人化医疗和人工智能医疗所要解决的重要问题。



技术实现要素:

为解决上述问题,本发明提供基于大数据并行处理的健康决策系统。

本发明的技术方案具体为:

基于大数据并行处理的健康决策系统的数据处理方法:

第一步:执行数据装载(extract-transform-load,简称etl)过程,将不同来源、格式、特点性质的医疗数据通过执行数据装载过程在物理上有机的整合进行集中性存放,形成规范的数据存储,执行数据装载过程将数据存放在数据仓库中;

第二步:对数据仓库中的数据通过多变量信息瓶颈方法进行压缩。

进一步的:执行数据装载(extract-transform-load,简称etl)过程具体过程为:

(1)数据抽取:将数据从医疗单位、体检部门、门诊等单位的业务系统中抽取出来。

(2)数据转化/清洗:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使异构的数据实现统一管理。

(3)数据质量检查:对来源数据和清洗后的数据进行检查,保证加载后的数据的一致性和正确性。

(4)数据加载:将清洗后的数据加载到数据仓库中。。

进一步的:所述多变量信息瓶颈方法采用信息瓶颈方法的协作模型进行数据压缩。

进一步的:所述多变量信息瓶颈方法采用对称信息瓶颈方法的协作模型进行数据压缩。

进一步的:所述多变量信息瓶颈方法采用并行信息瓶颈方法的协作模型进行数据压缩。

基于大数据并行处理的健康决策系统的大数据处理框架:上述方法。

进一步的:基于大数据并行处理的健康决策系统的大数据处理框架包括:

服务器管理系统:用于对其余系统的管理调度;

文件系统:用于服务器数据的存储和调用;

资源管理系统:对服务器资源进行管理;

计算核心:用于算法的实现;

机器学习引擎:用于机器对抽象化概念的认知和学习;

图形处理引擎:对图形数据的处理与分析;

数据流传输引擎:完成数据的连续传输;

结构化数据接口:用于结构化数据的传输。

基于大数据并行处理的健康决策系统:包括大数据处理框架、数据查询及处理接口、健康决策分析模块、数据库、企业服务总线;大数据处理框架与数据库连接,大数据处理框架通过数据查询及处理接口与健康决策分析模块通讯,健康决策分析模块通过企业服务总线与云数据系统通信。

进一步的:数据库采用采用高性能的内存数据库redis集群。

进一步的:健康决策分析模块包括商务智能(businessintelligence,简称bi)组件,数据可视化组件,图形化引擎组件,比对数据组件,外部文件支持组件,健康决策分析组件,比对服务接口组件,应用安全组件。

相对于现有技术,本发明的技术效果为,首先通过kettle将不同来源、格式、特点性质的医疗数据通过etl过程在物理上有机的整合进行集中性存放,形成规范的主题数据存储。其次通过大数据并行处理框架,采用多变量的ib方法,使模型满足海量数据的健康决策分析,同时采用高性能的内存数据库集群进行数据存取提高性能。基于大数据并行处理的健康决策系统为无人化医疗奠定了医疗诊断基础,是人工智能在医疗领域的一种实现方式,信息瓶颈方法实现了抽象化的人体健康数据能够进行机器分析的功能,使无人化医疗成为了可能。

附图说明

图1是ib方法示意图。

图2为ib方法的协作模型的示意图。

图3为对称ib协作模型的示意图。

图4为并行ib协作模型示意图。

图5为etl过程与数据仓库关系示意图示意图。

图6为基于大数据并行处理的健康决策系统的大数据处理框架示意图。

图7为基于大数据并行处理的健康决策系统示意图。

具体实施方式

一、基于大数据并行处理的健康决策系统的数据处理方法:

1:执行数据装载(extract-transform-load,简称etl)过程,如图5所示,将不同来源、格式、特点性质的医疗数据通过etl过程在物理上有机的整合进行集中性存放,形成规范的数据存储。在数据集成的过程中,整个流程被切分成不同的处理任务:

(1)数据抽取:将数据从医疗单位、体检部门、门诊等单位的业务系统中抽取出来。

(2)数据转化/清洗:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使异构的数据实现统一管理。

(3)数据质量检查:对来源数据和清洗后的数据进行检查,保证加载后的数据的一致性和正确性。

(4)数据加载:将清洗后的数据加载到数据仓库中。

在etl过程中,还需要对过程进行自动化。一个完整的etl过程自动化是指对数据从数据源到数据目的的各个处理任务(如抽取、转换、清洗、异常处理、加载等任务)的运行进行有条不紊的组织,使其自动运行下去的一个闭合的处理逻辑。

一般使用kettle工具完成自动化etl过程。kettle工具,可以在window、linux、unix上运行,数据抽取高效稳定。多系统的支持和高效稳定的etl过程是kettle工具在大数据运算和人工智能领域具有先天优势。

2:对数据仓库中的数据通过多变量信息瓶颈方法进行压缩;

信息瓶颈方法(informationbottleneck,简称ib方法)是一种基于率失真理论的数据分析方法,通过将数据对象压缩到一个“瓶颈”变量中来发现数据对象间中所蕴含的内在模式。多变量ib方法(multivariateinformationbottleneck)是对ib方法的拓展,采用更多的变量来抽象现实问题,让更多的信息参与到数据的压缩过程中,通过它们之间的相互配合共同完成更具挑战性的数据分析任务。

ib方法在做数据分析时,将数据模式的提取视为一个数据压缩的过程,如图1所示,其中x表示待分析的数据对象,y表示描述数据对象的特征变量,表示压缩“瓶颈”变量。变量x到的压缩编码即为ib方法所获得的数据压缩模式,若一些数据对象被压缩到同一个簇中,它们则被视为具有相同的特征模式。ib方法的数据压缩过程是一个对数据化繁为简的过程,是将无形信息有形化的过程。为使压缩编码尽可能真实地反映数据中所蕴含的内在模式,ib方法在对数据进行压缩的同时,要求“瓶颈”变量尽可能最大化地保存变量y中所载有的特征信息量。变量y客观地描述了数据对象的特征,是ib方法数据压缩的依据。

多变量ib方法采用更多的变量来抽象现实问题,让更多的信息通过互相配合参与到数据的压缩过程中,以便完成更具挑战性的数据分析问题。gin刻画了变量之间的期望压缩关系,gout刻画了变量之间的期望模式保存关系,它们共同组成了多变量ib方法的协作模型。

(1)ib方法的协作模型

多变量ib方法是对ib方法的泛化,ib方法是多变量ib方法的一个特例。图2给出了在多变量ib方法的理论框架下ib方法的协作模型,其中gin刻画了变量x到变量之间的期望压缩关系,gout刻画了变量之间的期望模式保存关系,即ib方法期望压缩变量最大化地保存特征变量y中所承载的信息量。ib方法的协作模型是最简单的一个多变量ib协作模型。

(2)对称ib的协作模型

对称ib(symmetricib)主要用于对联合分布p(x,y)的双向压缩,其协作模型如图3所示。图3中的贝叶斯网gin描述了变量之间的期望压缩关系,其中变量x到变量y之间的箭头表示变量x和y之间服从联合分布p(x,y),该箭头也可由变量y到变量x;变量x到变量变量y到变量之间的箭头表示对称ib力图做变量x到变量变量y到变量双向压缩,其中x为的父节点、为x的子节点,变量y与之间也具备类似的关系。图3中的贝叶斯网gout描述了压缩变量之间的期望模式保存关系。从该图中可以看出,对称ib力图保存压缩变量之间的信息量,变量之间的箭头方向可互换。为求得变量x到的压缩模式及变量y到的压缩模式在期望模式保存关系图gout中,压缩变量相互为对方提供特征模式,即压缩变量中所承载的信息为变量x到的压缩提供了依据,压缩变量中所承载的信息为变量y到的压缩提供了依据。在学习过程中,变量之间相互协作,共同挖掘联合分布p(x,y)中所蕴含的内在模式。

图3中的贝叶斯网gin和gout分别描述了变量之间的期望压缩关系与期望模式保存关系。在gin中,变量x的父节点集合为空,即变量的父节点集合变量y的父节点集合变量的父节点结合根据公式(1)可得gin中的压缩信息:

在式(2)中,因此,有:

类似于gin中的多信息的计算方法,可得到期望模式保存关系gout中的多信息为:

根据多变量ib方法的目标函数式(3)与(4),得到如下的对称ib目标函数:

(3)并行ib的协作模型

并行ib(parallelib)主要从数据中挖掘出多个相异且高质量的聚类模式,其协作模型如图4所示。图4中的贝叶斯网gin描述了变量之间的期望压缩关系,即并行ib期望将变量x压缩到多个压缩变量中。在期望模式保存关系图gout中,所有的压缩变量都要保存特征变量y中所蕴含的信息量,以此来保证每一个压缩模式都能反映特征变量y中所蕴含的某一特征模式。

类似于对称ib方法目标函数的定义过程,可得到并行ib中的期望压缩信息与期望模式保存信息分别为:

根据多变量ib方法的目标函数,得到如下的并行ib目标函数:

在并行ib目标函数(8)中,每一项度量了压缩变量的压缩程度,而使得并行ib在做压缩时,一方面确保每一个压缩变量的质量,另一方面使得压缩变量之间相互协作,使得压缩变量之间所呈现的压缩模式不同,从而挖掘出数据中隐藏的多个不同的聚类模式。

二、基于大数据并行处理的健康决策系统的大数据处理框架:

基于大数据并行处理的健康决策系统的大数据处理框架主要运行基于大数据并行处理的健康决策系统的数据处理方法。

如图6所示,基于大数据并行处理的健康决策系统的大数据处理框架包括:

服务器管理系统:用于对其余系统的管理调度;

文件系统:用于服务器数据的存储和调用;

资源管理系统:对服务器资源进行管理;

计算核心:用于算法的实现;

机器学习引擎:用于机器对抽象化概念的认知和学习;

图形处理引擎:对图形数据的处理与分析;

数据流传输引擎:完成数据的连续传输;

结构化数据接口:用于结构化数据的传输;

(1)服务器管理系统:使用apachespark计算系统;

1.轻量级快速处理。着眼大数据处理,速度往往被置于第一位,我们经常寻找能尽快处理我们数据的工具。spark允许hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍。spark通过减少磁盘io来达到性能提升,它们将中间处理数据全部放到了内存中。

spark使用了rdd(resilientdistributeddataset)的理念,这允许它可以透明的内存中存储数据,只在需要时才持久化到磁盘。这种做法大大的减少了数据处理过程中磁盘的读写,大幅度的降低了所需时间。

2.易于使用,spark支持多语言。spark允许java、scala及python,这允许开发者在自己熟悉的语言环境下进行工作。它自带了80多个高等级操作符,允许在shell中进行交互式查询。

3.支持复杂查询。在简单的“map”及“reduce”操作之外,spark还支持sql查询、流式查询及复杂查询,比如开箱即用的机器学习机图算法。同时,用户可以在同一个工作流中无缝的搭配这些能力。

4.实时的流处理。对比mapreduce只能处理离线数据,spark支持实时的流计算。spark依赖sparkstreaming对数据进行实时的处理,当然在yarn之后hadoop也可以借助其他的工具进行流式计算。对于sparkstreaming,cloudera的评价是:

简单:轻量级且具备功能强大的api,sparksstreaming允许你快速开发流应用程序。

容错:不像其他的流解决方案,比如storm,无需额外的代码和配置,sparkstreaming就可以做大量的恢复和交付工作。

集成:为流处理和批处理重用了同样的代码,甚至可以将流数据保存到历史数据中。

5.可以与hadoop和已存hadoop数据整合。spark可以独立的运行,除了可以运行在当下的yarn集群管理之外,它还可以读取已有的任何hadoop数据。这是个非常大的优势,它可以运行在任何hadoop数据源上,比如hbase、hdfs等。这个特性让用户可以轻易迁移已有hadoop应用,如果合适的话。

(2)文件系统:使用hdfs分布式文件系统;

hdfs文件系统:

1.高容错性:

a)数据自动保存多个副本;

b)副本丢失后,自动恢复;

2.适合批处理:

a)移动计算而非移动数据;

b)数据位置暴露给计算框架;

3.适合大数据处理:

a)gb、tb、甚至pb级数据;

b)百万规模以上的文件数量;

c)10k+节点;

4.可构件在廉价机器上:

a)通过多副本提高可靠性;

b)提供了容错和恢复机制。

(3)资源管理系统:采用yarn和mesos双系统对服务器资源进行管理;

结合了yarn和mesos的优点最佳化的对服务器资源进行分配。

计算核心:采用弹性云计算核心;

机器学习引擎:采用mllib引擎进行机器学习;

图形处理引擎:使用graphx图形处理引擎;

数据流传输引擎:使用streaming数据传输引擎;

结构化数据接口:采用sparksql数据接口;

三、基于大数据并行处理的健康决策系统:

如图7所示,基于大数据并行处理的健康决策系统包括大数据处理框架、数据查询及处理接口、健康决策分析模块、数据库、企业服务总线。

大数据处理框架与数据库连接,大数据处理框架通过数据查询及处理接口与健康决策分析模块通讯,健康决策分析模块通过企业服务总线与云数据系统通信。

数据库采用采用高性能的内存数据库redis集群,健康决策分析模块包括商务智能(businessintelligence,简称bi)组件,数据可视化组件,图形化引擎组件,比对数据组件,外部文件支持组件,健康决策分析组件,比对服务接口组件,应用安全组件。

bi组件由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复组成,bi组件内部医疗数据通过大数据处理框架进行基于大数据并行处理的健康决策系统的数据处理方法处理并提出健康决策,健康决策分析模块接收到大数据处理框架的健康决策与外部文件中存储的健康决策进行比对完成对健康决策的分析。

健康决策分析模块中的应用安全组件保证健康决策分析模块的运行安全,比对服务接口能够连接外部的比对模块加强对健康决策的分析,提高健康决策的正确性。

健康决策分析模块与云数据系统的通信能够使健康决策分析模块读取到整个云数据系统的比对数据,使健康决策正确性得到质的飞跃。

以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明整体构思前提下,还可以作出若干改变和改进,这些也应该视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1