一种hadoop环境下的数据处理方法与流程

文档序号:15558378发布日期:2018-09-29 01:39阅读:432来源:国知局

本发明属于大数据处理领域,具体地,涉及一种hadoop环境下的数据处理方法。



背景技术:

随着信息技术的迅速发展,我们每天所能够接触到的信息呈现了爆炸式增长的态势。信息的过载使得人们希望通过各种有效的方式从海量的数据中找到自己感兴趣的内容。信息检索可以在一定程度上解决上述问题。但是信息检索本身不能直观的把用户感兴趣的内容所隐藏的规律展示出来。所以,如何根据每个用户的特点帮助用户从海量数据中又快又准的找到自己感兴趣的信息和规律,已经成为一个很棘手的问题,而信息可视化技术可以很好的解决这个问题。

云计算通过互联网将庞大的数据存储和计算处理程序分布到集群系统的计算机中,并且提供相应的应用程序服务。用户在对资源提交访问请求时,系统能够自动地将请求切换到实际的存放资源的计算机和存储系统。虚拟化技术的云计算平台在海量数据处理方面取得了令人满意的成果。但云计算将海量数据分布在大规模集群上进行并行处理,由于目前主流云计算平台底层采用虚拟化技术,其上所有软件和应用均运行在虚拟硬件之上,这种策略必然带来一定程度上的性能降低。而且mapreduce内部实现机制是采用先存储数据再读出转发处理的策略,当中间数据量变大、个数增多时,这种模式必然产生大量的无用的磁盘i/o操作;如果数据在远端,这样会增加网络负载;如果数据在本地,则会受i/o瓶颈限制,从而降低了任务执行的效率。

如何根据每个用户的特点帮助用户从海量数据中又快又准的找到自己感兴趣的信息,已经成为一个很棘手的问题,而信息可视化技术可以很好的解决这个问题。



技术实现要素:

为了解决上述描述的技术问题,本发明请求保护一种hadoop环境下的数据处理方法,用于在大数据分布式环境下准确的识别出用户需求,采取合理的决策方案。

本发明的技术方案是建立多个数据字典索引,根据用户的需求依靠多个数据字典索引选取合适的数据字典;通过标识符模式搭建hadoop环境下的物理模型库,按照用户的需求提取逻辑数据,对提取的逻辑数据实施自然语言解析,采用数据投影的方式处理解析后的数据得到投影数据用于完成数据判断,并展示数据判断结果。

具体地,该hadoop环境下的数据处理方法还包括下列步骤:

a:用户向hadoop环境下的系统服务器提出数据判断需求,系统服务器定时更新所述数据判断需求不局限于用户根据该数据所使用的事务类型和事务目标;

b:依照用户的需求识别数据字典索引,根据数据字典索引与数据字典的映射关系,选择正确的数据字典;

c:构建标识符模式,当用户进行需求有关的数据检索时,能够按照需求所使用的标识符在标识符库中进行粗查询和细查询相结合的搜索,如果标识符库中的标识符与需求所使用的标识符存在相一致的,则调用该一致的标识符结果,如果标识符库中的标识符与需求所使用的标识符不存在相一致的,则退回从数据字典索引中查找,并将查找的数据字典的结果存储在标识符库中;

d:依据步骤c中的查找搜索结果搭建hadoop环境下的物理模型库,并将标识符、用户判断需求和数据字典建立映射关系模型,将该映射关系模型存储在物理模型库中;

e:对建立的物理模型库中的用户需求数据进行逻辑数据的抽取,采用隐马尔科夫模型对逻辑数据进行自然语言处理分析,

f:采用数据投影的方式处理解析后的数据得到投影数据用于完成数据判断,并通过图形化用户界面的形式展示数据判断结果。

本发明相对于现有技术而言,具备下列优点:

本发明提出了一种hadoop环境下的数据处理方法,提高了云计算的效率,以满足高性能云计算的需要。

附图说明

被包括来提供对所公开主题的进一步认识的附图,将被并入此说明书并构成该说明书的一部分。附图也阐明了所公开主题的实现,以及连同详细描述一起用于解释所公开主题的实现原则。没有尝试对所公开主题的基本理解及其多种实践方式展示超过需要的结构细节。

附图1是本发明所涉及的方法的工作流程图。

具体实施方式

本发明的优点、特征以及达成所述目的的方法通过附图及后续的详细说明将会明确。

本发明的技术方案是建立多个数据字典索引,根据用户的需求依靠多个数据字典索引选取合适的数据字典;通过标识符模式搭建hadoop环境下的物理模型库,按照用户的需求提取逻辑数据,对提取的逻辑数据实施自然语言解析,采用数据投影的方式处理解析后的数据得到投影数据用于完成数据判断,并展示数据判断结果。

具体地,该hadoop环境下的数据处理方法还包括下列步骤:

a:用户向hadoop环境下的系统服务器提出数据判断需求,系统服务器定时更新,所述数据判断需求不局限于用户根据该数据所使用的事务类型和事务目标;

b:依照用户的需求识别数据字典索引,根据数据字典索引与数据字典的映射关系,选择正确的数据字典;

c:构建标识符模式,当用户进行需求有关的数据检索时,能够按照需求所使用的标识符在标识符库中进行粗查询和细查询相结合的搜索,如果标识符库中的标识符与需求所使用的标识符存在相一致的,则调用该一致的标识符结果,如果标识符库中的标识符与需求所使用的标识符不存在相一致的,则退回从数据字典索引中查找,并将查找的数据字典的结果存储在标识符库中;

d:依据步骤c中的查找搜索结果搭建hadoop环境下的物理模型库,并将标识符、用户判断需求和数据字典建立映射关系模型,将该映射关系模型存储在物理模型库中;

e:对建立的物理模型库中的用户需求数据进行逻辑数据的抽取,采用隐马尔科夫模型对逻辑数据进行自然语言处理分析,

f:采用数据投影的方式处理解析后的数据得到投影数据用于完成数据判断,并通过图形化用户界面的形式展示数据判断结果。

优选的,所述数据字典是被整理形成的一份医学专业的数据字典,包括基础知识库和元数据库,涵盖医学疾病说明书中所有疾病名称、适应症状名称、治疗用药名称、治疗人群名称等词汇。

优选的,系统服务器列表的更新有两种策略:定时更新和任务调度前更新。对于定时更新,监控程序保持一直运行,调度程序和监控不发生交互;对于任务前更新,监控程序的运行发生在分配任务前,监控程序在执行任务前自动启动更新系统服务器列表,然后退出,主节点进程根据可用系统服务器列表进行动态一组进程执行任务,若其中有进程任务中途失败,则再次自动启动监控程序更新列表,主节点进程再根据可用系统服务器列表启动相应的数量的进程完成失败进程的任务

优选的,所述基础知识库由疾病知识库、药品知识库、症状知识库、易感染人群知识库等基础知识构成;

所述数据共享库用于存放各类医疗业务系统日常业务操作产生的业务数据。

优选的,所述基础模型包含疾病墒情预警模型、疾病爆发预测模型、医学推广模型。

优选的,在步骤e中,调用物理模型库时如果物理模型库中没有满足用户判断需求的物理模型,则建立新的物理模型并将该模型存储至物理模型库。

在系统服务器从针对每个待调度数据节点的备选数据节点集合中筛选出对应的目标数据节点集合之后,在向目标数据节点集合中的目标数据节点分别发送第一调度指示之前,为保证调度后全局达到最优,不致出现给待调度数据节点减轻负荷后,造成其他数据节点超负荷。可选的,系统服务器根据每个待调度数据节点的目标数据节点集合,确定每个数据节点对应的最新待处理文件数量。此时的最新待处理文件数量为原来系统节点分配的待处理文件数量加上需要处理的文件副本数量,或者,原来系统节点分配的待处理文件数量减去即将调度给其他节点处理的文件数量。系统服务器根据每个数据节点对应的最新待处理文件数量确定不存在最新待处理文件数量与待处理文件数量平均值的差值高于预设阈值的数据节点时,向目标数据节点集合中的目标数据节点分别发送第一调度指示。

优选的,在展示数据判断结果时,展示的可视化模型包括折线图、饼状图、柱形图等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1