集成分布式数据处理系统的方法、相应系统及其数据处理方法_4

文档序号：9708418阅读：来源：国知局

[0089]在本实施例中，对处理请求进行处理的服务平台主要为Storm。具体的，当解析出访问请求为处理请求后，数据访问中间区会将所述处理请求动态的生成storm处理流程文件，并将所述storm处理流程文件发送至Storm。
[0090]在将storm处理流程文件发送至Storm后，Storm开始分布式处理所述storm处理流程文件。其过程简要描述为:首先由Storm客户端根据接收的storm处理流程文件以及Storm具有的原子化运算子自动组装生成相应的storm工作任务程序;其次，Storm客户端将生成的storm工作任务程序提交给系统集群中的分布式运算系统Storm;然后，Storm中的Supervisor调度所接收的任务工作程序给Spout链以生成相关的数据，在该步骤中，任务工作程序所需的数据主要通过系统集群中的Hbase和Solr进行数据的加载读取;之后，Spout链以生成相关的数据后，通过Bolt链调用各种原子化运算程序对相关的数据进行处理；最终，经过处理后的处理结果根据第二配置文件所提供的存取路径写入Hbase对应的HDFS中或写入Solr对应的本地磁盘中。
[0091]需要注意的是，在处理结果写入Hbase或Solr时，均需要Hbase或Solr调用相关的数据写入程序接口进行数据的写入。在处理请求所要处理的的数据写入Hbase和Solr后，可以结束处理请求的数据处理。
[0092]进一步的，为了便于更清楚的了解分布式数据处理系统在获取数据访问请求后的工作进程，本实施例给出了如图4所示的分布式数据处理系统的整体运行架构视图。基于图4的整体运行架构图，可以了解系统集群工作的具体过程。由图4可以看出，系统集群主要分为4部分，数据访问中间区41，用于接收和分析判定具体数据请求，并分发给系统集群中相应的服务平台处理；全文搜索服务器Solr 42，主要用于数据的索引；分布式数据库Hbase43，主要用于数据的存储，一般情况下与全文搜索服务器Solr 42结合共同处理相应数据请求；分布式实时计算系统Storm，主要用于数据的各种实时处理，通常与全文搜索服务器Solr 42及分布式数据库Hbase 43结合，从所述Solr 42和Hbase 43中读取要处理的数据，并将处理后的数据写入Solr 42和Hbase 43中。
[0093]本实施例三提出的一种基于分布式数据处理系统的数据处理方法，实现了在分布式数据处理系统上对海量数据的多元化并行处理，可以对同一数据共同实现存储、索引及实时运算的处理请求。基于该数据处理方法充分体现了本发明所提分布式处理系统的可用性以及高效性，解决了对海量数据并行进行多元化处理的问题。
[0094]注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。
【主权项】
1.一种集成分布式数据处理系统的方法，其特征在于，包括: 搭建分布式系统基础架构Hadoop集群；在所述Hadoop集群上建立分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm，获得分布式数据处理系统的总架构；在所述总架构的数据访问层上，设置第一配置文件和第二配置文件，以提供统一的数据访问接口，集成分布式数据处理系统。2.根据权利要求1所述的方法，其特征在于，所述搭建分布式系统基础架构Hadoop，具体包括: 在操作系统Linux上搭建版本为Hadoop2.0的分布式系统基础架构。3.根据权利要求1或2所述的方法，其特征在于，所述在所述Hadoop集群上建立分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm，具体包括: 基于Hadoop2.0集群安装分布式应用程序协调服务Zookeeper ；在安装所述Zookeeper的Hadoop2.0集群上，配置安装分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm，其中所述Hbase、Solr以及Storm共用所述Zookeeper。4.根据权利要求3所述的方法，其特征在于，所述在所述总架构的数据访问层上，设置第一配置文件和第二配置文件，具体包括: 在分布式数据处理系统总架构的数据访问层上，设置元数据配置文件和入库策略配置文件，将Hbase中的数据存储与So lr中的数据索弓|进行关联；在分布式数据处理系统总架构的数据访问层上，设置数据提取策略配置文件，使得Storm能够实时读取Hbase和/或Solr中的数据以进行计算处理，并将处理后的数据实时写入Hbase和/或Solr的相应位置，其中，所述数据提取策略配置文件包括:数据的提取目标、提取条件、提取周期、以及提取批次。5.根据权利要求4所述的方法，其特征在于，所述元数据配置文件，包括: 数据集文件、元素集文件以及代码集文件；所述数据集文件用于描述源数据的结构类型;所述元素集文件用于描述源数据的字段属性;所述代码集文件用于描述源数据的字典数据；所述入库策略配置文件，包括: 存储策略、索引策略；所述存储策略用于描述需要存储的数据集以及所述数据集的存储位置、存储周期和存储特性；所述索引策略用于描述索引库的结构、索引库对应的Solr服务器或分区、需要索引的数据以及所述数据集的存储周期。6.—种应用权利1-5任一项所述方法集成的分布式处理系统，其特征在于，包括: Hadoop集群、配置于所述集群中的分布式数据库Hbase、全文搜索服务器Solr和分布式实时计算系统Storm、以及配置于所述集群的数据访问层上的统一数据访问接口；其中，所述分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm通过配置于所述集群的数据访问层上的第一配置文件和第二配置文件进行数据处理。7.—种基于权利要求6所述的分布式数据处理系统的数据处理方法，其特征在于，包括: 通过数据访问接口，获取业务数据访问请求；根据所述业务数据访问请求，统一调度系统中的分布式数据库Hbase、全文搜索服务器So lr以及分布式实时计算系统Storm，完成对所述访问请求的响应。8.根据权利要求7所述的方法，其特征在于，所述业务数据访问请求为入库请求；相应的，统一调度系统中的分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm，完成对所述访问请求的响应，具体包括: 提取与所述入库请求对应的入库数据和索引数据；将所述入库数据存储于所述分布式数据库Hbase中；将所述索引数据存储于所述全文搜索服务器Solr中。9.根据权利要求7所述的方法，其特征在于，所述业务数据访问请求为查询请求；相应的，统一调度系统中的分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm，完成对所述访问请求的响应，具体包括: 提取所述查询请求中包括的查询条件，并将所述查询条件发送至所述全文搜索服务器Solr中进行数据查询；接收所述全文搜索服务器Solr返回的查询结果；从所述查询结果中抽取表名以及行主键名，并将所述表名以及行主键名发送至所述分布式数据库Hbase进行数据查询；接收所述分布式数据库Hbase返回的查询结果，并将结果数据返回至所述查询请求的发送端。10.根据权利要求7所述的方法，其特征在于，所述业务数据访问请求为处理请求；相应的，统一调度系统中的分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm，完成对所述访问请求的响应，具体包括: 将所述处理请求动态生成storm处理流，并将所述storm处理流发送至所述分布式实时计算系统Storm，以触发Storm完成相应的数据处理，并将处理结果分别写入所述全文搜索服务器Solr以及所述分布式数据库Hbase中。
【专利摘要】本发明公开了集成分布式数据处理系统的方法、相应系统及其数据处理方法。所述集成方法包括：搭建分布式系统基础架构Hadoop集群；在所述Hadoop集群上建立分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm，获得分布式数据处理系统的总架构；在所述总架构的数据访问层上，设置第一配置文件和第二配置文件，以提供统一的数据访问接口，集成分布式数据处理系统。本发明所提的集成分布式数据处理系统的方法，成本耗费低、操作简单、易于实现；本发明所提的分布式数据处理系统，是面向大数据的处理系统，其适应性强、适用范围广，达到了简单快速进行海量数据多元化处理的效果。
【IPC分类】G06F17/30
【公开号】CN105468720
【申请号】CN201510812126
【发明人】毛颖
【申请人】北京锐安科技有限公司
【公开日】2016年4月6日
【申请日】2015年11月20日

完整全部详细技术资料下载

当前第4页1 2 3 4