一种海量数据的处理方法及装置的制造方法

文档序号:8430712阅读:772来源:国知局
一种海量数据的处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据业务领域,特别涉及一种海量数据的处理方法及装置。
【背景技术】
[0002] 现有的综合分析系统对大量数据的查询、数据导出等给出了相关的技术思路。如 图1所示是该综合分析系统中的查询方案实现过程。从图1中可知,现有的综合分析系统 采用传统关系型数据库存储多结构化数据,并且直接对外提供详单查询。
[0003] 由此可知,现有的综合分析系统在处理海量数据查询和存储过程中,至少存在如 下技术问题:
[0004] 传统关系型数据库存储和查询文本非结构化数据效率极其低下,文本在数据库中 只能采用大字段存储,无论是存储还是检索,效率非常低下。
[0005] 查询并发性低,通过rowkey从关系数据库中直接查询详单数据,受磁盘10和关系 数据库存储方式的约束,不能提供低延时的高并发查询。
[0006] 查询条件需要输入较专业的技术内容,对查询人员的技术要求较高,并且组合条 件查询需要建立非常多的联合索引,为了保持数据的一致性,会影响入库效率,为了能够匹 配更多的条件组合,需要建立非常多的联合索引,以提高查询效率,直接导致联合索引的维 护性差。

【发明内容】

[0007] 为了解决现有技术中面对海量数据的存储和查询时效率低、维护性差等技术问 题,本发明提出一种海量数据的处理方法及装置。
[0008] 一种海量数据的处理方法,包括:
[0009] 接收用业务元数据描述的查询请求,所述查询请求中包括查询条件;
[0010] 根据业务元数据与技术元数据之间的映射关系查找所述查询条件对应的技术元 数据;
[0011] 根据所述技术元数据到数据库中查找符合查询条件的索引范围;
[0012] 在所述索引范围中根据查询请求确定详单数据。
[0013] 一种海量数据的处理装置,包括:
[0014] 接收模块,用于接收用业务元数据描述的查询请求,所述查询请求中包括查询条 件;
[0015] 映射模块,用于根据业务元数据与技术元数据之间的映射关系查找所述查询条件 对应的技术元数据;
[0016] 索引模块,用于根据所述技术元数据到数据库中查找符合查询条件的索引范围;
[0017] 确定模块,用于在所述索引范围中根据查询条件确定详单数据。
[0018] 本发明提供的方案中结合开源的大数据架构,通过将业务元数据自动映射成业务 元数据的手段,对应用屏蔽了复杂的技术结构,解决了现有技术中查询人员使用数据库时 由于需要较专业的技术内容导致的查询效率低下,可用性差的技术问题,提高了系统的易 用性和灵活性,并且通过确定的范围索引提高了组合条件查询的实用性,提高了查询效率 和系统的维护性。
【附图说明】
[0019] 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0020] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
[0021] 图1为【背景技术】中综合分析系统中的查询方案实现过程示意图;
[0022] 图2为本发明实施例1提供的海量数据的处理过程示意图;
[0023] 图3为本发明实施例1提供的海量数据的处理方法的流程图;
[0024] 图4为本发明实施例1提供的海量数据的处理方法中业务元数据与技术元数据之 间的关系不意图;
[0025] 图5为本发明实施例1提供的海量数据的处理方法中业务元数据与技术元数据之 间的另一关系不意图;
[0026] 图6为本发明实施例1提供的海量数据的处理方法中实现多级索引过程的示意 图;
[0027] 图7为本发明实施例2提供的海量数据的处理装置的结构示意图。
【具体实施方式】
[0028] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0029] 并且,以下各实施例均为本发明的可选方案,实施例的排列顺序及实施例的编号 与其优选执行的顺序无关。
[0030] 实施例1
[0031] 本实施例,提供了一种海量数据的处理方法,该方法适合基于分布式文件系统和 非关系型的数据库(N0SQL)中海量数据的查询与存储等处理。具体的,该数据库可以为 HBase(Hadoop Database,-种分布式的、面向列的开源数据库)。此外,本实施例方法中的 执行主体为索引服务器,该索引服务器可以部署在HBase数据库系统中的适当位置,如该 索引服务器可以部署在关系节点服务器上等。
[0032] 如图2为该方法实施改进的示意图,其中将应用层、接口(即查询代理服务)、元数 据、数据库(即Hbaes)、存储(HDFS,文件存储系统)等五个独立模块解耦,重新组合到一起, 以提高低延时的高并发性随机查询服务。
[0033] 如图3所示,该方法主要包括:
[0034] 步骤101,应用层将用业务元数据描述的查询请求发给查询代理服务的业务元数 据转义功能部分,该查询请求中包括查询条件,所述查询条件即为至少一个业务维度。
[0035] 元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数 据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述 数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据 (TechnicalMetadata)和业务兀数据(BusinessMetadata)
[0036] 1.技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数 据仓库使用的数据,它主要包括以下信息:(1)数据仓库结构的描述,包括仓库模式、视图、 维、层次结构和导出数据的定义,以及数据集市的位置和内容;(2)业务系统、数据仓库和 数据集市的体系结构和模式;(3)汇总用的算法,包括度量和维定义算法,数据粒度、主题 领域、聚集、汇总、预定义的查询与报告;(4)由操作环境到数据仓库环境的映射,包括源数 据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和 存取控制)。
[0037] 2.业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际 系统之间的语义层,使得不懂计算机技术的业务人员也能够"读懂"数据仓库中的数据。业 务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访 问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息等。由于技术 元数据与业务元数据在本实施例中的定义与现有技术相同,同时也属于本领域技术人员的 公知常识范围,故而不赘述。
[0038] 步骤102,业务元数据转义功能部分接收应用层用业务元数据描述的查询请求后, 在元数据中根据业务元数据与技术元数据之间的映射关系查找用业务元数据描述的该查 询条件所对应的技术元数据。
[0039] 元数据在IT系统中比较常见,但大多描述技术方面的元数据信息,而业务信息的 元数据通常都是使用文档形式来记录,而且没有手段可以保证文档与系统的定义的一致 性;并且,技术元数据与业务元数据关联性不直观,通常需要业务人员掌握一定的IT技术, 才可以找到对应的关联性,费时费力。因此上述步骤102中将业务元数据映射成技术元数 据的过程,是本实施例的一个改进点之一,故而上述根据业务元数据与技术元数据之间的 映射关系查找用业务元数据描述的该查询条件所对应的技术元数据,具体包括:
[0040] 分析用业务元数据描述的查找请求中所包含的业务维度所对应的用技术元数据 描述的技术维度;
[0041]根据查找到的技术维度确定技术元数据的物理表,物理表中包括物理表
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1