巨量数据存取方法以及使用该方法的系统的制作方法

文档序号:9564636阅读:313来源:国知局
巨量数据存取方法以及使用该方法的系统的制作方法
【技术领域】
[0001] 本发明关于一种数据存取技术,特别是一种巨量数据存取方法以及使用该方法的 系统。
【背景技术】
[0002] 越来越多企业建置云端运算(cloud computing)以及巨量数据(big data)储存 环境。然而,因为数据量过于庞大且复杂,使得现有的数据库管理工具或传统的数据处理应 用程序都难以处理。因此,需要一种巨量数据存取方法以及使用该方法的系统,用以提高扩 充性。

【发明内容】

[0003] 本发明的实施例提出一种巨量数据存取方法,包含以下步骤:接收从不同类型的 多个数据库前端模块中之一者传送的请求;以及使用相应的应用程序界面来操作不同类型 的多个云端文件系统中之一者,用以完成请求的数据存取作业。
[0004] 本发明的实施例提出一种巨量数据存取系统,包含安全检验哈希模块,耦接于不 同类型的多个数据库前端模块以及不同类型的多个云端文件系统之间,用以接收从数据库 前端模块中之一者传送的一请求;以及使用相应的应用程序界面来操作云端文件系统中之 一者,用以完成请求的数据存取作业。
【附图说明】
[0005] 图1是依据本发明实施例的巨量数据存取系统的系统架构图。
[0006] 图2是依据本发明实施例的计算机装置的系统架构图。
[0007] 图3是依据本发明实施例的巨量数据储存节点的方块图。
[0008] 图4是依据本发明实施例的Apache? Hadoop云端运算架构的示意图。
[0009] 图5是依据本发明实施例的Apache? Storm云端运算架构的示意图。
[0010] 图6是依据本发明实施例的巨量数据储存节点的方块图。
[0011] 图7是依据本发明实施例的文件结构示意图。
[0012] 图8是依据本发明实施例的执行处理单元210的数据读取方法流程图。
[0013] 其中,附图标记说明如下:
[0014] 110 客户端;
[0015] 120_1、120_2、…、120_i巨量数据储存子系统;
[0016] 130接待模块;
[0017] 140虚拟服务器;
[0018] 150_1、150_2、…、150_i 代理模块;
[0019] 160_1、160_2、…、160_i 数据库前端模块;
[0020] 170_1、170_2、…、170_i巨量数据储存节点;
[0021] 210处理单元;
[0022] 220显示单元;
[0023] 230输入装置;
[0024] 240储存装置;
[0025] 250 存储器;
[0026] 260通讯界面;
[0027] 310联合巨量数据集文件系统;
[0028] 320内部数据库;
[0029] 331文件导向数据库;
[0030] 333格状文件系统;
[0031] 351分散式批次数据库;
[0032] 353分散式文件系统;
[0033] 371分散式即时数据库;
[0034] 373分散式文件系统;
[0035] 410主服务器;
[0036] 430、440、450 从服务器;
[0037] 460储存服务器;
[0038] 510水龙头服务器;
[0039] 520、530、540、550 闪电服务器;
[0040] 560储存服务器;
[0041] 611、613、615联合巨量数据集文件系统;
[0042] 630纠删编码模块;
[0043] 650安全检验哈希模块;
[0044] 700 文件;
[0045] 710_1 ~710_k 区块;
[0046] 730_1 ~730_m 数据区段;
[0047] 750_1~750_n同位元区段;
[0048] 770_1 ~770_m+n 元标签;
[0049] S811~S875方法步骤。
【具体实施方式】
[0050] 以下说明为完成发明的较佳实现方式,其目的在于描述本发明的基本精神,但并 不用以限定本发明。实际的
【发明内容】
必须参考之后的权利要求范围。
[0051] 必须了解的是,使用于本说明书中的"包含"、"包括"等词,是用以表示存在特定的 技术特征、数值、方法步骤、作业处理、元件以及/或组件,但并不排除可加上更多的技术特 征、数值、方法步骤、作业处理、元件、组件,或以上的任意组合。
[0052] 于权利要求中使用如"第一"、〃第二〃、〃第三〃等词是用来修饰权利要求中的元 件,并非用来表示之间具有优先权顺序,先行关系,或者是一个元件先于另一个元件,或者 是执行方法步骤时的时间先后顺序,仅用来区别具有相同名字的元件。
[0053] 图1是依据本发明实施例的巨量数据存取系统的系统架构图,包含客户端110及i 个巨量数据储存子系统120_1至120_i,其中,i为正整数。虽然本发明实施例只描述一个客 户端的行为,本领域技术人员可轻易将以下所述的技术内容应用在多个客户端的环境,本 发明并不因此受限。巨量数据储存子系统120_1中包含接待模块(reception module) 130, 用以从客户端Iio接收各种数据库应用程序界面(DB API, Database Application Programming Interface)的请求,并转送给虚拟服务器140。DB API可为结构化查询语言 (SQL, Structural Query Language)API、C0B0L API 等,用以实施第四层(layer 4)或第七 层(layer 7)数据库命令。需要注意的是,巨量数据储存子系统120_1至120」只存在一 个接待模块,作为所有客户端的单一窗口。接待模块130定期向其他巨量数据储存子系统 120_2至120_i的相应模块发送心跳信号(heartbeat signal),用以通知接待模块130还 活着。当接待模块130失效过一段时间而无法发送心跳信号,其他相应模块会协商出由巨 量数据储存子系统120_2至120」中之一者来当作客户端的新单一窗口。虚拟服务器140 执行平衡负载机制(load-balancing mechanism),用以将客户端110的请求分派到工作量 (workload)较轻的代理模块。虚拟服务器140可藉由监看每一个代理模块与客户端间的 连线数目来决定每一个巨量数据储存子系统的工作量,连线数目较多代表工作量较重。被 分派的代理模块150_1、150_2或150_i与客户端间建立一个连线以处理客户端110后续 的DB API请求。换句话说,接待模块130只处理客户端110传送的包含DB API请求的第 一个封包,而分派的代理模块会直接与客户端110建立连线,处理包含DB API请求的后续 封包。于每一个巨量数据储存子系统中,代理模块连接一个数据库前端模块,而此数据库前 端模块连接于一个巨量数据储存节点。例如,代理模块150_1传递由客户端110传送的DB API请求给数据库前端模块160_1,数据库前端模块160_1解译(interpret) DB API请求并 据以操作巨量数据储存节点170_1,用以取得客户端110所需的信息并回复给客户端110。 客户端所请求的信息可以是任何的统计分析或演算法结果,例如,商品间的关联性、事件因 果分析等等。
[0054] 接待模块130、虚拟服务器140、代理模块150_1及数据库前端模块160_1可整合 于一部计算机装置中,也可分散在不同的计算机装置。类似地,成对的代理模块150_2及数 据库前端模块160_2,或者,成对的代理模块150」及数据库前端模块160」可整合于一部 计算机装置中,也可分散在不同的计算机装置。巨量数据储存节点170_1、170_2至170」中 的任一者中包含多部的计算机装置,用以完成巨量数据的存取与运算。图2是依据本发明 实施例的计算机装置的系统架构图。处理单元210可使用多种方式实施,例如以专用硬件 电路或通用硬件(例如,单一处理器、具平行处理能力的多处理器、图形处理器或
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1