数据处理系统的制作方法

文档序号:6382331阅读:145来源:国知局
专利名称:数据处理系统的制作方法
数据处理系统技术领域
本发明基本上涉及数据库领域,更具体地来说,涉及一种数据处理系统。
背景技术
在数据库领域,处理海量数据一般采用的传统硬件系统,其结构大多为单机(使用本机存储)、单机或者集群加共享存储(单个存储设备)两种模式。数据处理系统提交使用之前需要集成各部分组件,包括机柜、电源、节点机、存储、网络等各部件。目前使用的数据处理业务的硬件系统,对使用环境和人员有较高要求,如专用机房、专用制冷设备、独立的电源系统,网络等,同时对人员使用带来诸多不便,如管理、技能、各品牌兼容性等方面。发明内容
为了克服上述现有技术的缺陷,本发明提供了一种数据处理系统,解决了如何提高数据处理系统处理效率的技术问题。
具体来说,本发明针对传统数据处理系统通常需要把大量数据从共享存储读取到服务器内存这一过程,而这一过程存在很多瓶颈,比如服务器内存处与磁盘IO速率差异很大、数据传输管道的数量和带宽是否满足大量数据传输、共享存储是否存在单点故障 以及共享存储是否存在单点性能不足情况从以下五个方面进行了改进(I)数据筛选;(2)减少内存与磁盘三者之间的IO速率差异;(3)增加数据传输的管道数量;(4)增加数据传输的管道带宽;(5)提升共享存储处理能力和冗余保护能力。
本发明提供了一种数据处理系统,包括数据处理模块、数据存储模块和数据通信模块,所述数据通信模块用于在所述数据处理模块和所述数据存储模块之间传送数据,其中,所述数据处理模块中包括数据缓存子模块,所述数据缓存子模块用于存储处理频率高于预定频率阈值的数据。
在所述数据处理系统中,所述数据处理模块中还包括数据筛选子模块,所述数据筛选子模块用于判断所述数据处理模块所处理的数据的处理频率是否高于所述预定频率阈值,如果所述处理频率高于所述预定频率阈值,则将所处理的数据存储在所述数据缓存子模块中。
在所述数据处理系统中,所述数据处理模块还包括处理器和内存。
在所述数据处理系统中,所述数据处理模块由至少两台服务器实现。
在所述数据处理系统中,所述数据通信模块为无限带宽网络模块。
在所述数据处理系统中,所述无限带宽网络模块包括多个无限带宽网络接口,每个所述数据处理模块和每个所述数据存储模块通过所述多个无限带宽网络接口相通信。
在所述数据处理系统中,所述多个无限带宽网络接口为四个无限带宽网络接口。
在所述数据处理系统中,所述数据存储模块为多个数据存储模块、每个所述数据存储模块均包括处理器、内存和操作系统。
在所述数据处理系统中,所述数据处理模块根据存储策略将数据存储在对应数据存储模块中并且从对应数据存储模块中读取数据。
在所述数据处理系统中,所述存储策略包括应用数据存储模块数量最少的策略和所应用的每个数据存储模块所处理的数据量相同的策略。
通过本发明所描述的数据处理系统,能够提高数据处理系统的处理效率。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中
图I是根据本发明的实施例的数据处理系统的示意图2是根据本发明的实例的数据处理系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图I是根据本发明的实施例的数据处理系统100的示意图。在该数据处理系统 100中,包括有数据处理模块102、数据通信模块106和数据存储模块108。其中,数据处理模块102用于处理数据;数据通信模块106用于在数据处理模块102和数据存储模块108 之间传送数据;数据存储模块108用于存储数据(包括但不限于原始数据和经过数据处理模块102处理的数据等等)。
数据处理模块102中包括数据缓存子模块104,数据缓存子模块104用于存储由数据缓存子模块104进行处理的处理频率(例如,单位时间内的处理次数)高于预定频率阈值的数据。也就是说,数据缓存子模块104能够存储数据处理模块102中经常处理(即处理频率较高,例如,处理频率高于预定频率阈值)的数据,减少了存数据处理模块102频繁访问数据存储模块108中的相对低速硬盘的概率,提高了访问效率,缓解了数据处理模块102 中内存与磁盘速率的差异。
在一个优选实施例中,数据处理模块102中还包括有数据筛选子模块(未示出), 数据筛选子模块用于判断数据处理模块102所处理的数据的处理频率是否高于预定频率阈值,如果处理频率高于预定频率阈值,则将所处理的数据存储在数据缓存子模块104中。 例如,当用户指示数据处理模块102处理数据时,数据处理模块102首先判断所要处理的数据是否存储在数据缓存子模块104中,如果该数据存储在该数据缓存子模块104中,则直接从该数据缓存子模块104中调取该数据进行处理,如果该数据存储在该数据缓存子模块 104中才通过数据通信模块106从数据存储模块108中调取该数据。其中,预定频率阈值可以预先设定在该数据处理模块102中。
在一个优选实施例中,数据处理模块102采用集群模式设计,至少采用两台服务器,保证了该数据处理模块102具有高可用和负载均衡的特性。
在数据处理系统100中,数据通信模块106可以是无限带宽(Infiniband)网络模块。该无限带宽网络模块106包括多个无限带宽(Infiniband)网络接口,每个数据处理模块102和每个数据存储模块108通过多个无限带宽网络接口相通信。具体来说,可以将多个无限带宽网络接口聚合使用,即将多个接口组合为一个接口使用,这样与每个接口相连接的用户就可以通过使用经过聚合后的接口而获得了成倍的带宽。优选地,该无限带宽网络接口可以为四个。
在数据处理系统100中,数据存储模块108为多个,每个数据存储模块108均包括处理器、内存和操作系统。虽然在图I中示出了三个存储模块108,但并不限于此。通过处理器、内存和操作系统每个数据存储模块108均可以对需要处理的数据进行预处理,还可以自行进行冗余备份和数据均衡等等操作。数据处理模块102根据存储策略将数据存储在对应数据存储模块中并且从对应数据存储模块中读取数据。其中,存储策略包括应用数据存储模块数量最少的策略和所应用的每个数据存储模块所处理的数据量相同的策略。例如,如果采用应用数据存储模块108数量最少的策略,则当需要将数据存储在数据存储模块108中时,优先选择已经开启和运行的数据存储模块108,从而节省了资源。如果采用所应用的每个数据存储模块所处理的数据量相同的策略,则当需要将数据存储在数据存储模块108中时,优先选择相对空闲的数据存储模块108,从而尽量保证各个数据存储模块108 的负载均衡。当然,这里的“相同”指的是一种大体平均的概念,不一定要达到绝对相同,例如,保证负载量最大的数据存储模块108和负载量最小的数据存储模块108之间 的负载差小于预定负载阈值。
传统的共享存储架构为“存储控制器+存储扩展柜”模式。也就意味着,在传统方式下,存储控制器存在着单点故障和性能瓶颈问题;而本次设计的数据处理一体机包含多个数据存储模块108,并且每个模块108都具有处理能力,可以实现大规模数据并行处理, 把繁杂的存储任务进行分布式处理,另外这些模块之间具有冗余性,从而有效解决了大规模数据的处理能力和安全问题。
通过本实施例所描述的数据处理系统100,通过利用数据缓存模块104对经常处理的数据进行缓存,从而提高了数据的访问效率,缓解了数据处理模块102中内存与磁盘速率的差异。通过将多个无限带宽网络接口聚合,有效地解决了数据传输管道的带宽和数量问题。通过使用多个数据存储模块108,并且每个数据存储模块108均具有处理能力,从而有效地解决了大规模数据的处理能力问题和安全性问题。
图2是根据本发明的实例的数据处理系统的示意图。本实例主要对目前的数据处理系统进行了相应的改进而形成了一种先进的数据处理一体机的设计架构,在图2中包括以下改进
(I)数据处理一体机采用模块化设计,拥有四个模块数据处理模块、高速数据缓存模块、高速通讯网络模块、以及高速数据存储模块。
(2)数据处理模块采用集群模式设计,至少采用两台服务器,保证模块具有高可用和负载均衡的特性。
(3)高速数据缓存模块基于高速的PCI-E接口高速磁盘实现,它能缓存高速处理模块中经常处理的内存数据,减少了高速处理模块频繁访问低速磁盘的概率,提高数据的访问效率,缓解了数据处理模块中内存与磁盘速率的差异;
(4)高速通讯网络模块基于Infiniband统一交换技术实现,传输带宽为每秒 40Gb,比传统的光纤(每秒8Gb)和万兆网络(每秒IOGb)都闻,而数据处理I旲块和闻速数据存储模块上的Infiniband的接口都可以扩展至4个,并可以实现Infiniband端口聚合, 有效解决了数据传输管道的带宽和数量问题;
(5)高速数据存储模块本身就带有独立的CPU和内存,以及操作系统,本身具有很强的处理能力。传统的共享存储架构为“存储控制器+存储扩展柜”模式。也就意味着,在传统方式下,存储控制器存在着单点故障和性能瓶颈问题;而本次设计的数据处理一体机包含多个高速数据存储模块,并且每个模块都具有处理能力,可以实现大规模数据并行处理,把繁杂的存储任务进行分布式处理,另外这些模块之间具有冗余性,从而有效解决了大规模数据的处理能力和安全问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种数据处理系统,其特征在于,包括数据处理模块、数据存储模块和数据通信模块,所述数据通信模块用于在所述数据处理模块和所述数据存储模块之间传送数据,其中, 所述数据处理模块中包括数据缓存子模块,所述数据缓存子模块用于存储处理频率高于预定频率阈值的数据。
2.根据权利要求I所述的数据处理系统,其特征在于,所述数据处理模块中还包括数据筛选子模块,所述数据筛选子模块用于判断所述数据处理模块所处理的数据的处理频率是否高于所述预定频率阈值,如果所述处理频率高于所述预定频率阈值,则将所处理的数据存储在所述数据缓存子模块中。
3.根据权利要求I所述的数据处理系统,其特征在于,所述数据处理模块还包括处理器和内存。
4.根据权利要求I所述的数据处理系统,其特征在于,所述数据处理模块由至少两台服务器实现。
5.根据权利要求I至4中任一项所述的数据处理系统,其特征在于,所述数据通信模块为无限带宽网络模块。
6.根据权利要求5所述的数据处理系统,其特征在于,所述无限带宽网络模块包括多个无限带宽网络接口,所述数据处理模块和每个所述数据存储模块通过所述多个无限带宽网络接口相通信。
7.根据权利要求5所述的数据处理系统,其特征在于,所述多个无限带宽网络接口为四个无限带宽网络接口。
8.根据权利要求5所述的数据处理系统,其特征在于,所述数据存储模块为多个数据存储模块、每个所述数据存储模块均包括处理器、内存和操作系统。
9.根据权利要求I至4中任一项所述的数据处理系统,其特征在于,所述数据处理模块根据存储策略将数据存储在对应数据存储模块中或者从对应数据存储模块中读取数据。
10.根据权利要求9所述的数据处理系统,其特征在于,所述存储策略包括应用数据存储模块数量最少的策略和所应用的每个数据存储模块所处理的数据量相同的策略。
全文摘要
本发明提供了一种数据处理系统,包括数据处理模块、数据存储模块和数据通信模块,数据通信模块用于在数据处理模块和数据存储模块之间传送数据,其中,数据处理模块中包括数据缓存子模块,数据缓存子模块用于存储处理频率高于预定频率阈值的数据。通过本发明所描述的数据处理系统,通过利用数据缓存模块对经常处理的数据进行缓存,从而提高了数据的访问效率,缓解了数据处理模块中内存与磁盘速率的差异。
文档编号G06F17/30GK102937997SQ20121048869
公开日2013年2月20日 申请日期2012年11月26日 优先权日2012年11月26日
发明者李柳, 范玉峰, 曹振南 申请人:曙光信息产业(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1