一种数据库的读写方法及系统的制作方法

文档序号:6433202阅读:179来源:国知局
专利名称:一种数据库的读写方法及系统的制作方法
技术领域
本发明涉及计算机数据处理领域,特别是涉及一种数据库的读写方法及系统。
背景技术
随着社会及科技的发展,计算机在日常生活和工作中得到了日益广泛的应用。如今由于日常生活和工作的需要,用户需要通过计算机对许多数据进行存储处理,而数据库系统就是一种能够实现上述内容的应用系统,是为适应数据处理的需要而发展起来的一种较为理想的数据处理的核心机构。现实的日常生活和工作中,用户要求能够方便的对数据库进行数据存储和数据查询等访问操作。分布式数据库系统是数据库系统中的一种,是在集中式数据库系统的基础上发展起来的,它是计算机技术和网络技术结合的产物,包括客户端、元数据节点和数据存储节点。其中客户端部署在业务应用服务器上,业务应用程序通过客户端向分布式存储系统集群发出数据访问请求;元数据节点用来存放元数据信息;数据存储节点用来存放数据块。现有技术的数据库读写方法,其进行读写的数据库的数据存储形式有两种。一种采用行存储,基于行的存储方式的行数据库因为依赖外部索引才能加速对于数据的读写,而外部索引的维护会消耗大量的时间与空间,所以对行数据库进行读写时会消耗大量的时间与空间资源;另一种采用列存储,列存储因为具有自引索压缩比高的特性,所以不会消耗大量的时间与空间资源,但是这种存储方式会导致写入一行数据需要进行多次磁盘操作的结果,所以写入性能低下。因此,在现代数据规模巨大的背景下,如何提供一种新的数据库的读写方法,既能实现数据的快速写入又能实现数据的快速读取,是现有技术急需解决的技术问题。

发明内容
有鉴于此,本发明提供了一种数据库的读写方法及系统,以克服现有技术中由于采用单种存储方式而导致的数据库写入性能低下或读取性能低下的问题。为实现上述目的,本发明提供如下技术方案一种数据库的读写方法,元数据节点将记录数据根据主关键字横向切分为多个数据段,每一个数据段保存为一份写入副本和对应的多份读取副本,其中写入副本采用行存储形式进行存储,读取副本采用列存储形式进行存储,各读取副本中数据采用不同的方式组织,该方法包括接收客户端发起的访问请求;在访问请求是数据写入操作的情况下根据元数据节点中保存的全局索引和访问请求中的主关键字确定待写入数据需写入的数据区间以及与该数据区间对应的写入副本节点,所述全局索引用于指示主关键字与数据区间以及与该数据区间对应的写入副本节点之间的对应关系;向待写入数据需要写入的写入副本节点发起操作请求,所述写入副本节点将更新数据追加写入其增量块中,所述增量块为记录更新数据的磁盘文件,所述更新数据为预置条数内待写入数据的集合;在访问请求是数据读取操作的情况下判断访问请求中是否有主关键字,如果有主关键字,则根据元数据节点中保存的全局索引和所述主关键字确定待读取数据所在的数据区间以及该数据区间对应的读取副本节点,并在有其他过滤条件的情况下,由所述读取副本节点确定一个与其他过滤条件最匹配的本地索引,在没有其他过滤条件的情况下,则任意选定一个本地索引,所述本地索引用于指示关键词与存储块的对应关系,所述存储块为存储数据的最小单位快;如果没有主关键字,则将访问请求发送至当前元数据节点下所有的数据区间,并在有其他过滤条件的情况下,由所述所有的数据区间对应的读取副本节点确定一个与其他过滤条件最匹配的本地索引,在没有其他过滤条件的情况下,则任意选定一个本地索引;确定所述待读取数据可能位于的存储块及与所述存储块对应的读取副本节点,并将所述访问请求发送给各个读取副本节点;所述读取副本节点判断其增量块中是否存在所述待读取数据的更新数据,如果是,就从增量块中读取待读取数据,如果否,则从所述本地索引指示的存储块中读取待读取数据,所述增量块为记录更新数据的磁盘文件。其中,所述全局索引的建立方法包括对所有的写入副本进行采样,并对采样得到的数据按照主关键字进行排序;对排序后的数据划分区间,并为划分后的数据区间分配对应的初始节点,形成初始全局索引;将所述初始全局索引发送给各个写入副本节点,以使所述各个写入副本节点依据所述数据区间与初始节点之间的对应关系分布数据;元数据节点接收各个写入副本节点返回的数据分布结果,并依据所述数据分布结果划分存储块,制定数据区间均衡调度计划并发送给各个写入副本节点,通知各个写入副本节点依据所述数据区间均衡调度计划进行排序,所述存储块为存储数据的最小单位快;各个写入副本节点开始节点内排序;接收各个写入副本节点发送的,以存储块为单位进行的排序和调度的结果,建立所述主关键字与所述数据区间及与该数据区间对应的写入副本节点之间的关系。其中,所述本地索引的建立方法包括在全局索引已经建立的情况下,为所述全局索引中的数据区间分配对应的读取副本节点;将上述分配关系发送给各个写入副本节点,所述写入副本节点将自身存储的数据记录发送至相应的读取副本节点存储;触发各个读取副本节点依据指定的排序列对读取副本中的数据进行排序;以存储块为单位保存排序后的数据,建立关键字与所述存储块及与该存储块对应的读取副本节点之间的关系。其中,所述方法还包括创建过滤器的操作,所述过滤器用于判断待读取数据是否位于某存储块中。其中,所述方法还包括
写入副本节点将所述更新数据发送给与其对应的读取副本节点;所述读取副本节点将所述更新数据批量写入增量块。其中,所述从所述本地索引指示的存储块中获取待读取数据,具体还包括在访问请求为具体值查询且查询列为关键字时,读取副本节点应用过滤器对指定的存储块进行过滤,一种数据库的读写系统,元数据节点将记录数据根据主关键字横向切分为多个数据段,每一个数据段保存为一份写入副本和对应的多份读取副本,其中写入副本采用行存储形式进行存储,读取副本采用列存储形式进行存储,各读取副本中数据采用不同的方式组织,该系统包括元数据节点,用于对客户端发起的访问进行请求判断,在访问请求是数据写入操作的情况下根据自身保存的全局索引和访问请求中的主关键字确定待写入数据所在的数据区间以及与该数据区间对应的写入副本节点;向待写入数据需要写入的写入副本节点发起操作请求;在访问请求是数据读取操作的情况下判断访问请求中是否有关键字,如果有主关键字,则根据自身保存的全局索引和所述主关键字确定待读取数据所在的数据区间以及该数据区间对应的读取副本节点;如果没有主关键字,则将访问请求发送至当前元数据节点下所有的数据区间;确定所述待读取数据可能位于的存储块及与所述存储块对应的读取副本节点,并将所述访问请求发送给各个读取副本节点;写入副本节点,用于在接收到元数据节点发起的操作请求后,将更新数据追加写入其增量块中;读取副本节点,用于在有其他过滤条件的情况下,确定一个与其他过滤条件最匹配的本地索引,在没有其他过滤条件的情况下,则任意选定一个本地索引,确定所述待读取数据可能位于的存储块,判断其增量块中是否存在所述待读取数据的更新数据,如果是,就从增量块中读取待读取数据,如果否,则从所述本地索引指示的存储块中获取待读取数据。其中,所述元数据节点还用于对所有的写入副本进行采样,并对采样得到的数据按照主关键字进行排序;对排序后的数据划分区间,并为划分后的数据区间分配对应的初始节点,形成初始全局索引;将所述初始全局索引发送给各个写入副本节点,以使所述各个写入副本节点依据所述数据区间与初始节点之间的对应关系分布数据;接收各个写入副本节点返回的数据分布结果,并依据所述数据分布结果划分数据块,制定数据区间均衡调度计划并发送给各个写入副本节点;接收各个写入副本节点发送的,以存储块为单位进行的排序和调度的结果,建立所述主关键字与所述数据区间及与该数据区间对应的写入副本节点之间的关系;所述写入副本节点还用于根据元数据节点发送来的初始全局索引来进行数据分布;根据元数据节点制定的数据区间均衡调度计划在节点内进行排序并在节点间进行调度。其中,所述元数据节点还用于为所述全局索引中的数据区间分配对应的读取副本节点;将上述分配关系发送给各个写入副本节点;触发各个读取副本节点依据指定的排序列对读取副本中的数据进行排序;所述写入副本节点还用于接收到所述元数据节点发来的分配关系后,将自身存储的数据记录发送至相应的读取副本节点存储;所述读取副本节点还用于以存储块为单位保存排序后的数据,建立关键字与所述存储块及与该存储块对应的读取副本节点之间的关系。其中,所述读取副本节点还用于创建过滤器。其中,所述写入副本节点还用于将所述更新数据发送给与其对应的读取副本节点;所述读取副本节点还用于将所述更新数据批量写入增量块。其中,所述读取副本节点还用于在访问请求为具体值查询且查询列为关键字时,应用过滤器对指定的存储块进行过滤。经由上述的技术方案可知,与现有技术相比,本发明公开了一种数据库的读写方法及系统,该方法将记录数据横向切分为多个数据段,每一个数据段保存为一份写入副本和对应的多份读取副本,其中写入副本采用行存储形式进行存储,优化了数据库的写入性能,读取副本采用列存储形式进行存储,优化了数据库的读取性能,该方法还建立了全局索引与本地索引,利用全局索引和本地索引快速定位访问请求需要访问的位置,利用此系统既能够实现数据的快速写入,也能够实现数据的快速读取。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明实施例公开的系统结构示意图;图2为本发明实施例公开的数据写入操作流程示意图;图3为本发明实施例公开的建立全局索引流程示意图;图4为本发明实施例公开的数据读取操作流程示意图;图5为本发明实施例公开的建立本地索引流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例一图1为本发明实施例在实际应用中各个节点的结构示意图,其中,一个元数据节点下包括η个写入副本节点,而一个写入副本节点对应m个读取副本节点,其中,η和m均为自然数。例如,对于写入副本节点I来说,其对应的m个读取副本节点分别为读取副本
节点1-1、读取副本节点1-2......读取副本节点Ι-m。在实际应用中,图1中的元数据节
点首先将数据库中的记录数据横向切分为多个数据段,然后将每一个数据段都保存在一个写入副本节点中,这些写入副本节点采用行存储的形式对数据进行存储,便于实现用户对数据库进行快速写入操作。元数据节点再根据数据的特征,在每一个写入副本节点下,为写 入副本节点中的数据段分配多个读取副本节点,然后将每个写入副本节点中的数据段复制到与该写入副本节点对应的读取副本节点中,这些读取副本节点采用列存储的形式对数据进行存储,且每一个写入副本节点下的各读取副本节点间采用不同的顺序组织数据,以便于实现用户对数据库进行快速读取操作。参见图2所示,图2是实现本发明数据写入方法的实施例流程图,具体步骤可以如下步骤201 :接收客户端发起的访问请求,所述访问请求为数据写入操作。本步骤中,由元数据节点接收客户端发起的数据写入操作。步骤202 :根据元数据节点中保存的全局索引和访问请求中的主关键字确定待写入数据需写入的数据区间以及与该数据区间对应的写入副本节点,所述全局索引用于指示主关键字与数据区间以及与该数据区间对应的写入副本节点之间的对应关系。本步骤中,元数据节点本身保存有全局索引,因为全局索引中记录了主关键字与数据区间的对应关系,所以当元数据节点接收到带有主关键词的数据写入操作时,能够根据此对应关系确定待写入数据应该写入哪个数据区间,然后元数据节点再根据全局索引里记录的数据区间与写入副本节点的对应关系确定数据写入操作应该在哪一个写入副本节点进行。其中,所述全局索引建立的方法可参见图3,其步骤具体如下步骤301 :元数据节点对所有的写入副本进行采样,并对采样得到的数据按照主关键字进行排序。本步骤中,元数据节点对所有写入副本节点中的记录数据进行采样,样本比例可以由用户定义,然后将采样得到的数据以主关键字为比较元素进行排序。步骤302 :对排序后的数据划分区间,并为划分后的数据区间分配对应的初始节点,形成初始全局索引。本步骤中,将排好序的数据划分区间,并且为划分好的每一个区间分配一个初始的节点,每一个初始节点中存储了采样得来的相对应区间里的数据,这样就形成了一个未优化的初始全局索引。步骤303 :将所述初始全局索引发送给各个写入副本节点,以使所述各个写入副本节点依据所述数据区间与初始节点之间的对应关系分布数据。本步骤中,将步骤302中形成的初始全局索引发送到各个写入副本节点,各个写入副本节点接收到所述初始全局索引后,将本身记录的每一个数据的主关键字与初始全局索引中的区间进行比较,确定该数据记录应位于哪一个数据区间,然后将该数据发送至与确定的数据区间对应的写入副本节点存储。同时,各个写入副本节点上都记录了各数据区间数据记录的数目。步骤304:元数据节点接收各个写入副本节点返回的数据分布结果,并依据所述数据分布结果划分存储块,制定数据区间均衡调度计划并发送给各个写入副本节点,通知各个写入副本节点依据所述数据区间均衡调度计划进行排序,所述存储块为存储数据的最小单位快。本步骤中,各个写入副本节点将根据初始全局索引进行的数据分布结果发送给元数据节点,元数据节点对各个数据区间的数据记录分布做统计计算,然后根据此计算结果和管理员配置的存储块内存,划分存储块,制定以存储块为单位的数据区间均衡调度计划,将此计划发送给各个写入副本节点并通知各个写入副本节点根据此计划进行排序调度。步骤305 :各个写入副本节点开始节点内排序及节点间调度。本步骤中,各个写入副本节点根据数据区间均衡调度计划以存储块为单位进行排序,并将需要发送到其他写入副本节点的存储块按计划发送到指定存储块。步骤306 :元数据节点接收各个写入副本节点发送的,以存储块为单位进行的排序和调度的结果,建立所述主关键字与所述数据区间及与该数据区间对应的写入副本节点之间的对应关系。本步骤中,各个写入副本节点将步骤305生成的,以存储块为单位的排序及调度结果发送至元数据节点,元数据节点记录下各个存储块的主关键字与所述数据区间及与该数据区间对应的写入副本节点之间的对应关系,形成一份全局索引。步骤203 :向待写入数据需要写入的写入副本节点发起操作请求,该写入副本节点将更新数据追加写入其增量块中,所述增量块为记录更新数据的磁盘文件,所述更新数据为预置条数内待写入数据的集合。本步骤中,元数据节点向步骤202确定的,待写入数据需要写入的写入副本节点发起数据写入操作请求,该写入副本节点接受到请求后,将更新数据以追加的方式写入其增量块,完成数据的写入。其中,还包括写入副本节点将更新数据发送给与其对应的读取副本节点的操作。本实施例中,首先由元数据节点接受数据写入操作请求,然后根据全局索引确定待写入数据需要写入的数据区间,再将访问请求发送给与所述数据区间对应的写入副本节点,由该写入副本节点进行数据写入操作,而写入副本节点中的数据记录是采用行存储形式进行存储的,优化了数据库的写入性能,因此采用本发明的数据写入方法实施例,能够实现数据的快速写入。实施例二图1为本发明实施例在实际应用中各个节点的结构示意图,其中各个节点的应用功能及特点可参照实施例一中关于图1的描述。参见图4所示,图4是实现本发明数据读取方法的实施例流程图,具体步骤可以如下步骤401 :接受客户端发起的访问请求,所述访问请求为数据读取操作。本步骤中,由元数据节点接受客户端发起的数据读取操作。步骤402 :判断访问请求中是否有主关键字,如果有,则执行步骤403 ;如果没有,则执行步骤404。本步骤中,由元数据节点判断访问请求中是否含有主关键字。步骤403 :根据元数据节点中保存的全局索引和所述主关键字确定待读取数据所在的数据区间以及该数据区间对应的读取副本节点。本步骤中,元数据节点本身保存有全局索引,因为全局索引中记录了主关键字与数据区间的对应关系,所以当元数据节点接收到带有主关键词的数据读取操作时,能够根据此对应关系确定待读取数据应该位于哪个数据区间,然后元数据节点再根据全局索引里记录的数据区间与读取副本节点的对应关系确定数据读取操作应该在哪些副本节点进行。步骤404 :将访问请求发送至当前元数据节点下所有的数据区间。本步骤中,在访问请求中没有主关键字的情况下,元数据节点不能确定待读取数据位于哪个数据区间,所以将访问请求发送至所有的数据区间。步骤405 :判断访问请求中是否含有其他过滤条件,如果有,则执行步骤406 ;如果没有,则执行步骤407。本步骤中,由读取副本节点判断访问请求中是否含有其他过滤条件。步骤406 :由所述读取副本节点确定一个与其他过滤条件最匹配的本地索引,所述本地索引用于指示关键词与存储块的对应关系,所述存储块为存储数据的最小单位快。本步骤中,在确定访问请求中有其他过滤条件的情况下,所述读取副本节点选择一个与其他过滤条件内容最匹配的本地索引用于过滤。其中,所述本地索引的建立方法可参见图5,其步骤具体如下步骤501 :判断全局索引是否已建立,如果是,则进入步骤503 ;如果不是,则进入步骤502。本步骤中,由元数据节点判断全局索引是否已建立。步骤502 :建立全局索引。本步骤中,在全局索引没有建立的情况下,元数据节点首先需要建立全局索引,建立方法可参照实施例一中全局索引的建立方法。步骤503 :元数据节点为所述全局索引中的数据区间分配对应的读取副本节点。本步骤中,在全局索引已经建立的情况下,元数据节点根据记录数据的特性,为全局索引中的每一个数据区间分配多个读取副本节点。步骤504:将上述分配关系发送给各个写入副本节点,所述写入副本节点将自身存储的数据记录发送至相应的读取副本节点存储。本步骤中,元数据节点将步骤504所述分配关系发送给各个写入副本节点,各个写入副本节点接受到所述分配关系后,将自身存储的数据记录复制到与其对应的各个读取副本节点。步骤505 :元数据节点触发各个读取副本节点依据指定的排序列对读取副本节点中的数据进行排序。
本步骤中,元数据节点触发各个读取副本节点依据不同的关键字对数据记录进行排序。步骤506 :读取副本节点以存储块为单位保存排序后的数据,建立关键字与所述存储块及与该存储块对应的读取副本节点之间的关系。本步骤中,各个读取副本节存储步骤505中生成的,以存储块为单位的排序结果,记录下各个存储块的关键字与所述数据区间及与该数据区间对应的读取副本节点之间的对应关系,形成一份本地索引。其中,在建立本地索引的同时还包括创建过滤器的操作,所述过滤器用于判断待读取数据是否位于某存储块中。每个过滤器都对应一个单独的存储块,通过过滤器能够判断待读取数据是否存在于某个存储块中。它的插入方法为预先准备一个长度为m的比特组,m的值预计为存储块元素的20倍左右,比特组内部元素初始值为O。当向存储块中追加一行记录时,使用k个不同的无用函数对该记录的索引列进行计算,计算结果的值域处于
,以这k个计算结果为索引,将比特组中对应的元素置为I。步骤407 :任意选定一个本地索引。本步骤中,在没有其他过滤条件的情况下,所述读取副本节点不能确定一个本地索引用于过滤,所以任意选定一个本地索引用于过滤。步骤408 :确定所述待读取数据可能位于的存储块及与所述存储块对应的读取副本节点,并将所述访问请求发送给各个读取副本节点。由上述步骤,根据已判断出的数据区间以及本地索引,确定所述待读取数据可能位于的存储块,再根据本地索引确定与所述存储块对应的读取副本节点,确定了所述读取副本节点后,元数据节点将访问请求发送给所述读取副本节点。其中,所述读取副本节点在接收到元数据节点的访问请求后,在访问请求为具体值查询且查询列为索引列的情况下,进行以下步骤(A)、对访问请求应用过滤器对指定的存储块以及增量块进行过滤,排除所有没有待读取数据的存储块;判断待读取数据是否存在于某个存储块中的方法为使用上述k个不同的无用函数对待读取数据进行计算,得出k个计算结果;将这k个计算结果作为索引到比特组中去查询,如果存在一个元素值为0,说明待读取数据在此存储块中不存在;如果比特组中不存在为O的元素值,说明待读取数据在此存储块中可能存在,还需要进一步比较判别。(B)、根据其他过滤条件你和本地索引对数据进行定位,得到待读取数据在存储块中的序号,记为R ;(C)、根据本地索引查询得到的序号R和查询得到待读取数据所在的存储块的位置,准备读取数据;(D)、并行执行以下操作,打开待读取数据所在的文件,由索引查询到比R小的最大序号,取得该序号对应的文件偏移并定位到该位置,依次读取文件中的元素,直到第R个元素为止。步骤409 :所述读取副本节点判断其增量块中是否存在所述待读取数据的更新数据,如果是,则执行步骤410 ;如果否,则执行步骤411,所述增量块为记录更新数据的磁盘文件。其中,所述读取副本节点增量块中的更新数据,是由与所述读取副本节点对应的写入副本节点发送而来的。所述读取副本节点在更新数据的记录条数积累达到阈值时,再对数据进行行列转换,由行存储变为列存储,同时对每一列数据进行可拆分压缩,将转换后的数据批量写入磁盘,由于所述读取数据节点的增量块积累的变大,会降低系统的查询性能,因此需要定期对节点内的所有数据块进行合并排序,以保持数据的顺序性。其中,对数据进行行列转换具体可以为对一行数据记录中的各个属性点,拆分后存储到对应的列文件中,所述属性点为一行数据记录中具有单独属性的信息。其中,一行记录中用作排序的属性点叫做“排序列”,所述用作排序的属性是在本地索引创建时指定的,一行记录中除了“排序列”,其他的属性点叫做“非排序列”。“排序列”和“非排序列在写入磁盘时的组织方式不同。排序列按顺序存放在磁盘中。为了快速的定位数据所在位置,需要引用辅助的索引文件,可以使用B+tree。在排序列的索引中存储了某存储块中起始元素的值,序号,以及在文件中的偏移,进行排序列元素具体值读取时,在存储块中从起始元素的偏移值开始,依次从文件中读取排序列元素,直到读取到要查询的排序列元素为止,将初始值的序号加上读取时跳过的排序列元素数目,得到需要读取的排序列元素的全局序号,记为k,所述全局序号用于指示需要读取数据记录在某存储块中的位置。非排序列在磁盘中的存放没有固定的顺序,同样应用B+tree。在非排序列的索引中存储了某存储块中起始元素在文件中的偏移位置及序号,进行非排序列元素具体值读取时,在确定了需要读取排序列元素的全局序号后,从起始元素的偏移位置开始,依次从文件中读取非排序列元素,直到读到第k个非排序列元素。这样通过排序列元素具体值读取和与所述排序列元素对应的非排序列元素读取,完成对待读取数据的完整的读取工作步骤410 :从增量块中读取待读取数据。本步骤中,在确定待读取数据在所述读取副本节点的增量块中有更新数据时,直接读取所述读取副本节点增量块中的,待读取数据的更新数据。步骤411 :从所述本地索引指示的存储块中读取待读取数据。本步骤中,在确定待读取数据在所述读取副本节点的增量块种没有更新数据时,从步骤408中确定的存储块中读取待读取数据。本实施例中,首先由元数据节点接受数据读取操作请求,判断访问请求中是否有主关键字和其他过滤条件,有主关键字的情况下,可以根据主关键字和全局索引确定待读取数据所在的数据区间,没有主关键字的情况下,将访问请求发送至所有的数据区间;在访问请求中有其他过滤条件的情况下,能够确定一个与所述其他过滤条件最匹配的本地索引用于过滤,在访问请求中没有其他过滤条件的情况下,任意选定一个本地索引用于过滤。确定好待读取数据所在的数据区间和存储块后,将访问请求发送给与确定的数据区间对应的读取副本节点,由该读取副本节点进行数据读取操作,在访问请求为具体值查询且查询列为索引列的情况下,还可以利用本地索引中的过滤器快速定位待读取数据所在的存储块。读取副本节点中的数据记录是采用列存储形式进行存储的,优化了数据库的读取性能,因此采用本发明的数据读取方法实施例,能够实现数据的快速读取。实施例三一种数据库的读写系统,可参见图1,图1为本发明实施例公开的系统结构示意图。元数据节点将记录数据根据主关键字横向切分为多个数据段,每一个数据段保存为一份写入副本和对应的多份读取副本,其中写入副本采用行存储形式进行存储,读取副本采用列存储形式进行存储,各读取副本中数据采用不同的方式组织,该系统可以包括元数据节点,用于对客户端发起的访问进行请求判断,在访问请求是数据写入操作的情况下根据自身保存的全局索引和访问请求中的主关键字确定待写入数据所在的数据区间以及与该数据区间对应的写入副本节点;向待写入数据需要写入的写入副本节点发起操作请求;在访问请求是数据读取操作的情况下判断访问请求中是否有关键字,如果有主关键字,则根据自身保存的全局索引和所述主关键字确定待读取数据所在的数据区间以及该数据区间对应的读取副本节点;如果没有主关键字,则将访问请求发送至当前元数据节点下所有的数据区间;确定所述待读取数据可能位于的存储块及与所述存储块对应的读取副本节点,并将所述访问请求发送给各个读取副本节点;写入副本节点,用于在接收到元数据节点发起的操作请求后,将更新数据追加写入其增量块中;读取副本节点,用于在有其他过滤条件的情况下,确定一个与其他过滤条件最匹配的本地索引,在没有其他过滤条件的情况下,则任意选定一个本地索引,确定所述待读取数据可能位于的存储块,判断其增量块中是否存在所述待读取数据的更新数据,如果是,就从增量块中读取待读取数据,如果否,则从所述本地索引指示的存储块中获取待读取数据。在实际应用中,在所述元数据节点中保存的全局索引的建立过程中,所述元数据节点可以用于对所有的写入副本进行采样,并对采样得到的数据按照主关键字进行排序;对排序后的数据划分区间,并为划分后的数据区间分配对应的初始节点,形成初始全局索引;将所述初始全局索引发送给各个写入副本节点,以使所述各个写入副本节点依据所述数据区间与初始节点之间的对应关系分布数据;接收各个写入副本节点返回的数据分布结果,并依据所述数据分布结果划分数据块,制定数据区间均衡调度计划并发送给各个写入副本节点;接收各个写入副本节点发送的,以存储块为单位进行的排序和调度的结果,建立所述主关键字与所述数据区间及与该数据区间对应的写入副本节点之间的关系;同时在所述元数据节点中保存的全局索引的建立过程中,所述写入副本节点也可以用于根据元数据节点发送来的初始全局索引来进行数据分布;根据元数据节点制定的数据区间均衡调度计划在节点内进行排序并在节点间进行调度。在实际应用中,在本地索引的建立过程中,所述元数据节点还可以用于为所述全局索引中的数据区间分配对应的读取副本节点;将上述分配关系发送给各个写入副本节点;触发各个读取副本节点依据指定的排序列对读取副本中的数据进行排序;在本地索引的建立过程中,所述写入副本节点还可以用于接收到所述元数据节点发来的分配关系后,将自身存储的数据记录发送至相应的读取副本节点存储;在本地索引的建立过程中,所述读取副本节点还可以用于以存储块为单位保存排序后的数据,建立关键字与所述存储块及与该存储块对应的读取副本节点之间的关系。在其他的实施例中,所述读取副本节点还可以用于创建过滤器。在其他实施例中,所述写入副本节点还可以用于将所述更新数据发送给与其对应的读取副本节点;所述读取副本节点还可以用于将所述更新数据批量写入增量块。在其他实施例中,所述读取副本节点还可以用于在访问请求为具体值查询且查询列为关键字时,应用过滤器对指定的存储块进行过滤。本实施例公开的数据读写系统,可以优化数据库的读写性能,能够实现数据的快速写入和快速读取。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
权利要求
1.一种数据库的读写方法,其特征在于,将记录数据根据主关键字横向切分为多个数据段,每一个数据段保存为一份写入副本和对应的多份读取副本,其中写入副本采用行存储形式进行存储,读取副本采用列存储形式进行存储,各读取副本中数据采用不同的方式组织,该方法包括接收客户端发起的访问请求;在访问请求是数据写入操作的情况下根据元数据节点中保存的全局索引和访问请求中的主关键字确定待写入数据需写入的数据区间以及与该数据区间对应的写入副本节点,所述全局索引用于指示主关键字与数据区间以及与该数据区间对应的写入副本节点之间的对应关系;向待写入数据需要写入的写入副本节点发起操作请求,所述写入副本节点将更新数据追加写入其增量块中,所述增量块为记录更新数据的磁盘文件,所述更新数据为预置条数内待写入数据的集合;在访问请求是数据读取操作的情况下判断访问请求中是否有主关键字,如果有主关键字,则根据元数据节点中保存的全局索引和所述主关键字确定待读取数据所在的数据区间以及该数据区间对应的读取副本节点,并在有其他过滤条件的情况下,由所述读取副本节点确定一个与其他过滤条件最匹配的本地索引,在没有其他过滤条件的情况下,则任意选定一个本地索引,所述本地索引用于指示关键词与存储块的对应关系,所述存储块为存储数据的最小单位快;如果没有主关键字,则将访问请求发送至当前元数据节点下所有的数据区间,并在有其他过滤条件的情况下,由所述所有的数据区间对应的读取副本节点确定一个与其他过滤条件最匹配的本地索引,在没有其他过滤条件的情况下,则任意选定一个本地索引;确定所述待读取数据可能位于的存储块及与所述存储块对应的读取副本节点,并将所述访问请求发送给各个读取副本节点;所述读取副本节点判断其增量块中是否存在所述待读取数据的更新数据,如果是,就从增量块中读取待读取数据,如果否,则从所述本地索引指示的存储块中读取待读取数据, 所述增量块为记录更新数据的磁盘文件。
2.根据权利要求1所述的方法,其特征在于,所述全局索引的建立方法包括对所有的写入副本进行采样,并对采样得到的数据按照主关键字进行排序;对排序后的数据划分区间,并为划分后的数据区间分配对应的初始节点,形成初始全局索引;将所述初始全局索引发送给各个写入副本节点,以使所述各个写入副本节点依据所述数据区间与初始节点之间的对应关系分布数据;元数据节点接收各个写入副本节点返回的数据分布结果,并依据所述数据分布结果划分存储块,制定数据区间均衡调度计划并发送给各个写入副本节点,通知各个写入副本节点依据所述数据区间均衡调度计划进行排序,所述存储块为存储数据的最小单位快; 各个写入副本节点开始节点内排序;接收各个写入副本节点发送的,以存储块为单位进行的排序和调度的结果,建立所述主关键字与所述数据区间及与该数据区间对应的写入副本节点之间的关系。
3.根据权利要求1所述的方法,其特征在于,所述本地索引的建立方法包括在全局索引已经建立的情况下,为所述全局索引中的数据区间分配对应的读取副本节占. 将上述分配关系发送给各个写入副本节点,所述写入副本节点将自身存储的数据记录发送至相应的读取副本节点存储; 触发各个读取副本节点依据指定的排序列对读取副本中的数据进行排序; 以存储块为单位保存排序后的数据,建立关键字与所述存储块及与该存储块对应的读取副本节点之间的关系。
4.根据权利要3所述的方法,其特征在于,所述方法还包括创建过滤器的操作,所述过滤器用于判断待读取数据是否位于某存储块中。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括 写入副本节点将所述更新数据发送给与其对应的读取副本节点; 所述读取副本节点将所述更新数据批量写入增量块。
6.根据权利要求1所述的方法,其特征在于,所述从所述本地索引指示的存储块中获取待读取数据,具体还包括 在访问请求为具体值查询且查询列为关键字时,读取副本节点应用过滤器对指定的存储块进行过滤。
7.一种数据库的读写系统,其特征在于,将记录数据根据主关键字横向切分为多个数据段,每一个数据段保存为一份写入副本和对应的多份读取副本,其中写入副本采用行存储形式进行存储,读取副本采用列存储形式进行存储,各读取副本中数据采用不同的方式组织,该系统包括 元数据节点,用于对客户端发起的访问进行请求判断,在访问请求是数据写入操作的情况下 根据自身保存的全局索引和访问请求中的主关键字确定待写入数据所在的数据区间以及与该数据区间对应的写入副本节点; 向待写入数据需要写入的写入副本节点发起操作请求; 在访问请求是数据读取操作的情况下 判断访问请求中是否有关键字,如果有主关键字,则根据自身保存的全局索引和所述主关键字确定待读取数据所在的数据区间以及该数据区间对应的读取副本节点; 如果没有主关键字,则将访问请求发送至当前元数据节点下所有的数据区间; 确定所述待读取数据可能位于的存储块及与所述存储块对应的读取副本节点,并将所述访问请求发送给各个读取副本节点; 写入副本节点,用于在接收到元数据节点发起的操作请求后,将更新数据追加写入其增量块中; 读取副本节点,用于在有其他过滤条件的情况下,确定一个与其他过滤条件最匹配的本地索引,在没有其他过滤条件的情况下,则任意选定一个本地索引,确定所述待读取数据可能位于的存储块,判断其增量块中是否存在所述待读取数据的更新数据,如果是,就从增量块中读取待读取数据,如果否,则从所述本地索引指示的存储块中获取待读取数据。
8.根据权利要求7所述的系统,其特征在于,所述元数据节点还用于对所有的写入副本进行采样,并对采样得到的数据按照主关键字进行排序;对排序后的数据划分区间,并为划分后的数据区间分配对应的初始节点,形成初始全局索引; 将所述初始全局索引发送给各个写入副本节点,以使所述各个写入副本节点依据所述数据区间与初始节点之间的对应关系分布数据; 接收各个写入副本节点返回的数据分布结果,并依据所述数据分布结果划分数据块,制定数据区间均衡调度计划并发送给各个写入副本节点; 接收各个写入副本节点发送的,以存储块为单位进行的排序和调度的结果,建立所述主关键字与所述数据区间及与该数据区间对应的写入副本节点之间的关系; 所述写入副本节点还用于 根据元数据节点发送来的初始全局索引来进行数据分布; 根据元数据节点制定的数据区间均衡调度计划在节点内进行排序并在节点间进行调度。
9.根据权利要求7所述的系统,其特征在于,所述元数据节点还用于 为所述全局索引中的数据区间分配对应的读取副本节点; 将上述分配关系发送给各个写入副本节点; 触发各个读取副本节点依据指定的排序列对读取副本中的数据进行排序; 所述写入副本节点还用于 接收到所述元数据节点发来的分配关系后,将自身存储的数据记录发送至相应的读取副本节点存储; 所述读取副本节点还用于 以存储块为单位保存排序后的数据,建立关键字与所述存储块及与该存储块对应的读取副本节点之间的关系。
10.根据权利要求7所述的系统,其特征在于,所述读取副本节点还用于 创建过滤器。
11.根据权利要求7所述的系统,其特征在于,所述写入副本节点还用于 将所述更新数据发送给与其对应的读取副本节点; 所述读取副本节点还用于 将所述更新数据批量写入增量块。
12.根据权利要求7所述的系统,其特征在于,所述读取副本节点还用于 在访问请求为具体值查询且查询列为关键字时,应用过滤器对指定的存储块进行过滤。
全文摘要
本发明实施例公开了一种数据库读写方法及系统,该方法将记录数据根据主关键字横向切分为多个数据段,每一个数据段保存为一份写入副本和对应的多份读取副本,其中写入副本采用行存储形式进行存储,优化了数据库的写入性能;读取副本采用列存储形式进行存储,各读取副本中数据采用不同的方式组织,优化了数据库的读取性能。该方法还建立了全局索引和本地索引,在进行数据写入或读取操作时,能够快速定位待写入数据或待读取数据的操作位置。采用本发明的方法实施例或者系统实施例,不仅能够实现数据的快速写入,还能够实现数据的快速读取。
文档编号G06F17/30GK102999519SQ20111027332
公开日2013年3月27日 申请日期2011年9月15日 优先权日2011年9月15日
发明者邓明, 潘佳伟, 邢钦华 申请人:上海盛付通电子商务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1