基于数据访问权限的分布式处理方法、装置及系统与流程

文档序号:15852438发布日期:2018-11-07 10:17阅读:262来源:国知局
基于数据访问权限的分布式处理方法、装置及系统与流程

本发明涉及计算机技术领域,具体涉及一种基于数据访问权限的分布式处理方法、装置及系统。

背景技术

随着计算机技术的日益发展,要处理的数据量越来越多,因此,出现了各种各样的大数据处理引擎。在这些大数据处理引擎中,为了提升处理效率,通常将要处理的数据分成多个块,然后将这些块分发到多个不同的机器上进行处理,处理完成之后再进行结果的汇聚,俗称分布式处理。例如,图1示出了一种常用的分布式处理系统的架构图。如图1所示,数据存储节点11用于存储业务数据,数据处理主节点12用于读取待处理的业务数据的描述信息,并将待处理的业务数据进行分块后分发给多个数据处理从节点13,各个数据处理从节点13根据各个分块的分块信息从数据存储节点11中读取对应的分块数据,以进行分布式处理,最后,各个数据处理从节点13将各自处理完毕的分块数据交由数据汇总节点14进行汇总。

但是,发明人在实现本发明的过程中发现,现有技术中的上述方式至少存在如下缺陷:在上述的分布式处理方式中,各个数据处理从节点13都需要从数据存储节点11中读取业务数据。然而,在特定的业务应用场景中,数据存储平台和数据处理平台往往部署在不同的机器环境中,并由不同的业务部门负责管理。相应地,为了提升系统的安全性,数据存储节点需要对各个数据处理节点进行鉴权,只有在鉴权通过后才允许对应的数据处理节点读取其中的业务数据。但是,实际情况中,分布式处理系统中的数据处理从节点数量众多,且在数据处理之前无法预先确定本次数据处理过程由哪些数据处理从节点负责,因此,当图1所示的分布式处理系统应用于上述特定应用场景时,必须预先针对所有的数据处理从节点开通用于访问数据存储节点的权限,否则就无法实现分布式处理,只得采用单机处理方式,而单机处理方式受限于内存容量等条件的制约,势必无法胜任大数据的处理需求。

但是,上述的通过开通各个数据处理从节点的权限而实现的分布式处理方式至少具有如下缺陷:一方面,由于数据存储节点通常为安全性很高的数据库,因此,若要开通访问权限,必须在该数据库中逐一配置各个数据处理从节点的节点信息(包括ip地址、端口号等具体信息),而每个数据处理从节点的节点信息均不相同,因此,上述配置过程势必会耗费大量的时间和精力。另一方面,由于实际情况中,数据存储节点的数量可能为多个,且数据处理从节点的数量又非常庞大,若针对全部的数据处理从节点都开通用于访问各个数据存储节点的权限,势必会对系统的安全性造成巨大影响,使得权限管理功能形同虚设,无法实现其应有的鉴权效果。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于数据访问权限的分布式处理方法、装置及系统。

根据本发明的一个方面,提供了基于数据访问权限的分布式处理方法,包括:

第一处理单元确定与待处理数据相对应的数据存储单元,从数据存储单元中读取待处理数据;

将读取到的与待处理数据相对应的数据内容信息存储至预设存储空间,并将预设存储空间中存储的数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息;

分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元,以供各个第二处理单元从预设存储空间中读取与子信息标识对应的数据内容子信息,以执行分布式处理;

其中,第一处理单元具有访问数据存储单元的权限,且各个第二处理单元具有访问预设存储空间的权限。

根据本发明的另一个方面,提供了基于数据访问权限的分布式处理装置,包括:

读取模块,适于确定与待处理数据相对应的数据存储单元,从所述数据存储单元中读取所述待处理数据;

转存模块,适于将读取到的与所述待处理数据相对应的数据内容信息存储至预设存储空间,并将所述预设存储空间中存储的所述数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息;

分发模块,适于分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述子信息标识对应的数据内容子信息,以执行分布式处理;

其中,所述读取模块具有访问所述数据存储单元的权限,且各个第二处理单元具有访问所述预设存储空间的权限。

根据本发明的又一方面,提供了一种基于数据访问权限的分布式处理系统,包括:上述的分布式处理装置、以及第二处理单元。

根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;

存储器用于存放至少一可执行指令,可执行指令使处理器执行上述基于数据访问权限的分布式处理方法对应的操作。

根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于数据访问权限的分布式处理方法对应的操作。

根据本发明公开的基于数据访问权限的分布式处理方法、装置及系统,能够由第一处理单元将待处理的数据从数据存储单元中读出并转存至预设存储空间,进而由多个第二处理单元从预设存储空间中读取与本单元相对应的数据,以实现分布式处理。在上述方式中,无需在数据存储单元中逐一为各个第二处理单元配置访问权限,只需向各个第二处理单元开放预设存储空间的访问权限即可。由此一来,一方面,避免了逐一配置权限的繁琐操作,提升了效率;另一方面,避免了因向全部的第二处理单元开放数据存储单元的访问权限所导致的安全问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了一种常用的分布式处理系统的架构图;

图2示出了本发明实施例一的基于数据访问权限的分布式处理方法的流程示意图;

图3示出了本发明实施例二的基于数据访问权限的分布式处理方法的流程示意图;

图4示出了本实施例中的分布式系统的架构图;

图5示出了本发明实施例三的基于数据表的应用权限配置装置的功能框图;

图6示出了本发明实施例六的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图2示出了本发明实施例一的基于数据访问权限的分布式处理方法的流程示意图。如图2所示,该方法包括:

步骤s210:第一处理单元确定与待处理数据相对应的数据存储单元,从数据存储单元中读取待处理数据。

其中,第一处理单元可以为各类形式的处理单元,例如,可以是集群系统中的主节点,也可以是系统中的中央控制节点。总之,本发明对第一处理单元的具体形式不做限定。数据存储单元可以为用于存储业务数据的数据库或机房等。第一处理单元具有访问数据存储单元的权限。具体地,第一处理单元可以根据接收到的用户终端发送的数据访问请求确定与待处理数据相对应的数据存储单元,还可以根据接收到的管理终端发送的数据配置请求确定与待处理数据相对应的数据存储单元,本发明对此不做限定。确定与待处理数据相对应的数据存储单元之后,进一步从数据存储单元中读取待处理数据。具体读取时,可采用多线程或单线程等各类方式读取,本发明对读取方式不做限定。

步骤s220:将读取到的与待处理数据相对应的数据内容信息存储至预设存储空间,并将预设存储空间中存储的数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息。

其中,第一处理单元读取待处理数据之后,将与待处理数据相对应的数据内容信息存储至预设存储空间。其中,与待处理数据相对应的数据内容信息可以与待处理数据完全相同,也可以与待处理数据存在格式或形式上的差异。也就是说,第一处理单元既可以将读取到的待处理数据直接存储到预设存储空间,也可以对待处理数据进行预设处理并得到处理后的数据内容信息后再存储到预设存储空间。其中,预设处理包括多种,例如,可以为将一个大文件切分为多个小文件的切分处理,也可以为从中剔除无用信息的简化处理,还可以为格式转换处理,以便转换为更节约空间、或更易被第二处理单元识别的内容。

预设存储空间可以为第一处理单元中的存储空间,也可以为独立于第一处理单元的外部设备中的存储空间,本发明对预设存储空间的具体位置不做限定。预设存储空间可以为磁盘空间或硬盘空间等,本发明对预设存储空间的具体形式也不做限定。

具体地,在将预设存储空间中存储的数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息时,可以根据第二处理单元的数量以及数据内容信息的大小进行划分。

步骤s230:分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元,以供各个第二处理单元从预设存储空间中读取与子信息标识对应的数据内容子信息,以执行分布式处理。

其中,各个数据内容子信息对应的子信息标识可以为子信息id、子信息所对应的内容在数据内容信息中的存储位置或范围等,只要能够唯一标识预设存储空间中划分的各个数据内容子信息即可。相应地,各个第二处理单元从预设存储空间中读取与子信息标识对应的数据内容子信息,以执行分布式处理。其中,各个第二处理单元具有访问预设存储空间的权限。由于预设存储空间中的存储内容是由第一处理单元经过甄选后的内容,因此可以开放给各个第二处理单元而不会对业务安全性造成影响。另外,由于预设存储空间可以为文件空间,相应地,只需向第二处理单元提供对应的访问口令信息即可,无需在预设存储空间中逐一为各个第二处理单元配置权限信息,因此高效便捷。

根据本发明公开的基于数据访问权限的分布式处理方法,能够由第一处理单元将待处理的数据从数据存储单元中读出并转存至预设存储空间,进而由多个第二处理单元从预设存储空间中读取与本单元相对应的数据,以实现分布式处理。在上述方式中,无需在数据存储单元中逐一为各个第二处理单元配置访问权限,只需向各个第二处理单元开放预设存储空间的访问权限即可。由此一来,一方面,避免了逐一配置权限的繁琐操作,提升了效率;另一方面,避免了因向全部的第二处理单元开放数据存储单元的访问权限所导致的安全问题。

实施例二

图3示出了本发明实施例二的基于数据访问权限的分布式处理方法的流程示意图。如图3所示,该方法包括:

步骤s300:预先在业务数据库中输入与第一处理单元相对应的权限配置信息;其中,权限配置信息用于为第一处理单元配置用于访问业务数据库的权限。

其中,本实施例中的第一处理单元为分布式集群中的主节点。业务数据库即为数据存储单元,用于存储业务数据。其中,由于实际情况中,业务数据库的数量可能非常多,例如,一个公司具有多条业务线,而每个业务线分别对应于多个业务数据库。相应地,为了进一步提升安全性,可以预先根据业务需求确定第一处理单元与各个业务数据库的对应关系,例如,预先分配第一处理单元用于处理第一类型的业务线上对应的业务数据,相应地,仅在第一类型的业务线所对应的各个业务数据库中输入与第一处理单元相对应的权限配置信息。具体地,与第一处理单元相对应的权限配置信息可能包括:ip地址、主机名称、端口号等多种。

步骤s310:第一处理单元确定与待处理数据相对应的业务数据库,从业务数据库中读取待处理数据。

具体读取时,为了提升效率,可采用多线程的方式进行读取。另外,由于很多大数据处理引擎的计算操作都是基于内存实现的,相应地,为了防止因内存溢出所导致的宕机问题,在本实施例中,第一处理单元根据内存存储容量确定单次读取数据量,每次读取待处理数据时,将与单次读取数据量相对应的待处理数据加载至内存中,并将已加载至内存中的待处理数据转存至预设存储空间。其中,内存存储容量包括:内存总容量和/或内存剩余容量。根据内存存储容量能够控制单次读取数据的大小,以防止内存溢出问题。

步骤s320:将读取到的与待处理数据相对应的数据内容信息进一步划分为多个分块内容信息,将各个分块内容信息分别存储至预设存储空间。

其中,发明人在实现本发明的过程中发现,在图1所示的现有方式中,数据处理主节点12仅用于读取待处理的业务数据的描述信息,所谓描述信息包括:待处理的业务数据的名称、标识、存储位置、文件大小、文件类型等相关信息。相应地,数据处理主节点12直接调用预设的分布式处理代码将对应的业务数据的描述信息进一步划分为多个分别对应于不同的数据处理子节点的分块信息。在上述过程中,由于数据处理主节点12并未读取完整的业务数据,因此,分发给各个数据处理子节点的分块信息仅用于描述每个分块在完整的业务数据中的具体位置或范围,而各个数据处理子节点必须访问完整的业务数据以获取与分块信息相对应的分块的数据。在上述方式中,若完整的业务数据的数据量非常庞大,例如动辄达到上百g时,由于每个数据处理子节点都必须访问完整的业务数据而导致子节点的读取耗时巨大,严重降低了系统处理效率。另外,当完整的业务数据超出子节点的内存剩余空间时,还可能导致子节点内存泄露,从而使子节点宕机。

为了解决上述问题,在本实施例中,第一处理单元将读取到的与待处理数据相对应的数据内容信息进一步划分为多个分块内容信息。每个分块内容信息作为一个单独的文件独立存储。具体实施时,可根据待处理数据的数据总量和/或第二处理单元的数量,确定单个分块内容信息的数据量。例如,假设待处理数据为20g,相应地,可将其划分为10个分块内容信息,每个分块内容信息为2g。由于每个分块内容信息作为一个单独的文件独立存储,因此,后续过程中,各个第二处理单元只需访问与其对应的分块内容信息即可,无需访问完整的待处理数据,由此大幅提升了处理效率,且有效避免了子节点因内存泄露而宕机的问题。为了便于各个第二处理单元查询与其对应的分块内容信息,分别为每个分块内容信息设置唯一的分块标识信息。

具体地,在划分多个分块内容信息,将各个分块内容信息分别存储至预设存储空间时,为了提升效率,可生成与多个分块内容信息相对应的多个处理任务,通过多个处理任务并行读取并存储多个分块内容信息。

另外,由于不同的业务线可能分别对应于预设存储空间中的不同目录,相应地,各个分块内容信息在各自的目录中也是单独存储的,因此,每个第二处理单元仅获取与其对应的分块内容信息,而不获取与其无关的分块内容信息的方式还能够进一步防止无关节点对于数据的访问,由此进一步提升安全性。在安全性较高的场景中,还可以进一步控制各个第二处理单元获取分块内容信息的权限,以使每个第二处理单元仅能有权限获取与其相关的分块内容信息,而无权限获取与其无关的分块内容信息,从而有效提高安全性。

步骤s330:将预设存储空间中存储的数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息。

其中,由于本实施例中的数据内容信息进一步包括多个分块内容信息,相应地,本步骤实质上是将各个分块内容信息进一步划分为多个分别与各个第二处理单元相对应的数据内容子信息。其中,由于分块内容信息的大小可能大于数据内容子信息,也可能小于数据内容子信息,因此,一个分块内容信息可能对应于多个数据内容子信息(此时分别将每个分块内容信息划分为多个数据内容子信息即可),或者,也可能一个数据内容子信息对应于多个分块内容信息(此时,可能多个分块内容信息共同构成一个数据内容子信息)。

具体地,为了便于处理,在划分数据内容子信息时,可以不必在物理上将各个分块内容信息实际拆分为多个,只需获取各个分块内容信息对应的描述信息,并根据描述信息将其虚拟地划分为多个即可。例如,假设分块内容信息对应的描述信息为“分块id为1,且数据量共200m”,相应地,将其拆分为两个数据内容子信息,分别通过如下内容标识“id为1的分块中前100m数据”以及“id为1的分块中后100m数据”。其中,能够唯一标识一个数据内容子信息的内容称为该数据内容子信息对应的子信息标识。

步骤s340:分别将各个数据内容子信息对应的子信息标识及其对应的分块内容信息的分块标识信息分发给对应的第二处理单元,以供各个第二处理单元从预设存储空间中读取与分块标识信息对应的分块内容信息,以获取与子信息标识相对应的数据内容子信息并执行分布式处理。

其中,本实施例中的第二处理单元为分布式集群中的从节点。并且,为了使各个第二处理单元能够访问预设存储空间的内容,需要为第二处理单元配置用于访问预设存储空间的权限。具体地,在本实施例中,预设存储空间为独立于第一处理单元的数据转存单元中的磁盘空间,相应地,在为第二处理单元配置用于访问预设存储空间的权限时,可以预先为预设存储空间设置访问所需的访问口令信息,将访问口令信息提供给第二处理单元;其中,访问口令信息包括:用户名、口令、和/或密钥等。由此可见,各个第二处理单元可以按照用户登录的方式直接输入访问口令信息以访问预设存储空间,无需在预设存储空间中逐一输入各个第二处理单元的配置信息,由此大幅提升了权限配置效率。

为了便于理解,图4示出了本实施例中的分布式系统的架构图。如图4所示,该分布式系统包括:业务数据库41、第一处理单元42、数据转存单元43、多个第二处理单元44以及数据汇总单元45。其中,业务数据库属于数据存储平台,第一处理单元42、数据转存单元43、多个第二处理单元44以及数据汇总单元45均属于数据处理平台,相应地,两个平台之间需要鉴权后才能进行访问。因此,在本实施例中,预先向第一处理单元42开放业务数据库的访问权限,并将读取到的业务数据转存至数据转存单元43,以供各个第二处理单元从数据转存单元43中读取转存后的数据并进行分布式处理,最后,数据汇总单元45汇总各个第二处理单元的处理结果,以得到最终的分布式处理结果。

综上可知,在本实施例中,各个第二处理单元具有访问预设存储空间的权限。由于预设存储空间的具体位置是固定不变的,其中的存储内容是由第一处理单元经过甄选后临时转存的内容,因此可以预先将预设存储空间开放给各个第二处理单元而不会对业务安全性造成影响。该方案实质上相当于通过一次数据在预设存储空间的落地而兼顾权限与分布式问题。另外,由于预设存储空间可通过访问口令信息进行访问,因此只需向第二处理单元提供对应的访问口令信息即可,无需在预设存储空间中逐一为各个第二处理单元配置权限信息,因此高效便捷。在上述方式中,无需在数据存储单元中逐一为各个第二处理单元配置访问权限,只需向各个第二处理单元开放预设存储空间的访问权限即可。由此一来,一方面,避免了逐一配置权限的繁琐操作,提升了效率;另一方面,避免了因向全部的第二处理单元开放数据存储单元的访问权限所导致的安全问题。

另外,本实施例提供的基于数据访问权限的分布式处理方法尤其适用于大数据场景中,由于数据存储单元以及第二处理单元的数量庞大(第二处理单元的数量动辄达到上千个),因此,若分别针对每个数据存储单元逐一配置全部第二处理单元的访问权限,则势必会耗费大量时间并严重威胁系统安全,所以采用本实施例中的方式能够很好地解决上述问题。另外,该方式还尤其适用于第二处理单元的数量和位置均为未知的场景中。例如,在spark等大数据处理引擎中,由程序代码自动分配第二处理单元,每次数据处理过程中对应的第二处理单元均是由程序代码根据预设的规则自动分配的(例如根据各个第二处理单元的负载情况、剩余任务情况、处理性能等),因此,在该类场景中,无法人为干预并预测本次数据处理过程将分配给哪些第二处理单元,自然也可以预先有针对性地为其配置访问权限,因此,在该种场景中采用本发明中的方案无疑具备巨大优势。

另外,若采用现有技术中因权限问题而单机处理的方案时,很容易造成内存溢出问题,而本发明中的基于数据转存的方式在基于内存实现的大数据处理引擎中显然能够有效避免内存溢出所导致的系统宕机。

实施例三

图5示出了本发明实施例三的基于数据表的应用权限配置装置的功能框图。如图5所示,该装置包括:

读取模块52,适于确定与待处理数据相对应的数据存储单元,从所述数据存储单元中读取所述待处理数据;

转存模块53,适于将读取到的与所述待处理数据相对应的数据内容信息存储至预设存储空间,并将所述预设存储空间中存储的所述数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息;

分发模块55,适于分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述子信息标识对应的数据内容子信息,以执行分布式处理;

其中,所述读取模块具有访问所述数据存储单元的权限,且各个第二处理单元具有访问所述预设存储空间的权限。

可选地,其中,所述转存模块53具体适于:

将读取到的与所述待处理数据相对应的数据内容信息进一步划分为多个分块内容信息,将各个分块内容信息分别存储至预设存储空间。

可选地,其中,一个分块内容信息对应于多个数据内容子信息,或者,一个数据内容子信息对应于多个分块内容信息;

则所述分发模块55具体适于:

分别将各个数据内容子信息对应的子信息标识及其对应的分块内容信息的分块标识信息分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述分块标识信息对应的分块内容信息,以获取与所述子信息标识相对应的数据内容子信息。

可选地,其中,所述转存模块53具体适于:

根据所述待处理数据的数据总量和/或所述第二处理单元的数量,确定单个分块内容信息的数据量。

可选地,其中,所述转存模块53具体适于:

生成与多个分块内容信息相对应的多个处理任务,通过所述多个处理任务并行读取并存储多个分块内容信息。

可选地,其中,所述读取模块52、转存模块53具体适于:

根据内存存储容量确定单次读取数据量,每次读取所述待处理数据时,将与所述单次读取数据量相对应的待处理数据加载至内存中,并将已加载至内存中的待处理数据转存至所述预设存储空间。

可选地,其中,所述数据存储单元为用于存储业务数据的业务数据库,所述第一处理单元为分布式集群中的主节点,所述第二处理单元为分布式集群中的从节点;

则所述装置进一步包括:输入模块51,适于预先在所述业务数据库中输入与所述第一处理单元相对应的权限配置信息;其中,所述权限配置信息用于为所述第一处理单元配置用于访问所述业务数据库的权限;

且所述装置进一步包括配置模块54:适于为所述第二处理单元配置用于访问所述预设存储空间的权限。

可选地,其中,所述配置模块54具体适于:

预先为所述预设存储空间设置访问所需的访问口令信息,将所述访问口令信息提供给所述第二处理单元;其中,所述访问口令信息包括:用户名、口令、和/或密钥。

上述各个模块的具体结构和工作原理可参照方法实施例中相应步骤的描述,此处不再赘述。

实施例四

本发明还提供了一种基于数据访问权限的分布式处理系统,至少包括:上述的分布式处理装置、以及第二处理单元。

实施例五

本申请实施例五提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于多个存储设备的数据访问方法。

实施例六

图6示出了本发明实施例六的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。

如图6所示,该电子设备可以包括:处理器(processor)602、通信接口(communicationsinterface)604、存储器(memory)606、以及通信总线608。

其中:

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器602,用于执行程序610,具体可以执行上述基于数据访问权限的分布式处理方法实施例中的相关步骤。

具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。

处理器602可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器606,用于存放程序610。存储器606可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行以下操作:

第一处理单元确定与待处理数据相对应的数据存储单元,从所述数据存储单元中读取所述待处理数据;

将读取到的与所述待处理数据相对应的数据内容信息存储至预设存储空间,并将所述预设存储空间中存储的所述数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息;

分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述子信息标识对应的数据内容子信息,以执行分布式处理;

其中,所述第一处理单元具有访问所述数据存储单元的权限,且各个第二处理单元具有访问所述预设存储空间的权限。

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:将读取到的与所述待处理数据相对应的数据内容信息进一步划分为多个分块内容信息,将各个分块内容信息分别存储至预设存储空间。

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:其中,一个分块内容信息对应于多个数据内容子信息,或者,一个数据内容子信息对应于多个分块内容信息;

则在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:

分别将各个数据内容子信息对应的子信息标识及其对应的分块内容信息的分块标识信息分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述分块标识信息对应的分块内容信息,以获取与所述子信息标识相对应的数据内容子信息。

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:

根据所述待处理数据的数据总量和/或所述第二处理单元的数量,确定单个分块内容信息的数据量。

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:生成与多个分块内容信息相对应的多个处理任务,通过所述多个处理任务并行读取并存储多个分块内容信息。

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:

根据内存存储容量确定单次读取数据量,每次读取所述待处理数据时,将与所述单次读取数据量相对应的待处理数据加载至内存中,并将已加载至内存中的待处理数据转存至所述预设存储空间。

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:其中,所述数据存储单元为用于存储业务数据的业务数据库,所述第一处理单元为分布式集群中的主节点,所述第二处理单元为分布式集群中的从节点;

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:预先在所述业务数据库中输入与所述第一处理单元相对应的权限配置信息;其中,所述权限配置信息用于为所述第一处理单元配置用于访问所述业务数据库的权限;

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:为所述第二处理单元配置用于访问所述预设存储空间的权限。

在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:预先为所述预设存储空间设置访问所需的访问口令信息,将所述访问口令信息提供给所述第二处理单元;其中,所述访问口令信息包括:用户名、口令、和/或密钥。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的基于数据访问权限的分布式处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明还公开了a1.一种基于数据访问权限的分布式处理方法,包括:

第一处理单元确定与待处理数据相对应的数据存储单元,从所述数据存储单元中读取所述待处理数据;

将读取到的与所述待处理数据相对应的数据内容信息存储至预设存储空间,并将所述预设存储空间中存储的所述数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息;

分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述子信息标识对应的数据内容子信息,以执行分布式处理;

其中,所述第一处理单元具有访问所述数据存储单元的权限,且各个第二处理单元具有访问所述预设存储空间的权限。

a2.根据a1所述的方法,其中,所述将读取到的与所述待处理数据相对应的数据内容信息存储至预设存储空间的步骤具体包括:

将读取到的与所述待处理数据相对应的数据内容信息进一步划分为多个分块内容信息,将各个分块内容信息分别存储至预设存储空间。

a3.根据a2所述的方法,其中,一个分块内容信息对应于多个数据内容子信息,或者,一个数据内容子信息对应于多个分块内容信息;

则所述分别将各个数据内容子信息对应的信息标识分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述信息标识对应的数据内容子信息的步骤具体包括:

分别将各个数据内容子信息对应的子信息标识及其对应的分块内容信息的分块标识信息分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述分块标识信息对应的分块内容信息,以获取与所述子信息标识相对应的数据内容子信息。

a4.根据a2或3所述的方法,其中,所述将读取到的与所述待处理数据相对应的数据内容信息进一步划分为多个分块内容信息的步骤具体包括:

根据所述待处理数据的数据总量和/或所述第二处理单元的数量,确定单个分块内容信息的数据量。

a5.根据a2-4任一所述的方法,其中,所述将读取到的与所述待处理数据相对应的数据内容信息进一步划分为多个分块内容信息,将各个分块内容信息分别存储至预设存储空间的步骤具体包括:

生成与多个分块内容信息相对应的多个处理任务,通过所述多个处理任务并行读取并存储多个分块内容信息。

a6.根据a1-5任一所述的方法,其中,所述从所述数据存储单元中读取所述待处理数据;将读取到的与所述待处理数据相对应的数据内容信息存储至预设存储空间的步骤具体包括:

根据内存存储容量确定单次读取数据量,每次读取所述待处理数据时,将与所述单次读取数据量相对应的待处理数据加载至内存中,并将已加载至内存中的待处理数据转存至所述预设存储空间。

a7.根据a1-6任一所述的方法,其中,所述数据存储单元为用于存储业务数据的业务数据库,所述第一处理单元为分布式集群中的主节点,所述第二处理单元为分布式集群中的从节点;

则所述方法进一步包括:预先在所述业务数据库中输入与所述第一处理单元相对应的权限配置信息;其中,所述权限配置信息用于为所述第一处理单元配置用于访问所述业务数据库的权限;

且所述分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元的步骤之前,进一步包括:为所述第二处理单元配置用于访问所述预设存储空间的权限。

a8.根据a7所述的方法,其中,所述预设存储空间为磁盘空间,所述为所述第二处理单元配置用于访问所述预设存储空间的权限的步骤具体包括:

预先为所述预设存储空间设置访问所需的访问口令信息,将所述访问口令信息提供给所述第二处理单元;其中,所述访问口令信息包括:用户名、口令、和/或密钥。

b9.一种基于数据访问权限的分布式处理装置,其中,所述装置集成在第一处理单元中,具体包括:

读取模块,适于确定与待处理数据相对应的数据存储单元,从所述数据存储单元中读取所述待处理数据;

转存模块,适于将读取到的与所述待处理数据相对应的数据内容信息存储至预设存储空间,并将所述预设存储空间中存储的所述数据内容信息划分为多个分别与各个第二处理单元相对应的数据内容子信息;

分发模块,适于分别将各个数据内容子信息对应的子信息标识分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述子信息标识对应的数据内容子信息,以执行分布式处理;

其中,所述读取模块具有访问所述数据存储单元的权限,且各个第二处理单元具有访问所述预设存储空间的权限。

b10.根据b9所述的装置,其中,所述转存模块具体适于:

将读取到的与所述待处理数据相对应的数据内容信息进一步划分为多个分块内容信息,将各个分块内容信息分别存储至预设存储空间。

b11.根据b10所述的装置,其中,一个分块内容信息对应于多个数据内容子信息,或者,一个数据内容子信息对应于多个分块内容信息;

则所述分发模块具体适于:

分别将各个数据内容子信息对应的子信息标识及其对应的分块内容信息的分块标识信息分发给对应的第二处理单元,以供各个第二处理单元从所述预设存储空间中读取与所述分块标识信息对应的分块内容信息,以获取与所述子信息标识相对应的数据内容子信息。

b12.根据b10或11所述的装置,其中,所述转存模块具体适于:

根据所述待处理数据的数据总量和/或所述第二处理单元的数量,确定单个分块内容信息的数据量。

b13.根据b10-12任一所述的装置,其中,所述转存模块具体适于:

生成与多个分块内容信息相对应的多个处理任务,通过所述多个处理任务并行读取并存储多个分块内容信息。

b14.根据b9-13任一所述的装置,其中,所述读取模块、转存模块具体适于:

根据内存存储容量确定单次读取数据量,每次读取所述待处理数据时,将与所述单次读取数据量相对应的待处理数据加载至内存中,并将已加载至内存中的待处理数据转存至所述预设存储空间。

b15.根据b9-14任一所述的装置,其中,所述数据存储单元为用于存储业务数据的业务数据库,所述第一处理单元为分布式集群中的主节点,所述第二处理单元为分布式集群中的从节点;

则所述装置进一步包括:输入模块,适于预先在所述业务数据库中输入与所述第一处理单元相对应的权限配置信息;其中,所述权限配置信息用于为所述第一处理单元配置用于访问所述业务数据库的权限;

且所述装置进一步包括配置模块:适于为所述第二处理单元配置用于访问所述预设存储空间的权限。

b16.根据b15所述的装置,其中,所述配置模块具体适于:

预先为所述预设存储空间设置访问所需的访问口令信息,将所述访问口令信息提供给所述第二处理单元;其中,所述访问口令信息包括:用户名、口令、和/或密钥。

c17.一种基于数据访问权限的分布式处理系统,包括:上述a9-16任一所述的分布式处理装置、以及第二处理单元。

d18.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如a1-8中任一项所述的基于数据访问权限的分布式处理方法对应的操作。

e19.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如a1-8中任一项所述的基于数据访问权限的分布式处理方法对应的操作。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1