一种数据抽取的方法及装置制造方法

文档序号:6637533阅读:238来源:国知局
一种数据抽取的方法及装置制造方法
【专利摘要】本发明提供了一种数据抽取的方法及装置,包括接收数据抽取请求,该数据抽取请求是根据用户选择的数据抽取策略生成的,该数据抽取策略与大数据平台类型具有对应关系;根据所述数据抽取请求确定对应的大数据平台类型;根据确定的大数据平台类型将数据抽取请求封装为所述大数据平台可识别的数据抽取指令;发送数据抽取指令至对应的大数据平台,所述大数据平台进行数据抽取;最后确定数据抽取的数据结果集。采用本发明提供的技术方案,无需使用不同的大数据平台各自的数据抽取方式分别进行数据抽取,解决了现有技术中没有统一的数据抽取方法实现从不同的大数据平台上抽取数据的问题。
【专利说明】一种数据抽取的方法及装置

【技术领域】
[0001]本发明涉及数据存储【技术领域】,特别涉及一种数据抽取的方法及装置。

【背景技术】
[0002]随着社会的发展,数据呈现出爆炸式的增长,数据以各种各样的形式存储,包括结构化数据和非结构化数据;而大数据平台又各种各样,结构化数据库、非结构化数据库、分布式文件系统等。目前各种大数据平台都提供了各自的管理工具和客户端工具,并支持各自的数据抽取方式。
[0003]由于在一个系统中可能同时包含了多个大数据平台,那么要想从所有大数据平台上执行数据抽取的操作,需要熟悉所有大数据平台的操作方法,同时需要对不同的大数据平台抽取数据后执行相同的处理过程,而这些任务又因为大数据平台的不同需要单独处理,导致重复性的工作,同时操作步骤的增加,也会在一定程度上增加操作失败的可能性。
[0004]现有技术的不足在于:
[0005]现有技术中不能够方便地从不同的大数据平台上抽取数据。


【发明内容】

[0006]本发明实施例中提供了一种数据抽取的方法及装置,用以解决现有技术中不能够方便地从不同的大数据平台抽取数据导致的操作复杂的问题。
[0007]本发明实施例中提供了一种数据抽取的方法,包括步骤:
[0008]接收数据抽取请求,所述数据抽取请求是根据用户选择的数据抽取策略生成的,所述数据抽取策略与大数据平台类型具有对应关系;
[0009]根据所述数据抽取请求确定对应的大数据平台类型;
[0010]根据确定的大数据平台类型将数据抽取请求封装为所述大数据平台可识别的数据抽取指令;
[0011]发送数据抽取指令至对应的大数据平台,所述大数据平台进行数据抽取;
[0012]确定数据抽取的数据结果集。
[0013]本发明实施例中提供了一种数据抽取的装置,包括:
[0014]数据抽取接口,用于接收数据抽取请求,所述数据抽取请求是根据用户选择的数据抽取策略生成的,所述数据抽取策略与大数据平台类型具有对应关系;
[0015]数据抽取引擎,用于根据所述数据抽取请求确定对应的大数据平台类型;
[0016]大数据平台代理,用于根据确定的大数据平台类型将数据抽取请求封装为所述大数据平台可识别的数据抽取指令;
[0017]大数据平台代理进一步用于发送数据抽取指令至对应的大数据平台,所述大数据平台进行数据抽取;
[0018]数据抽取引擎进一步用于确定数据抽取的数据结果集。
[0019]本发明的有益效果是:
[0020]本发明实施例提供的技术方案中,通过接收根据用户选择的数据抽取策略生成的数据抽取请求,将该数据抽取请求根据对应的大数据平台类型进行封装,进而将封装获得的数据抽取指令发送至对应的大数据平台进行数据抽取,无需使用不用的大数据平台各自的数据抽取方式分别进行数据抽取,有利于用户方便地进行数据抽取。

【专利附图】

【附图说明】
[0021]下面将参照附图描述本发明的具体实施例,其中:
[0022]图1为本发明实施例中数据抽取方法实施的流程示意图;
[0023]图2为本发明实施例中非对称加密算法的实施示意图;
[0024]图3为本发明实施例中确定用户权限的流程示意图;
[0025]图4为本发明实施例中添加大数据平台的流程示意图;
[0026]图5为本发明实施例中用户发出数据抽取请求的流程示意图;
[0027]图6为本发明实施例中数据抽取装置的结构示意图。

【具体实施方式】
[0028]为了使本发明实施例中的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。
[0029]发明人在发明过程中注意到:
[0030]现如今,从各种大数据平台抽取数据来为决策提供数据支撑已经成为企业认可和较常使用的方式。目前各种大数据平台都提供了各自的管理工具和客户端工具,并支持各自的数据抽取方式,例如Hive (数据仓库工具)的HQL(Hive SQL)语句,结构化数据库的 SQL (Structured Query Language,结构化查询语言)语句,HDFS (Hadoop DistributedFile System,分布式文件系统)开放的接口也支持与Unix命令类似的文件操作命令。
[0031]如果在一个系统中同时包含了多个大数据平台,那么要想从所有大数据平台上执行数据抽取的操作,需要熟悉所有大数据平台的操作方法。在进行数据抽取时,系统要分别针对不同的大数据平台单独处理,增加了操作的复杂程度,加大了抽取失败的可能性。
[0032]针对现有技术的不足,本发明实施例中提供了一种数据抽取的方法及装置,通过统一的数据抽取方法实现从不同的大数据平台上抽取数据。下面进行说明。
[0033]图1为本发明实施例中数据抽取方法实施的流程示意图,如图所示,可以包括步骤:
[0034]步骤101、接收数据抽取请求,所述数据抽取请求是根据用户选择的数据抽取策略生成的,所述数据抽取策略与大数据平台类型具有对应关系;
[0035]步骤102、根据所述数据抽取请求确定对应的大数据平台类型;
[0036]步骤103、根据确定的大数据平台类型将数据抽取请求封装为所述大数据平台可识别的数据抽取指令;
[0037]步骤104、发送数据抽取指令至对应的大数据平台,所述大数据平台进行数据抽取;
[0038]步骤105、确定数据抽取的数据结果集。
[0039]具体实施中,在用户侧,用户可以在WEB管理系统上进行操作,用户通过在WEB管理系统中选择数据抽取策略,点击抽取按钮,生成数据抽取请求。
[0040]在步骤105中的确定数据抽取的数据结果集,在实施中可以包括:
[0041]主动获取大数据平台上的数据抽取的数据结果集;
[0042]或者,被动接收大数据平台发送的数据抽取的数据结果集。
[0043]本发明实施例提供的技术方案中,通过接收根据用户选择的数据抽取策略生成的数据抽取请求,将该数据抽取请求根据对应的大数据平台类型进行封装,进而将封装获得的数据抽取指令发送至对应的大数据平台进行数据抽取,无需使用不同的大数据平台各自的数据抽取方式分别进行数据抽取,解决了现有技术中没有统一的数据抽取方法实现从不同的大数据平台上抽取数据的问题。
[0044]实施中,本发明实施例中数据抽取方法可以进一步包括通过大数据平台类型扩展接口加载大数据平台类型。
[0045]具体实施中,由于本发明实施例中的数据抽取装置支持的大数据平台类型可能不包括所有的大数据平台类型,但是可以通过大数据平台类型扩展接口动态加载大数据平台类型。具体地,通过指定的接口,将要加载的大数据平台类型封装后部署到本发明实施例中的数据抽取装置中,在运行期间就可以动态的加载大数据平台类型,并对已经加载的大数据平台类型提供支持。对于通用大数据平台类型,如:HDFS、Hive、HBase等要提供默认支持。
[0046]通过大数据平台类型扩展接口加载大数据平台类型,可以为用户提供更多的数据抽取的数据资源,提高用户数据抽取的完备性,提高用户体验。
[0047]实施中,在接收数据抽取请求之后,可以进一步包括:
[0048]对使用HTTPS协议加密的数据抽取请求进行解密获得未加密的数据抽取请求。
[0049]具体实施中,为了保证数据的安全性,用户侧可以对发出数据抽取请求进行加密,加密的方法可以使用HTTPS协议,也可以使用其他加密方法,本发明实施例中采用HTTPS协议加密仅作为优选实施方式,方便本领域技术人员理解和使用,但不限制使用其他加密方法。
[0050]实施中,在发送数据抽取指令至对应的大数据平台之前,可以进一步包括:
[0051]对数据抽取指令进行加密。
[0052]实施中,在确定数据抽取的数据结果集之前,可以进一步包括:
[0053]对从大数据平台获取的加密的数据结果集进行解密。
[0054]实施中,本发明实施例中的数据抽取方法中的加密方法可以采用非对称加密算法。
[0055]具体实施中,本发明实施例中数据抽取装置和大数据平台之间的数据可以进行加密处理。例如,可以采用本发明实施例中提供的非对称加密算法。
[0056]非对称加密算法(asymmetric cryptographic algorithm)又名“公开密钥加密算法”,非对称加密算法需要两个密钥:公开密钥(publickey)和私有密钥(privatekey),公开密钥与私有密钥是一对,如果用公开密钥对数据进行加密,只有用对应的私有密钥才能解密;如果用私有密钥对数据进行加密,那么只有用对应的公开密钥才能解密。因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法。
[0057]与对称密钥加密相比,非对称公钥加密优点在于无需共享通用密钥,解密的私钥不发往任何用户。即使公钥在网上被截获,如果没有与其匹配的私钥,也无法解密,所截获的公钥是没有任何用处的。
[0058]本发明实施例中采用非对称加密算法能够有效保证数据的安全性。
[0059]图2为本发明实施例中非对称加密算法的实施示意图,如图所示,本发明实施例中数据抽取装置生成一对密钥并将其中的一把作为公用密钥向大数据平台公开。得到该公用密钥的大数据平台使用该密钥对使用私钥加密的数据抽取指令进行解密,执行数据抽取指令,并将数据抽取的数据结果集利用公钥进行加密后再发送给数据抽取装置;数据抽取装置再用自己保存的另一把专用密钥对加密后的数据抽取的数据结果集进行解密。
[0060]本发明实施例中采用非对称加密算法仅作为优选实施方式,方便本领域技术人员理解和使用,但不限制使用其他加密方法。
[0061]实施中,在确定数据抽取的数据结果集之后,可以进一步包括:
[0062]将所述数据结果集进行展示和/或导出。
[0063]具体实施中,可以将数据抽取的数据结果集对用户进行展示,为用户提供可视化操作,使用户可以更直观的看到其所需要抽取的数据,提高用户体验。其中,展示的方式可以采用列表的形式,或者其他现有技术中的数据展示方式均可。同时,可以将数据抽取的数据结果集进行导出,导出数据时可以选择数据文件格式,例如原生格式文件、CSV (CommaSeparated Value,逗号分隔值)文件等。
[0064]通过将数据抽取的数据结果集对用户进行展示和/或导出,使用户直观的获得其抽取的数据,可以建立良好的使用观感,展示和导出也方便了用户的使用,提高用户体验。
[0065]实施中,在接收到数据抽取请求之后,可以进一步包括:
[0066]确定用户是否具有执行所述数据抽取策略的权限。
[0067]具体实施中,在接收到数据抽取请求之后,可以对用户是否具有权限进行判定。图3为本发明实施例中确定用户权限的流程示意图,如图所示,可以包括:
[0068]步骤301、接收用户发出的数据抽取请求;
[0069]步骤302、判断该用户是否能够执行此数据抽取策略;
[0070]若能够执行,则执行步骤303和步骤304 ;
[0071]若不能够执行,则执行步骤305 ;
[0072]步骤303、记录用户执行了数据抽取策略,并执行数据抽取操作;
[0073]步骤304、记录数据抽取的数据结果集,在得到数据结果集后结束;
[0074]步骤305、记录用户非法执行了数据抽取策略,并将权限问题反馈给用户,反馈后结束。
[0075]通过对用户权限的判断,可以有效防止非法用户的数据抽取操作,保证了数据安全。
[0076]另外,利用对用户权限判断生成的审计记录,可以对用户行为进行分析,对装置的服务进行分析等,通过这些分析,可以根据分析结果优化本发明实施例中的数据抽取方法及装置。
[0077]下面再以实例对实施例提供的数据抽取方法的使用进行说明,一个实例用以说明如何添加大数据平台,一个实例用以说明用户如何发出数据抽取请求,以及一个实例用以说明如何实现数据抽取。
[0078]图4为本发明实施例中添加大数据平台的流程示意图,如图所示,可以包括步骤:
[0079]步骤401、选取大数据平台类型;
[0080]步骤402、设置大数据平台相关参数;
[0081]步骤403、判断设置的参数是否合法;
[0082]若合法,则执行步骤404 ;
[0083]若不合法,则执行步骤402 ;
[0084]步骤404、将该大数据平台进行注册;
[0085]注册后执行步骤405 ;
[0086]步骤405、执行该大数据平台的测试用例;
[0087]步骤406、判断该测试用例是否通过;
[0088]若通过,则结束;
[0089]若不通过,则执行步骤407 ;
[0090]步骤407、根据错误解决问题,然后执行步骤405、重新执行测试用例。
[0091]在具体实施中,通过上述步骤401至步骤407就可以将本发明实施例中数据抽取装置支持的大数据平台类型下的大数据平台进行添加,可以使数据抽取的数据资源更加丰富,使用户抽取的数据更加完备。
[0092]图5为本发明实施例中用户发出数据抽取请求的流程示意图,如图所示,可以包括步骤:
[0093]步骤501、选取大数据平台类型;
[0094]步骤502、选择已经注册的大数据平台类型包含的示例;
[0095]步骤503、选取数据抽取策略;
[0096]步骤504、提交数据抽取按钮,发送数据抽取请求。
[0097]具体实施中,用户通过选择大数据平台类型和示例,再选择数据抽取策略,保证了数据抽取策略与待抽取大数据平台的对应关系。其中数据抽取策略可以是抽取的条件,例如:日期、种类、颜色等等。
[0098]下面再以实例对本发明实施例提供的数据抽取方法的具体使用进行说明,在用户提交了数据抽取请求之后,本发明实施例中数据抽取装置接收到数据抽取请求,首先判断该用户是否具有数据抽取的权限,若不具有,则将权限问题反馈给用户,若具有数据抽取的权限,则对加密的数据抽取请求进行解密,然后根据数据抽取请求确定对应的大数据平台类型,根据大数据平台类型将请求进行封装,封装为大数据平台可识别的数据抽取指令,然后将该指令利用非对称加密算法进行加密,将加密的指令发送至大数据平台,大数据平台进行解密后执行数据抽取操作,然后将数据抽取的数据结果集进行加密后反馈至数据抽取装置,数据抽取装置解密后可以将数据结果集进行展示或导出。
[0099]基于同一发明构思,本发明实施例中还提供了一种数据抽取的装置,由于装置解决问题的原理与一种数据抽取的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0100]图6为本发明实施例中数据抽取装置的结构示意图,如图所示,可以包括:
[0101]数据抽取接口 601,用于接收数据抽取请求,所述数据抽取请求是根据用户选择的数据抽取策略生成的,所述数据抽取策略与大数据平台类型具有对应关系;
[0102]数据抽取引擎602,用于根据所述数据抽取请求确定对应的大数据平台类型;
[0103]大数据平台代理603,用于根据确定的大数据平台类型将数据抽取请求封装为所述大数据平台可识别的数据抽取指令;
[0104]大数据平台代理603进一步用于发送数据抽取指令至对应的大数据平台,所述大数据平台进行数据抽取;
[0105]数据抽取引擎601进一步用于确定数据抽取的数据结果集。
[0106]实施中,本发明实施例中的数据抽取装置可以进一步包括:
[0107]加载模块604,用于通过大数据平台类型扩展接口加载大数据平台类型。
[0108]具体实施中,通过大数据平台类型扩展接口加载大数据平台类型,可以为用户提供更多的数据抽取的数据资源,提高用户数据抽取的完备性,提高用户体验。
[0109]实施中,数据抽取接口 601可以进一步用于在接收数据抽取请求之后,对使用HTTPS协议加密的数据抽取请求进行解密获得未加密的数据抽取请求。
[0110]具体实施中,为了保证数据的安全性,用户侧可以对发出数据抽取请求进行加密,本发明实施例中采用HTTPS协议加密仅作为优选实施方式,方便本领域技术人员理解和使用,但不限制使用其他加密方法。
[0111]实施中,大数据平台代理603可以进一步用于在发送数据抽取指令至对应的大数据平台之前,对数据抽取指令进行加密。
[0112]实施中,数据抽取引擎602可以进一步用于在确定数据抽取的数据结果集之前,对从大数据平台获取的加密的数据结果集进行解密。
[0113]实施中,大数据平台代理603和/或数据抽取引擎502采用的加密方法可以为非对称加密算法。
[0114]具体实施中,具体实施中,为了保证数据的安全性,本发明实施例中数据抽取装置和大数据平台之间的数据可以进行加密处理。例如,可以采用本发明实施例中提供的非对称加密算法。
[0115]实施中,数据抽取引擎602可以进一步用于在确定数据抽取的数据结果集之后,将所述数据结果集进行展示和/或导出。
[0116]具体实施中,通过将数据抽取的数据结果集对用户进行展示和/或导出,使用户直观的获得其抽取的数据,可以建立良好的使用观感,展示和导出也方便了用户的使用,提闻用户体验。
[0117]实施中,数据抽取接口 601可以进一步用于在接收到数据抽取请求之后,确定用户是否具有执行所述数据抽取策略的权限。
[0118]具体实施中,在接收到数据抽取请求之后,可以对用户是否具有权限进行判定,这样做可以防止非法用户执行数据抽取,提高数据安全性。
[0119]为了描述的方便,以上所述装置的各部分以功能分为各种部件或单元分别描述。当然,在实施本发明时可以把各部件或单元的功能在同一个或多个软件或硬件中实现。
[0120]本发明实施例提供的技术方案中,通过接收根据用户选择的数据抽取策略生成的数据抽取请求,将该数据抽取请求根据对应的大数据平台类型进行封装,进而将封装获得的数据抽取指令发送至对应的大数据平台进行数据抽取,无需使用不同的大数据平台各自的数据抽取方式分别进行数据抽取,解决了现有技术中没有统一的数据抽取方法实现从不同的大数据平台上抽取数据的问题。
[0121]同时,对数据抽取请求、数据抽取指令、抽取结果进行加密,保证了数据抽取过程和数据抽取结果的安全性。
[0122]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0123]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0124]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0125]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0126]尽管已描述了本发明的优选实施例,但本领域肉的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0127]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种数据抽取的方法,其特征在于,包括如下步骤: 接收数据抽取请求,所述数据抽取请求是根据用户选择的数据抽取策略生成的,所述数据抽取策略与大数据平台类型具有对应关系; 根据所述数据抽取请求确定对应的大数据平台类型; 根据确定的大数据平台类型将数据抽取请求封装为所述大数据平台可识别的数据抽取指令; 发送数据抽取指令至对应的大数据平台,所述大数据平台进行数据抽取; 确定数据抽取的数据结果集。
2.如权利要求1所述的方法,其特征在于,进一步包括: 通过大数据平台类型扩展接口加载大数据平台类型。
3.如权利要求1或2所述的方法,其特征在于,所述接收数据抽取请求之后,进一步包括: 对使用HTTPS协议加密的数据抽取请求进行解密获得未加密的数据抽取请求。
4.如权利要求1至3任一所述的方法,其特征在于,所述发送数据抽取指令至对应的大数据平台之前,进一步包括: 对数据抽取指令进行加密。
5.如权利要求1至4任一所述的方法,其特征在于,所述确定数据抽取的数据结果集之前,进一步包括: 对从大数据平台获取的加密的数据结果集进行解密。
6.如权利要求4或5所述的方法,其特征在于,所述加密方法为采用非对称加密算法。
7.如权利要求1至6任一所述的方法,其特征在于,所述确定数据抽取的数据结果集之后,进一步包括: 将所述数据结果集进行展示和/或导出。
8.如权利要求1至7任一所述的方法,其特征在于,在接收到数据抽取请求之后,进一步包括: 确定用户是否具有执行所述数据抽取策略的权限。
9.一种数据抽取的装置,其特征在于,包括: 数据抽取接口,用于接收数据抽取请求,所述数据抽取请求是根据用户选择的数据抽取策略生成的,所述数据抽取策略与大数据平台类型具有对应关系; 数据抽取引擎,用于根据所述数据抽取请求确定对应的大数据平台类型; 大数据平台代理,用于根据确定的大数据平台类型将数据抽取请求封装为所述大数据平台可识别的数据抽取指令; 大数据平台代理进一步用于发送数据抽取指令至对应的大数据平台,所述大数据平台进行数据抽取; 数据抽取引擎进一步用于确定数据抽取的数据结果集。
10.如权利要求9所述的装置,其特征在于,进一步包括: 加载模块,用于通过大数据平台类型扩展接口加载大数据平台类型。
11.如权利要求9或10所述的装置,其特征在于,所述数据抽取接口进一步用于在接收数据抽取请求之后,对使用HTTPS协议加密的数据抽取请求进行解密获得未加密的数据抽取请求。
12.如权利要求9至11任一所述的装置,其特征在于,所述大数据平台代理进一步用于在发送数据抽取指令至对应的大数据平台之前,对数据抽取指令进行加密。
13.如权利要求9至12任一所述的装置,其特征在于,所述数据抽取引擎进一步用于在确定数据抽取的数据结果集之前,对从大数据平台获取的加密的数据结果集进行解密。
14.如权利要求12或13所述的装置,其特征在于,所述大数据平台代理和/或数据抽取引擎采用的加密方法为非对称加密算法。
15.如权利要求9至14任一所述的装置,其特征在于,所述数据抽取引擎进一步用于在确定数据抽取的数据结果集之后,将所述数据结果集进行展示和/或导出。
16.如权利要求9至15任一所述的装置,其特征在于,所述数据抽取接口进一步用于在接收到数据抽取请求之后,确定用户是否具有执行所述数据抽取策略的权限。
【文档编号】G06F17/30GK104462348SQ201410737681
【公开日】2015年3月25日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】班军成, 郭庆, 解元, 谭超, 谢莹莹, 徐学辉 申请人:无锡城市云计算中心有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1