提取数据的方法和装置制造方法

文档序号:6626883阅读:213来源:国知局
提取数据的方法和装置制造方法
【专利摘要】本发明提供一种提取数据的方法和装置,能够节省从数据仓库提取数据的人力并且提高数据安全性。本发明的提取数据的方法包括:保存数据提取任务;在监听到保存了新的数据提取任务的情况下,执行该新的数据提取任务以从数据源中提取数据得到数据提取的结果文件;将所述结果文件发送到存储装置中,以供用户从该存储装置获取所述结果文件。
【专利说明】提取数据的方法和装置

【技术领域】
[0001 ] 本发明涉及一种提取数据的方法和装置。

【背景技术】
[0002]随着互联网的发展,产生的数据越来越多,人们对于数据分析研究也越来越重视,数据仓库在这样的背景下越来越发挥巨大的作用,业务方也拥有更大的动力在数据分析研究方面做出持续的投入。为了满足业务方灵活多样的数据分析需求,数据挖掘工程师经常需要帮助业务方人工从数据仓库中将其需要的相关数据提取出来,然后以文件的形式交给业务方。这个过程就是一个数据提取的过程。
[0003]在进行数据提取时,数据挖掘工程师根据业务方的需求,分析业务方需求的数据在数据仓库中的存储位置,然后通过手工执行数据仓库使用的数据库的语句的形式将数据仓库中的数据转换为普通文本文件,再将文本文件从线上数据仓库服务器下载到数据挖掘工程师的个人工作电脑,最后再通过企业内部的沟通工具发送给业务方,完成一次数据提取流程。
[0004]数据库语句的执行时间一般比较长,并且下载文本文件、发送文本文件也需较长的时间,而且这三个环节具有连贯性,任何一个环节的失败都需要人工重新操作,所以在执行这三个环节的过程中数据挖掘工程师必须持续保持关注,因此很难并行的去同时完成其他的工作,占用大量的人力。并且,由上述三个环节组成的整个过程中都是线下手工完成,数据在这个过程中经过多次流转,造成数据在多个地方存在多个备份,这些备份数据缺乏足够的记录及监管,存在数据泄露的风险。
[0005]因此目前从数据仓库提取数据的方案存在的主要问题是占用大量人力并且数据安全性不够。


【发明内容】

[0006]有鉴于此,本发明提供一种提取数据的方法和装置,能够节省从数据仓库提取数据的人力并且提高数据安全性。
[0007]为实现上述目的,根据本发明的一个方面,提供了一种提取数据的方法。
[0008]本发明的提取数据的方法包括:保存数据提取任务;在监听到保存了新的数据提取任务的情况下,执行该新的数据提取任务以从数据源中提取数据得到数据提取的结果文件;将所述结果文件发送到存储装置中,以供用户从该存储装置获取所述结果文件。
[0009]可选地,保存数据提取任务之前还包括:通过表单接收数据提取语句,然后根据该数据提取语句生成数据提取任务。
[0010]可选地,所述数据提取语句为所述数据源所使用的数据库的数据提取语句,所述数据提取任务为该数据库的数据提取任务。
[0011]可选地,将所述结果文件发送到存储装置中的步骤包括:将所述结果文件保存到临时存储目录中;将所述临时存储目录中的数据上传到云存储装置中,然后删除所述临时存储目录中的数据。
[0012]根据本发明的另一方面,提供了一种提取数据的装置
[0013]本发明的提取数据的装置包括:保存模块,用于保存数据提取任务;监听模块,用于监听所述保存模块是否保存了新的数据提取任务;执行模块,用于在所述监听模块监听到保存了新的数据提取任务的情况下,执行该新的数据提取任务以从数据源中提取数据得到数据提取的结果文件;处理模块,用于将所述结果文件发送到存储装置中,以供用户从该存储装置获取所述结果文件。
[0014]可选地,还包括接收模块和生成模块,其中:所述接收模块,用于通过表单接收数据提取语句;所述生成模块,用于根据所述数据提取语句生成数据提取任务。
[0015]可选地,所述数据提取语句为所述数据源所使用的数据库的数据提取语句,所述数据提取任务为该数据库的数据提取任务。
[0016]可选地,所述处理模块还用于:将所述结果文件保存到临时存储目录中;将所述临时存储目录中的数据上传到云存储装置中,然后删除所述临时存储目录中的数据。
[0017]根据本发明的技术方案,预先保存数据提取任务,对保存的数据提取任务进行监听以及执行监听到的数据提取任务,然后将执行数据提取任务得到的数据提供给用户进行下载。可以看出,这些步骤的组合使得数据提取基本是以自动化的方式完成,数据挖掘工程师只需按照业务方的数据提取需求,在人机界面中录入数据提取语句,然后无需数据挖掘工程师继续关注,就可以使业务方从存储装置例如云存储装置中获取数据。在该方案中,从数据源提取出的数据首先保存在临时目录中,待数据转存到具有较高安全性的云存储装置之后即删除该临时目录的内容,有助于保证数据的安全性。

【专利附图】

【附图说明】
[0018]附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
[0019]图1是根据本发明实施例的提取数据的方法的主要步骤的示意图;
[0020]图2是根据本发明实施例的提取数据的装置的主要模块的示意图。

【具体实施方式】
[0021]以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识至IJ,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]图1是根据本发明实施例的提取数据的方法的主要步骤的示意图。该方法可以通过一个作为软件的数据提取装置来实现。如图1所示,该提取数据的方法主要包括如下的步骤Sll至步骤S17。
[0023]步骤Sll:通过表单接收数据提取语句。上述的数据提取装置可以提供人机界面来接收数据提取语句,例如提供表单或其他控件来接收数据挖掘工程师输入的数据提取语句。数据提取语句是数据源所使用的数据库的数据提取语句,例如数据源使用的是SQL数据库,相应地数据提取语句即为SQL语句。
[0024]步骤S12:根据接收的数据提取语句生成数据提取任务然后保存。数据挖掘工程师也可以使用其他工具生成数据提取任务,然后由该数据提取装置保存。
[0025]步骤S13:判断是否监听到保存了新的数据提取任务。在本实施例中,数据提取装置持续监听以确定是否有新的数据提取任务。若是,则进入步骤S14,否则按监听频率延时之后返回本步骤继续进行监听。
[0026]步骤S14:执行监听到的新的数据提取任务。执行的结果即是从数据源中提取数据,得到数据提取的结果文件。
[0027]步骤S15:将结果文件保存到临时存储目录中。因为数据提取需要一定时间,相应地保存结果文件需要一定时间,待数据提取结果时形成完整的结果文件,再进行后续处理。
[0028]步骤S16:将临时存储目录中的数据上传到云存储装置中。这里的数据即为上述的结果文件。如果同时有多个任务执行,这里的数据也可以是形成的多个结果文件。步骤S15和步骤S16的目的是将提取到的数据保存在一个存储装置中以供用户获取该数据。云存储装置具有数据安全措施,因此将数据最终保存在云存储装置中有助于提高数据的安全性。用户例如业务方可以使用账户登录到云存储装置,进行数据下载。
[0029]步骤S17:删除临时存储目录中的数据。在将数据从临时存储目录上传到云存储装置之后,最好是将临时存储目录中的内容清空,以确保数据的安全。
[0030]图2是根据本发明实施例的提取数据的装置的主要模块的示意图。如图2所示,本发明实施例的提取数据的装置20主要包括保存模块21、监听模块22、执行模块23、以及处理模块24。保存模块21用于保存数据提取任务。监听模块22用于监听保存模块21是否保存了新的数据提取任务。执行模块23用于在监听模块22监听到保存了新的数据提取任务的情况下,执行该新的数据提取任务以从数据源中提取数据得到数据提取的结果文件。处理模块24用于将该结果文件发送到存储装置中,以供用户从该存储装置获取该结果文件。处理模块24还可用于将结果文件保存到临时存储目录中;以及将临时存储目录中的数据上传到云存储装置中,然后删除临时存储目录中的数据。
[0031]提取数据的装置20还可以包括接收模块和生成模块(图中未示出)。接收模块用于通过表单接收数据提取语句。生成模块用于根据数据提取语句生成数据提取任务。
[0032]根据本发明实施例的技术方案,预先保存数据提取任务,对保存的数据提取任务进行监听以及执行监听到的数据提取任务,然后将执行数据提取任务得到的数据提供给用户进行下载。可以看出,这些步骤的组合使得数据提取基本是以自动化的方式完成,数据挖掘工程师只需按照业务方的数据提取需求,在人机界面中录入数据提取语句,然后无需数据挖掘工程师继续关注,就可以使业务方从存储装置例如云存储装置中获取数据。在该方案中,从数据源提取出的数据首先保存在临时目录中,待数据转存到具有较高安全性的云存储装置之后即删除该临时目录的内容,有助于保证数据的安全性。
[0033]以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和设备的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
[0034]因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。
[0035]还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
[0036]上述【具体实施方式】,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
【权利要求】
1.一种提取数据的方法,其特征在于,包括: 保存数据提取任务; 在监听到保存了新的数据提取任务的情况下,执行该新的数据提取任务以从数据源中提取数据得到数据提取的结果文件; 将所述结果文件发送到存储装置中,以供用户从该存储装置获取所述结果文件。
2.根据权利要求1所述的方法,其特征在于,保存数据提取任务之前还包括:通过表单接收数据提取语句,然后根据该数据提取语句生成数据提取任务。
3.根据权利要求2所述的方法,其特征在于,所述数据提取语句为所述数据源所使用的数据库的数据提取语句,所述数据提取任务为该数据库的数据提取任务。
4.根据权利要求1,2或3所述的方法,其特征在于,将所述结果文件发送到存储装置中的步骤包括: 将所述结果文件保存到临时存储目录中; 将所述临时存储目录中的数据上传到云存储装置中,然后删除所述临时存储目录中的数据。
5.一种提取数据的装置,其特征在于,包括: 保存模块,用于保存数据提取任务; 监听模块,用于监听所述保存模块是否保存了新的数据提取任务; 执行模块,用于在所述监听模块监听到保存了新的数据提取任务的情况下,执行该新的数据提取任务以从数据源中提取数据得到数据提取的结果文件; 处理模块,用于将所述结果文件发送到存储装置中,以供用户从该存储装置获取所述结果文件。
6.根据权利要求5所述的装置,其特征在于,还包括接收模块和生成模块,其中: 所述接收模块,用于通过表单接收数据提取语句; 所述生成模块,用于根据所述数据提取语句生成数据提取任务。
7.根据权利要求6所述的装置,其特征在于,所述数据提取语句为所述数据源所使用的数据库的数据提取语句,所述数据提取任务为该数据库的数据提取任务。
8.根据权利要求5,6或7所述的装置,其特征在于,所述处理模块还用于:将所述结果文件保存到临时存储目录中;将所述临时存储目录中的数据上传到云存储装置中,然后删除所述临时存储目录中的数据。
【文档编号】G06F17/30GK104268172SQ201410467821
【公开日】2015年1月7日 申请日期:2014年9月15日 优先权日:2014年9月15日
【发明者】刘彦伟, 王晓 申请人:北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1