一种数据处理方法和系统与流程

文档序号:11829767阅读:228来源:国知局
一种数据处理方法和系统与流程

本发明涉及数据仓库技术,尤其涉及一种数据处理方法和系统。



背景技术:

数据仓库技术ETL是用来描述将数据从源端经过抽取(Extract)、清洗(Cleaning)、转换(Transform)、加载(Load)到目的端的过程,属于构建数据仓库的重要一环。

ETL可以看成是一个链式的工作流,每当有接口数据到达时,依次对所述接口数据进行清洗、转换、加载、数据抽取等处理。在实际应用中,传统的ETL通常根据接口传输的特性,采用定时驱动的方式对接口数据进行链式运算,如每天晚上八点运算接口A数据。这样,当一个ETL任务链运行完成后,当接口A数据发生变更需要重传时,传统ETL要求维护人员手动进行后续的数据重算工作,如对接口数据的清洗、转换、加载、数据抽取等,即采用人工干预的方式来处理后续的数据重算工作,这将给ETL维护人员带来很大程度上的麻烦。



技术实现要素:

有鉴于此,本发明实施例期望提供一种数据处理方法和系统,当接口数据发生变更需要重传时,能在无需人工干预的情况下智能完成数据重算工作。

为达到上述目的,本发明实施例的技术方案是这样实现的:

本发明实施例提供一种数据处理方法,所述方法包括:

当检测有第一数据文件时,下载所述第一数据文件,所述第一数据文件为需要重传的数据文件;

对所述第一数据文件进行转换加载处理,得到第二数据文件;

根据触发重算规则确定所述第二数据文件满足重算条件时,执行对所述第 二数据文件的重算操作。

上述方案中,所述检测有第一数据文件包括:

根据预设的配置信息筛选出符合规则的数据文件;

判断所述数据文件是否已发生变更;

当所述数据文件已发生变更时,确定所述数据文件为第一数据文件。

上述方案中,所述对所述第一数据文件进行转换加载处理,得到第二数据文件,包括:

对所述第一数据文件进行转换处理,得到转换处理后的数据文件;

对所述转换处理后的数据文件进行加载处理,得到第二数据文件。

上述方案中,所述对所述第一数据文件进行转换处理,得到转换处理后的数据文件,包括:

获取对应于所述第一数据文件的转换策略;

根据所述转换策略对所述第一数据文件进行转换处理,得到转换处理后的数据文件。

上述方案中,所述对所述转换处理后的数据文件进行加载处理,得到第二数据文件,包括:

将所述转换处理后的数据文件和数据库表字段进行加载处理,得到第二数据文件。

本发明实施例还提供一种数据处理系统,所述系统包括:文件传输协议FTP扫描器、文件扫描器和存储过程触发器;

所述FTP扫描器,用于当检测有第一数据文件时,下载所述第一数据文件,所述第一数据文件为需要重传的数据文件;

所述文件扫描器,用于对所述第一数据文件进行转换加载处理,得到第二数据文件;

所述存储过程触发器,用于根据触发重算规则确定所述第二数据文件满足重算条件时,执行对所述第二数据文件的重算操作。

上述方案中,所述FTP扫描器,用于根据预设的配置信息筛选出符合规则 的数据文件;判断所述数据文件是否已发生变更;当所述数据文件已发生变更时,确定所述数据文件为第一数据文件。

上述方案中,所述文件扫描器包括转换扫描器和加载扫描器;

所述转换扫描器,用于对所述第一数据文件进行转换处理,得到转换处理后的数据文件;

所述加载扫描器,用于对所述转换处理后的数据文件进行加载处理,得到第二数据文件。

上述方案中,所述转换扫描器,用于获取对应于所述第一数据文件的转换策略;根据所述转换策略对所述第一数据文件进行转换处理,得到转换处理后的数据文件。

上述方案中,所述加载扫描器,用于将所述转换处理后的数据文件和数据库表字段进行加载处理,得到第二数据文件。

本发明实施例所提供的数据处理方法和系统,当检测有第一数据文件时,下载所述第一数据文件,所述第一数据文件为需要重传的数据文件;对所述第一数据文件进行转换加载处理,得到第二数据文件;根据触发重算规则确定所述第二数据文件满足重算条件时,执行对所述第二数据文件的重算操作。如此,当接口数据发生变更需要重传时,能在无需人工干预的情况下智能完成数据重算工作。

附图说明

图1为本发明实施例数据处理方法的实现流程示意图;

图2为本发明实施例所述检测有第一数据文件的实现流程示意图;

图3为本发明实施例对所述第一数据文件进行转换加载处理的实现流程示意图;

图4为本发明实施例数据处理系统的组成结构示意图;

图5为本发明实施例文件扫描器的组成结构示意图。

具体实施方式

在本发明实施例中,当检测有第一数据文件时,下载所述第一数据文件,所述第一数据文件为需要重传的数据文件;对所述第一数据文件进行转换加载处理,得到第二数据文件;根据触发重算规则确定所述第二数据文件满足重算条件时,执行对所述第二数据文件的重算操作。

下面结合附图及具体实施例对本发明再作进一步详细的说明。

实施例一

图1为本发明实施例数据处理方法的实现流程示意图,如图1所示,本发明实施例数据处理方法包括:

步骤S101:当检测有第一数据文件时,下载所述第一数据文件;

其中,所述第一数据文件为需要重传的数据文件。

具体地,文件传输协议(File Transfer Protocol,FTP)扫描器需要检测是否有第一数据文件,在检测有第一数据文件时,再下载所述第一数据文件。这里,如图2所示,所述检测有第一数据文件包括:

步骤S1011:根据预设的配置信息筛选出符合规则的数据文件;

具体地,FTP扫描器通过预定的配置信息调用文件过滤器筛选出符合规则的数据文件。这里,所述预定的配置信息和对符合规则的数据文件的具体要求均会在用于实现所述数据处理方法的系统中加以预置。

步骤S1012:判断所述数据文件是否已发生变更;

具体地,FTP扫描器判断所述数据文件是否发生过诸如日期、文件大小等的变更。

步骤S1013:当所述数据文件已发生变更时,确定所述数据文件为第一数据文件。

具体地,当所述数据文件已发生变更时,则调用下载器进行下载;同时,还可以对所述数据文件信息加以记录,并通过文件驱动的方式广播下载的数据 文件。

步骤S102:对所述第一数据文件进行转换加载处理,得到第二数据文件;

具体地,如图3所示,所述对所述第一数据文件进行转换加载处理,得到第二数据文件,包括:

步骤S1021:对所述第一数据文件进行转换处理,得到转换处理后的数据文件;

具体地,通过转换扫描器获取对应于所述第一数据文件的转换策略;之后,根据所述转换策略对所述第一数据文件进行转换处理,得到转换处理后的数据文件。

步骤S1022:对所述转换处理后的数据文件进行加载处理,得到第二数据文件。

具体地,通过加载扫描器将所述转换处理后的数据文件和数据库表字段进行加载处理,如将所述转换处理后的数据文件和数据库表字段进行一一映射、转换处理,得到第二数据文件。

进一步地,所述加载扫描器会改变所述第二数据文件对应接口的状态,并广播所述第二数据文件,以提供用于实现所述数据处理方法的系统对所述第二数据文件加以调度服务,使得所述第二数据文件能够尽快实现重新运算。

在实际应用中,还可以通过所述加载扫描器中的结果分析器对加载反馈的结果信息进行深度分析,如判断读取、加载、抛弃等等指标信息,以对本次加载进行准确的结果判断;当本次加载过程发生高级别错误时,中断处理器会依据本次加载反馈的结果做出相应的中断处理,来防止锁表、死锁等情况出现。

步骤S103:根据触发重算规则确定所述第二数据文件满足重算条件时,执行对所述第二数据文件的重算操作。

这里,所述触发重算规则通常由配置信息、资源池信息和依赖信息等组成。具体地,存储过程触发器根据配置信息、资源池信息和依赖信息来确定所述第二数据文件满足重算条件时,按顺序对所述第二数据文件进行重算。需要说明的是,在重算过程中,对于互不冲突的调度可同时执行重算操作。

如此,通过本发明实施例数据处理方法,能够通过用于实现所述数据处理方法的系统中的各器件执行文件驱动程序,采用广播通信传递重算文件,当接口数据发生变更需要重传时,能在无需人工干预的情况下智能完成数据重算工作;进一步通过增加重算条件判断流程,以保证重算的安全性。

实施例二

图4为本发明实施例数据处理系统的组成结构示意图,如图4所示,所述系统包括FTP扫描器401、文件扫描器402和存储过程触发器403;

所述FTP扫描器401,用于当检测有第一数据文件时,下载所述第一数据文件,所述第一数据文件为需要重传的数据文件;

具体地,所述FTP扫描器401根据预设的配置信息筛选出符合规则的数据文件;判断所述数据文件是否已发生变更;当所述数据文件已发生变更时,确定所述数据文件为第一数据文件。

在实际应用中,FTP扫描器401通过预定的配置信息调用文件过滤器筛选出符合规则的数据文件;再判断所述数据文件是否发生过诸如日期、文件大小等的变更;当所述数据文件已发生变更时,则调用下载器进行下载;同时,还可以对所述数据文件信息加以记录,并通过文件驱动的方式广播下载的数据文件。

所述文件扫描器402,用于对所述第一数据文件进行转换加载处理,得到第二数据文件;

所述存储过程触发器403,用于根据触发重算规则确定所述第二数据文件满足重算条件时,执行对所述第二数据文件的重算操作。

这里,所述触发重算规则通常由配置信息、资源池信息和依赖信息等组成。具体地,所述存储过程触发器403根据配置信息、资源池信息和依赖信息来确定所述第二数据文件满足重算条件时,按顺序对所述第二数据文件进行重算。需要说明的是,在重算过程中,对于互不冲突的调度可同时执行重算操作。

在一实施例中,如图5所示,所述文件扫描器402包括转换扫描器4021 和加载扫描器4022;

所述转换扫描器4021,用于对所述第一数据文件进行转换处理,得到转换处理后的数据文件;

具体地,所述转换扫描器4021获取对应于所述第一数据文件的转换策略;再根据所述转换策略对所述第一数据文件进行转换处理,得到转换处理后的数据文件。

所述加载扫描器4022,用于对所述转换处理后的数据文件进行加载处理,得到第二数据文件。

具体地,所述加载扫描器4022将所述转换处理后的数据文件和数据库表字段进行加载处理,如将所述转换处理后的数据文件和数据库表字段进行一一映射、转换处理,得到第二数据文件。

进一步地,所述加载扫描器4022会改变所述第二数据文件对应接口的状态,并广播所述第二数据文件,以提供用于实现所述数据处理方法的系统对所述第二数据文件加以调度服务,使得所述第二数据文件能够尽快实现重新运算。

在实际应用中,还可以通过所述加载扫描器中的结果分析器对加载反馈的结果信息进行深度分析,如判断读取、加载、抛弃等等指标信息,以对本次加载进行准确的结果判断;当本次加载过程发生高级别错误时,中断处理器会依据本次加载反馈的结果做出相应的中断处理,来防止锁表、死锁等情况出现。

在实际应用中,本发明实施例中提供的数据处理系统中的各部分均可以通过系统中的处理器实现,也可以通过具体的逻辑电路实现;比如,在实际应用中,可由位于数据处理系统中的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)实现。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1