一种互联网采集数据自定备份的方法及装置与流程

文档序号:34860201发布日期:2023-07-23 06:33阅读:47来源:国知局
本发明涉及数据管理,具体提供一种互联网采集数据自定备份的方法及装置。
背景技术
::1、互联网的信息非常丰富,大数据及其应用正是基于互联网海量信息的价值提取,对于一些较为重要的信息,往往需要全日高频监测和采集,因此在采集过程中,相应也会生成大量的采集结果表,而在一定周期内的结果表,会存在冗余信息,同时由于网页特性,时常也会产生一些结构调整,导致采集数据发生变更。2、而后续在实际数据的使用中,由于数据产品规划,并不一定能够一次性完整利用采集完成的数据,随着研发进展时而会用到先前还未使用过的内容。因此,如何高效和有效保留采集完成的数据,成为亟待解决的问题。技术实现思路1、本发明是针对上述现有技术的不足,提供一种实用性强的互联网采集数据自定备份的方法。2、本发明进一步的技术任务是提供一种设计合理,安全适用的互联网采集数据自定备份的装置。3、本发明解决其技术问题所采用的技术方案是:4、一种互联网采集数据自定备份的方法,首先进行初始化,在数据库中创建备份配置表t_backup_config,存放待备份表的配置信息,在数据库中创建表结构信息表t_backup_structure,用于后续存放待备份的结构,初始化备份表;5、具体的操作步骤如下:6、s1、遍历配置表,逐行读取配置信息,结合表的备份周期,向下取整生成备份期列表date_list;7、s2、按照term_end_date日期顺序从小到大遍历date_list表;8、s3、遍历步骤s2中的table_list;9、s4、根据配置表执行剩余的表前缀,直至配置表遍历完成。10、进一步的,在数据库中创建备份配置表t_backup_config,存放待备份表的配置信息,并根据实际业务需求,配置对应的待备份表前缀table_prefix、去重依据字段unique_key和表备份周期backup_intelval,结合数据库对应的元数据信息,获取对应前缀历史表中最早日期t的t-1日作为初始化日期。11、进一步的,在数据库中创建表结构信息表t_backup_structure,用于后续存放待备份的结构,结构表的初始化,遍历配置表,从数据库对应的元数据信息中,查询各个表前缀对应的后缀日期最早的表,获取表结构,存入结构表中。12、进一步的,在初始化备份表中,基于以获取的表结构,按照table_prefix分组,结合数据库中的文本聚合函数生成对应的建表语句列表,之后遍历列表,逐行执行建表语句生成一系列备份表;13、所述备份表包括原始表数据和备份日期字段。14、进一步的,在步骤s1中,遍历配置表,逐行读取配置信息,对于每一行配置信息,根据配置表中的上次备份时间last_backup_date以及当前执行的时间,结合表的备份周期,向下取整生成备份期列表date_list,date_list中包含每个备份周期的最后一个日期term_end_date。15、进一步的,在步骤s2中,按照term_end_date日期顺序从小到大遍历date_list表,结合表前缀及term_end_date,查询数据库元数据中表日期后缀对应日期小于term_end_date的最大日期后缀,作为此周期内的表结构参照表std_table。16、进一步的,从数据库元数据信息中,获取std_table的表结构,将表结构与结构表中先前存放的做比对,如果存在字段变更,则将差异字段新增至这类表中,同时生成并执行对应的表字段修改语句;17、之后根据结构表,结合文本聚合函数生成表对应的字段列表字符串sql_str,用于拼接后续的sql操作语句,根据配置表中的last_backup_date和term_end_date,查找数据库元数据信息,生成本周期的表列表table_list,同时生成结构与备份表相同的临时表tmp,用于后续数据处理。18、进一步的,在步骤s3中,遍历步骤s2中的table_list,根据步骤s2中生成的字段列表字符串sql_str,生成数据导入sql,执行数据导入sql,将每个表的数据插入到步骤s2创建的临时表tmp中。19、进一步的,在步骤s4中,在完成步骤s3之后,跳回步骤s2,根据配置表中的去重依据字段unique_key,结合字段列表字符串sql_str,去重并插入到备份表中,并将配置表中的last_backup_date;20、更新至当次备份周期的term_end_date,之后继续按照date_list执行该表前缀后续的备份周期,在执行完该表前缀之后,跳回步骤s1,根据配置表执行剩余的表前缀,直至配置表遍历完成。21、一种互联网采集数据自定备份的装置,包括:至少一个存储器和至少一个处理器;22、所述至少一个存储器,用于存储机器可读程序;23、所述至少一个处理器,用于调用所述机器可读程序,执行一种互联网采集数据自定备份的方法。24、本发明的一种互联网采集数据自定备份的方法及装置和现有技术相比,具有以下突出的有益效果:25、本发明通过一次性配置即可实现对特定表的自动化备份,并通过去重字段减少备份数据量,有效利用存储空间。能够适应互联网数据表结构的不定期变化,自动进行调整,无需人工干预。技术特征:1.一种互联网采集数据自定备份的方法,其特征在于,首先进行初始化,在数据库中创建备份配置表t_backup_config,存放待备份表的配置信息,在数据库中创建表结构信息表t_backup_structure,用于后续存放待备份的结构,初始化备份表;2.根据权利要求1所述的一种互联网采集数据自定备份的方法,其特征在于,在数据库中创建备份配置表t_backup_config,存放待备份表的配置信息,并根据实际业务需求,配置对应的待备份表前缀table_prefix、去重依据字段unique_key和表备份周期backup_intelval,结合数据库对应的元数据信息,获取对应前缀历史表中最早日期t的t-1日作为初始化日期。3.根据权利要求2所述的一种互联网采集数据自定备份的方法,其特征在于,在数据库中创建表结构信息表t_backup_structure,用于后续存放待备份的结构,结构表的初始化,遍历配置表,从数据库对应的元数据信息中,查询各个表前缀对应的后缀日期最早的表,获取表结构,存入结构表中。4.根据权利要求3所述的一种互联网采集数据自定备份的方法,其特征在于,在初始化备份表中,基于以获取的表结构,按照table_prefix分组,结合数据库中的文本聚合函数生成对应的建表语句列表,之后遍历列表,逐行执行建表语句生成一系列备份表;5.根据权利要求4所述的一种互联网采集数据自定备份的方法,其特征在于,在步骤s1中,遍历配置表,逐行读取配置信息,对于每一行配置信息,根据配置表中的上次备份时间last_backup_date以及当前执行的时间,结合表的备份周期,向下取整生成备份期列表date_list,date_list中包含每个备份周期的最后一个日期term_end_date。6.根据权利要求5所述的一种互联网采集数据自定备份的方法,其特征在于,在步骤s2中,按照term_end_date日期顺序从小到大遍历date_list表,结合表前缀及term_end_date,查询数据库元数据中表日期后缀对应日期小于term_end_date的最大日期后缀,作为此周期内的表结构参照表std_table。7.根据权利要求6所述的一种互联网采集数据自定备份的方法,其特征在于,从数据库元数据信息中,获取std_table的表结构,将表结构与结构表中先前存放的做比对,如果存在字段变更,则将差异字段新增至这类表中,同时生成并执行对应的表字段修改语句;8.根据权利要求7所述的一种互联网采集数据自定备份的方法,其特征在于,在步骤s3中,遍历步骤s2中的table_list,根据步骤s2中生成的字段列表字符串sql_str,生成数据导入sql,执行数据导入sql,将每个表的数据插入到步骤s2创建的临时表tmp中。9.根据权利要求8所述的一种互联网采集数据自定备份的方法,其特征在于,在步骤s4中,在完成步骤s3之后,跳回步骤s2,根据配置表中的去重依据字段unique_key,结合字段列表字符串sql_str,去重并插入到备份表中,并将配置表中的last_backup_date;10.一种互联网采集数据自定备份的装置,其特征在于,包括:至少一个存储器和至少一个处理器;技术总结本发明涉及数据管理
技术领域
:,具体提供了一种互联网采集数据自定备份的方法及装置,首先进行初始化,在数据库中创建备份配置表T_BACKUP_CONFIG,存放待备份表的配置信息,在数据库中创建表结构信息表T_BACKUP_STRUCTURE存放待备份的结构,初始化备份表;具体的操作步骤如下:S1、遍历配置表,逐行读取配置信息,结合表的备份周期,向下取整生成备份期列表DATE_LIST;S2、按照TERM_END_DATE日期顺序从小到大遍历DATE_LIST表;S3、遍历步骤S2中的TABLE_LIST;S4、根据配置表执行剩余的表前缀,直至配置表遍历完成。与现有技术相比,本发明能够适应互联网数据表结构的不定期变化,自动进行调整,无需人工干预。技术研发人员:郑敏,单震,谢传家受保护的技术使用者:浪潮卓数大数据产业发展有限公司技术研发日:技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1