基于时间切片智能检查控制的离线数据存储及计算方法与流程

文档序号:28294202发布日期:2021-12-31 23:01阅读:140来源:国知局
基于时间切片智能检查控制的离线数据存储及计算方法与流程

1.本发明涉及信息技术领域,特别是涉及一种基于时间切片智能检查控制的离线数据存储及计算方法。


背景技术:

2.离线和实时数据处理一直是信息技术数据存储计算的重要一环,离线数据处理相对于实时处理适用于事后分析且时效性要求不高的场景,包括了从数据接收、加工、存储、分析/计算在业界是有一整套标准化定义流程,但在实际应用中面对解决问题:
3.如何保证离线数据处理过程的完整性?数据从接收到最终的存储(分析计算)要经过一系列的数据处置过程,需要保证各个过程都能被完整正确执行。
4.如何提高离线数据计算结果的及时性?离线数据虽然相对于实时计算有一定的时间容忍度,但也必须保证数据结果的“相对”及时。
5.如何确保离线数据计算结果的准确性?因为数据间具有相互关联性和前后依赖,比如汇统省份级数据,必须等待地市级数据加载完成得出的结果才有效。


技术实现要素:

6.有鉴于此,本发明的目的在于提供一种基于时间切片智能检查控制的离线数据存储及计算方法,在离线数据处理的场景下,依托从接收活动开始就以数据时间为前置条件,以一定时间规则对数据进行标记时间戳,结合检查控制来保证数据处置过程中的完整性、及时性与准确性。
7.为实现上述目的,本发明采用如下技术方案:
8.一种基于时间切片智能检查控制的离线数据存储及计算方法,包括以下步骤:
9.步骤s1:预设并封装离线数据处理通用活动,并建立标准化数据处理活动;
10.步骤s2:创建并配置各个数据处理活动实例的启动、运行、包括时间切片周期规则等参数属性;
11.步骤s3:在初始化时或启动参数被更新时读取活动检查配置,并加入到过程管控中心的控制检查表中,活动监听检查参数(特别是时间切片相关参数)的变化;
12.步骤s4:在发现检查表中的订阅参数有发生变动时会扫描各活动条件是否满足,若满足则启动相关活动实例执行离线数据处置;
13.步骤s5:保证启动参数上对相同活动在同一时刻仅有实例运行的调度;
14.步骤s6:对于长期活动实例会定时向过程管控中心发送心跳,若心跳中断超过一定时间过程管控中心会重新启动活动实例;
15.步骤s7:在活动实例执行成功后,会根据执行结果更新启动参数值信息;
16.步骤s8:在活动实例执行失败后,会将任务丢弃到失败队列中,对于存在于失败队列中的活动即使满足条件也不执行实例;
17.步骤s9:依照失败等待时长配置参数,从失败队列中取回活动再放入中心的启动
参数管理范围内。
18.进一步的,所述标准化数据处理活动包括数据接入活动、数据存储活动、数据删除活动、数据下载活动等,其中活动分为长期活动和临时活动。
19.进一步的,所述标准化数据处理活动中离线数据处理过程都按一定时间切片周期规则进行标注区别,以便于对数据进行时间切片识别。
20.进一步的,所述参数类型分为启动参数、运行参数与活动决策参数,所有活动参数均为时间切片属性。
21.一种基于时间切片智能检查控制的离线数据存储及计算系统,包括:
22.配置中心,用以责离线活动抽象模型的管理与离线活动参数的信息存储;
23.过程管控中心,用于对离线数据活动初始化、启动、运行监听、释放活动实例智能调度功能;
24.过程管控中心,同时包含一个或者多个运行节点,所有被过程管控中心实例化的离线数据活动都在运行节点上,作为活动实例运行环境。
25.本发明与现有技术相比具有以下有益效果:
26.1.本发明建立了离线活动标准化与参数规范化定义,将离线数据处理拆解抽象为多个独立活动,可从抽象活动模型中挑选定义需要的活动来完成离线数据处理要求;
27.2.本发明通过预定义不同类型的活动参数来保证离线活动的可实例化,可执行性,包括了运行时参数,用于在活动运行过程中使用到的参数属性信息;启动参数,用于在活动启动时的判断条件,以及巡检参数,用于定时巡检活动启动参数的属性信息;
28.3.本发明创新性提出了以时间切片为前置核心条件,由智能过程管控中心负责通过对启动参数的条件确认,管理离线数据处理活动实例化运行,守护活动运行实例,实现对离线数据处置活动智能化过程控制。
附图说明
29.图1是本发明系统框架图;
30.图2是本发明一实施例中的离线数据处理活动流程图。
具体实施方式
31.下面结合附图及实施例对本发明做进一步说明。
32.参考图1,本发明提供一种基于时间切片智能检查控制的离线数据存储及计算系统,包括三个组成部分:
33.配置中心:负责离线活动抽象模型的管理与离线活动参数的信息存储。
34.过程管控中心:负责对离线数据活动初始化、启动、运行监听、释放等活动实例智能调度功能。
35.运行节点:可同时包含一个或者多个运行节点,所有被过程管控中心实例化的离线数据活动都在运行节点上,是活动实例运行环境。
36.参考图2,本发明还提供一种基于时间切片智能检查控制的离线数据存储及计算方法,在本实施例中,具体包括以下步骤:
37.1.定义并封装离线数据处理通用活动,以建立标准化数据处理活动;
38.a)配置中心

活动抽象管理(抽象化离线数据处置活动)
[0039][0040][0041]
优选的,数据活动可根据实际要求抽象扩展,还包括数据压缩/ 解压缩活动,数据文件加工格式化活动等,其它不在一一列举。
[0042]
b)活动分类(两类)
[0043][0044]
活动抽象模型与活动实例为一对多关系,同一个活动的抽象模型可通过定义不同的参数设置不同的处置活动。
[0045]
2.活动配置中心根据实时业务要求抽取活动并定义各个数据活动的参数,参数类型分为决策参数、启动参数和运行参数;
[0046]
决策参数:由活动抽象模型定义,用于确定活动实例是否满足运行条件。
[0047]
启动参数:由活动定义时定义,用于活动实例被启动时的活动类型、活动实例数等环境条件。
[0048]
运行参数:由活动定义时定义,用于活动实例在运行过程中所需要的参数信息。
[0049]
活动参数中必须包括与时间切片相关联的属性,包括最近一次时间切片分区、时间切片周期、时间切片周期单位,以确认时间切片规则,通过时间切片来进行为控制中心提供检查决策依据。
[0050]
a)配置中心

活动参数管理示例
[0051]
i.活动一
[0052]
[0053][0054]
活动一通过时间切片参数来定义接收到的数据按每5分钟时间切片输出成文件一个文件。
[0055]
其中{时间切片}统一默认值为14位时间+时间切片周期+时间切片周期单位,如下
[0056]
yyyymmddhhmmss_5_minutes
[0057]
即输出文件为peopleview_20200720180000_5_minutes.csv
[0058]
ii.活动二
[0059]
[0060][0061]
活动二通过本地路径,时间切片周期、时间切片单位确定下载的文件名单信息。
[0062]
iii.活动三
[0063][0064]
活动三通过本地路径,时间切片周期、时间切片单位确定上传的文件名单信息。
[0065]
iv.活动四
[0066]
[0067]
[0068][0069]
数据表分区统一按照时间切片创建,活动四利用时间切片周期计算出表分区名,按时间切片将对应的文件加载到表分区中。
[0070]
v.活动五
[0071]
[0072][0073]
活动五利用时间切片周期确认出需要计算数据周期范围。
[0074]
3.过程管控中心在初始化时(或启动参数被更新时)读取活动检查配置,并加入到过程管控中心的控制检查表中,活动监听检查参数的变化;
[0075]
控制检查管理用于记录过程控制中心活动依赖信息状态,过程控制中心在启动时会第一时间注册需要监听的活动运行参数,同时订阅其状态,通过计算时间切片参数确认检查表的状态改变。
[0076]
a)活动参数注册与订阅,以步骤s3的活动为例
[0077]
[0078][0079]
注:
[0080]
1.检查表参数与值变化通过注册相对应的文件目录监听/表分区监听功能实现。
[0081]
2.活动五(数据计算分析活动)中的对应表通过解析sql分析得出。
[0082]
3.检查表中活动所订阅的参数在变化时会触发活动执行。
[0083]
b)检查信息类型说明
[0084][0085]
4.过程管控中心在发现检查表中的订阅参数有发生变动时会扫描各活动条件是否满足,若满足则启动相关活动实例执行离线数据处置;
[0086]
控制中心活动决策管理,由控制管理中心维护的服务模块,本职功能是提供活动运行决策服务,所有在配置中心定义的活动,会向控制中心活动注册活动运行决策信息,以便于在控制检查表的相关活动订阅信息发生变化时,触发活动运行决策生成活动实例。
[0087][0088][0089]
例如:
[0090][0091]
为活动启动/停止进行决策与管理,控制检查表的“数据库表信息类型

hive表时间切片表分区”信息由“peopleview_20200720000000_1_days”变化为“peopleview_20200721000000_1_days”时,过程管控中心接收到事件订阅消息,向活动五的“活动运行决策”参数注入变化条件,若返回可运行会实例化活动五,若返回不可运行则继续订阅监听检查表变化。
[0092]
5.过程管控中心保证定义参数相同活动在同一时刻仅有一个实例运行;
[0093]
6.过程管控中心对于长期活动实例会定时向过程管控中心发送心跳,若心跳中断超过一定时间过程管控中心会重新启动活动实例;
[0094]
活动实例运行状态管理,记录活动实例最近在运行节点上的活跃状态。
[0095][0096][0097]
过程管控中心通过维护活动实例状态表监视活动实例状态,对长期活动保证其实
例数的稳定与正常运行,对于异常无响应的长期活动进行关闭剔除,并启动新实例运行;对于短期活动实例保证单例运行,超时进行任务实例关闭。
[0098]
7.过程管控中心在活动实例执行成功后,会根据执行结果更新运行参数值信息;
[0099]
以活动五为例,当执行完成后会更新运行参数中的可变值:
[0100][0101]
8.过程管控中心在活动实例执行失败后,会将任务丢弃到失败队列中,对于存在于失败队列中的活动即使满足条件也不执行实例;
[0102]
过程活动失败表,由过程管控中心维护,用于暂存失败活动:
[0103][0104]
过程管控中心依照失败等待时长配置参数,从失败队列中取回活动再放入中心的过程控制检查表参数管理范围内;
[0105]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序
产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0106]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0107]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0108]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0109]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1