本技术涉及计算机技术,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。
背景技术:
1、分布式计算引擎(如流式数据计算引擎)正在逐渐兴起,并渗透至各个行业。目前,几乎所有的云服务商都提供流式数据计算引擎,可用于数据聚合、数据关联、数据监测、以及数据分析等场景。当前主流的流式数据计算引擎以apache flink、apache sparkstreaming、及storm等系统为代表,使用有向无环图表示用户作业,通过窗口技术实现时间维度的数据聚合,并通过事件消息实现乱序消息处理支持。
2、在流式数据计算引擎进行实时计算出现故障时,由于定位数据的上报事件并不是连续定增的,并存在大量的乱序事件、且乱序事件的时间有时相差太长(如可能相差十几分钟以上),故当程序发生故障时,相关技术采用自然时间无法修复故障期间的定位数据,通常只能使用同期历史数据进行数据修复,但此种采用离线数据的修复方式不是基于当前区域位置的实际情况去修复的,进而导致区域位置的人流、热力等区域状态信息的预测延时大,使得预测结果不准确。
技术实现思路
1、本技术实施例提供一种基于分布式计算引擎的数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提高预测结果的准确性。
2、本技术实施例的技术方案是这样实现的:
3、本技术实施例提供一种基于分布式计算引擎的数据处理方法,包括:
4、接收到数据恢复请求,所述数据恢复请求用于请求对目标地理区域在目标时间段内的定位数据进行恢复;
5、响应于所述数据恢复请求,确定所述定位数据对应的标记时间戳,并基于所述标记时间戳获取所述定位数据对应的备份数据;
6、其中,所述定位数据是通过所述分布式计算引擎对所述目标地理区域在所述目标时间段内的原始定位数据计算得到的,所述标记时间戳基于所述分布式计算引擎获取所述原始定位数据的获取时刻而确定;
7、基于所述备份数据对所述定位数据进行恢复,得到恢复的定位数据;
8、基于所述恢复的定位数据,对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据。
9、本技术实施例提供一种基于分布式计算引擎的数据处理装置,包括:
10、请求接收模块,用于接收到数据恢复请求,所述数据恢复请求用于请求对目标地理区域在目标时间段内的定位数据进行恢复;
11、数据获取模块,用于响应于所述数据恢复请求,确定所述定位数据对应的标记时间戳,并基于所述标记时间戳获取所述定位数据对应的备份数据;
12、其中,所述定位数据是通过所述分布式计算引擎对所述目标地理区域在所述目标时间段内的原始定位数据计算得到的,所述标记时间戳基于所述分布式计算引擎获取所述原始定位数据的获取时刻而确定;
13、数据恢复模块,用于基于所述备份数据对所述定位数据进行恢复,得到恢复的定位数据;
14、数据预测模块,用于基于所述恢复的定位数据,对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据。
15、上述方案中,所述接收到数据恢复请求之前,所述装置还包括:数据接收模块,用于获取所述目标地理区域在所述目标时间段内的原始定位数据;对所述原始定位数据进行解析处理,得到所述原始定位数据的解析数据;对所述解析数据进行标记处理,得到携带标记时间戳的标记数据,并将所述标记数据确定为所述定位数据;将所述定位数据存储至第一数据库中所述定位数据对应的区域中,得到所述定位数据对应的备份数据。
16、上述方案中,所述数据接收模块,还用于获取至少一个定位设备在所述目标时间段内上报的定位日志数据;确定各所述定位设备归属的地理区域,并基于各所述地理区域从所述定位日志数据中,筛选出归属于所述目标地理区域的定位设备上报的目标定位日志数据;将所述目标定位日志数据确定为所述目标地理区域在所述目标时间段内的原始定位数据。
17、上述方案中,所述数据接收模块,还用于确定所述原始定位数据对应的数据协议;根据所述数据协议,对所述原始定位数据进行合法性校验,得到校验结果;当所述校验结果表征所述原始定位数据为合法数据时,对所述原始定位数据进行解析处理,得到所述原始定位数据的解析数据。
18、上述方案中,所述数据接收模块,还用于确定所述分布式系统获取所述原始定位数据所对应的获取时刻;基于所述获取时刻,对所述解析数据进行标记处理,得到对应的标记数据,所述标记数据携带的标记时间戳为所述获取时刻。
19、上述方案中,所述将所述标记数据确定为所述定位数据之后,所述装置还包括:数据传输模块,用于将所述定位数据输入至预测进程,其中,所述预测进程,用于基于所述定位数据对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据;相应的,所述请求接收模块,还用于响应于所述预测进程存在故障,接收到存在故障的所述预测进程触发的数据恢复请求。
20、上述方案中,所述将所述定位数据输入至预测进程之后,所述装置还包括:数据处理模块,用于确定预先设置的延迟时间,并根据所述预测进程在当前时间窗口内接收到的所述定位数据的标记时间戳及所述延迟时间,确定所述预测进程的水位线;获取所述预测进程在所述当前时间窗口内接收到所述定位数据时,所述水位线与所述延迟时间之间的差值;当所述差值等于所述当前时间窗口的右边界时,控制所述预测进程基于所述定位数据对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据。
21、上述方案中,所述数据处理模块,还用于当所述预测进程在所述当前时间窗口内接收到的定位数据的数量为至少两个时,分别获取各所述定位数据的标记时间戳与所述延迟时间的差值;从各所述差值中选择最大的差值作为所述水位线。
22、上述方案中,所述数据预测模块,还用于基于所述恢复的定位数据,通过区域预测模型对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据;其中,所述区域预测模型基于地理区域样本在目标时间段内的定位数据样本、以及所述定位数据样本携带的区域状态标签训练得到的。
23、上述方案中,所述得到用于表征所述目标地理区域的热力分布的区域状态数据之后,所述装置还包括:数据存储模块,用于将所述区域状态数据存储至第一数据库中处理结果对应的区域中。
24、上述方案中,所述得到用于表征所述目标地理区域的热力分布的区域状态数据之后,所述装置还包括:结果组装模块,用于确定所述目标地理区域对应的应用场景;根据所述应用场景,采用与所述应用场景相适配的组装方式,对所述区域状态数据进行组装处理,得到所述目标地理区域在所述目标时间段内的区域状态结果;将所述区域状态结果存储至第二数据库中。
25、本技术实施例提供一种电子设备,包括:
26、存储器,用于存储可执行指令;
27、处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的基于分布式计算引擎的数据处理方法。
28、本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的基于分布式计算引擎的数据处理方法。
29、本技术实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时,实现本技术实施例提供的基于分布式计算引擎的数据处理方法。
30、本技术实施例具有以下有益效果:
31、应用本技术实施例,在对目标地理区域在目标时间段内的定位数据进行恢复时,由于定位数据是通过分布式计算引擎对目标地理区域在目标时间段内的原始定位数据计算得到的,且定位数据的标记时间戳基于分布式计算引擎获取原始定位数据的获取时刻而确定,且备份数据是基于标记时间戳获取的,故备份数据是与分布式计算引擎在获取时刻获取的原始定位数据息息相关的,在基于备份数据对定位数据进行修复后,得到的修复后的定位数据能够反映目标地理区域在目标时间段内对应获取时刻的原始定位数据,故基于修复后的定位数据预测目标地理区域在目标时间段内的区域状态的预测结果,能够反映目标地理区域在目标时间内段内的真实情况,提高了预测的准确性。