本技术涉及大数据,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术:
1、分布式大数据采集系统是指一种能够在多个节点上进行数据采集和处理的系统,这种系统通常用于从各种来源收集大规模的数据,并将其汇总、存储和分析以获取有价值的信息。
2、然而传统技术方案中,在传统的中心化数据采集系统中,所有数据都需要通过一个中心节点进行传输和处理,这会导致数据传输速度受限,难以满足大数据量和高速数据采集的需求。即便传统技术方案中在采用了分布式的数据存储方式,其数据查询和数据采集过程的响应速率相对较慢。综上所述,传统技术方案中数据采集过程的效率相对较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种效率更高的数据处理方法、装置、计算机设备和计算机可读存储介质。
2、第一方面,本技术提供了一种数据处理方法。所述方法包括:
3、获取数据请求指令,确定所述数据请求指令中的请求对象属性信息和数据源连接参数;
4、根据所述数据源连接参数,从预设的多个分布式候选数据源中确定所述数据请求指令对应的目标数据源;
5、压缩所述请求对象属性信息得到所述数据请求指令对应的目标元数据;
6、根据所述目标元数据和所述目标数据源对应的数据索引,从所述目标数据源中提取得到所述数据请求指令对应的目标数据。
7、在其中一个实施例中,所述根据所述数据源连接参数,从预设的多个分布式候选数据源中确定所述数据请求指令对应的目标数据源,包括:
8、确定所述数据请求指令对应的请求执行顺序和请求并发度;
9、根据所述请求执行顺序和所述请求并发度,确定所述数据请求指令对应的任务优先级;
10、若所述任务优先级与候选数据源对应的响应优先级一致,则根据所述数据源连接参数,从预设的多个分布式候选数据源中确定所述数据请求指令对应的目标数据源。
11、在其中一个实施例中,所述响应优先级的确定方式,包括:
12、采集各个候选数据源的请求流量数据和数据传输速率;
13、根据所述请求流量数据和各个候选数据源对应的请求流量阈值,确定各个候选数据源对应的盈余流量数据;
14、根据所述数据传输速率和所述盈余流量数据生成各个候选数据源对应的响应优先级。
15、在其中一个实施例中,所述根据所述请求执行顺序和所述请求并发度,确定所述数据请求指令对应的任务优先级,包括:
16、若所述请求并发度大于预设的并发度阈值,则根据所述请求执行顺序将所述数据请求指令缓存至预设的缓存队列;
17、根据所述缓存队列中指令的排序,确定所述数据请求指令对应的任务优先级。
18、在其中一个实施例中,所述根据所述目标元数据和所述目标数据源对应的数据索引,从所述目标数据源中提取得到所述数据请求指令对应的目标数据,包括:
19、采集所述目标数据源对应的历史数据操作指令,根据所述历史数据操作指令确定所述目标数据源中多个候选数据对象对应的变化数据;
20、根据所述目标元数据和所述目标数据源对应的数据索引,从所述多个候选数据对象中确定目标请求对象;
21、根据所述目标请求对象对应的变化数据,确定数据请求指令对应的目标数据。
22、在其中一个实施例中,数据处理方法还包括:
23、采集多项历史数据,将所述多项历史数据进行聚类,得到多个数据集;
24、将所述多个数据集存储至预设的多个分布式存储节点中,得到多个分布式候选数据源。
25、第二方面,本技术还提供了一种数据处理装置。所述装置包括:
26、指令获取模块,用于获取数据请求指令,确定所述数据请求指令中的请求对象属性信息和数据源连接参数;
27、数据源筛选模块,用于根据所述数据源连接参数,从预设的多个分布式候选数据源中确定所述数据请求指令对应的目标数据源;
28、数据压缩模块,用于压缩所述请求对象属性信息得到所述数据请求指令对应的目标元数据;
29、数据筛选模块,用于根据所述目标元数据和所述目标数据源对应的数据索引,从所述目标数据源中提取得到所述数据请求指令对应的目标数据。
30、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
31、获取数据请求指令,确定所述数据请求指令中的请求对象属性信息和数据源连接参数;
32、根据所述数据源连接参数,从预设的多个分布式候选数据源中确定所述数据请求指令对应的目标数据源;
33、压缩所述请求对象属性信息得到所述数据请求指令对应的目标元数据;
34、根据所述目标元数据和所述目标数据源对应的数据索引,从所述目标数据源中提取得到所述数据请求指令对应的目标数据。
35、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
36、获取数据请求指令,确定所述数据请求指令中的请求对象属性信息和数据源连接参数;
37、根据所述数据源连接参数,从预设的多个分布式候选数据源中确定所述数据请求指令对应的目标数据源;
38、压缩所述请求对象属性信息得到所述数据请求指令对应的目标元数据;
39、根据所述目标元数据和所述目标数据源对应的数据索引,从所述目标数据源中提取得到所述数据请求指令对应的目标数据。
40、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
41、获取数据请求指令,确定所述数据请求指令中的请求对象属性信息和数据源连接参数;
42、根据所述数据源连接参数,从预设的多个分布式候选数据源中确定所述数据请求指令对应的目标数据源;
43、压缩所述请求对象属性信息得到所述数据请求指令对应的目标元数据;
44、根据所述目标元数据和所述目标数据源对应的数据索引,从所述目标数据源中提取得到所述数据请求指令对应的目标数据。
45、本技术提供了数据处理方法、装置、计算机设备、存储介质和计算机程序产品;在数据采集的过程,响应于数据请求指令,首先根据数据请求指令中的请求对象属性信息和数据源连接参数;然后根据所确定的数据源连接参数,从多个分布式候选数据源中确定所述数据请求指令对应的目标数据源;进一步将前述的请求对象属性信息进行压缩,以得到数据请求指令对应的目标元数据作为数据筛选过程中的参考依据;其后再根据该目标元数据与目标数据源对应的数据索引进行数据的定向采集,得到数据请求指令对应的目标数据;通过将数据采集任务分发到多个分布式的候选数据源,并实时采集对应数据源上的数据,每个数据都能够独立完成数据采集和处理操作,有效地提高数据采集过程的响应速度;另外,还引入了目标元数据和数据索引,进一步提高了数据搜索查询过程中的响应效率,进而也提高了数据采集过程的效率。