本发明涉及数据采集处理,具体涉及一种数据采集处理方法及系统。
背景技术:
1、在大数据领域针对于不同存储介质、不同频次的数据采集有许多技术方案。一些方案中根据不同的数据采取场景构建稳定的单独的数据采集系统,一个典型的例子是实时日志数据的采集。一些方案中通过编写数据采集脚本由任务调度系统管理数据采集任务,典型的例子是数据库数据同步,文件采集。此外还有一些方案中采用第三方工具针对不同场景采用不同组件与大数据集群进行对接,现如今的数据采集系统中,用户需要通过待采集的数据内容编写sql语句作为第三方工具,这样的采集方式需要依靠依赖采集方的语句编写能力,采集难度高。
技术实现思路
1、针对现有技术中的上述问题,本发明提供了一种数据采集处理方法及系统,能够在高效进行数据采集处理,且还能够根据用户选择结果完善sql语句与预设数据采集请求的映射关系,智能化程度高。
2、为了达到上述发明目的,本发明采用的技术方案如下:
3、一方面,提供一种数据采集处理方法,包括以下步骤:
4、预先对数据表进行统一化处理,根据预设数据采集请求生成第一sql语句,经所述预设数据采集请求与所述第一sql语句进行映射,得到第一映射关系,并根据sql语句请求调取对应的数据表,将根据第一sql语句与所述数据表进行映射,得到第二映射关系;
5、响应于用户数据采集请求,调取相似度高于第一阈值的多个预设数据采集请求,并根据第一映射关系得到多个第一sql语句组成的sql语句集,再根据sql语句集与第二映射关系得到多个数据表组成的数据表集,并将数据表集发送给用户;
6、获取用户在数据表集中所选择的字段,根据所述数据表集和所述字段生成第二sql语句,根据所述第二sql语句优化第一映射关系。
7、作为优选地,获取用户在数据表集中所选择的字段,根据所述数据表集和所述字段生成第二sql语句时,还包括以下步骤:
8、获取用户在数据表集中所选择的字段;
9、识别所述字段的数据类型;
10、根据所述数据类型配置筛选条件;
11、根据所述数据表集、所述字段以及所述筛选条件生成sql语句。
12、作为优选地,响应于用户数据采集请求时,还包括以下步骤:
13、步骤a:根据预设数据采集请求对用户数据采集请求进行需求分析;
14、步骤b:若存在有相似度高于第一阈值的预设数据采集请求,则调取所述预设数据采集请求;
15、步骤c:若有相似度低于第一阈值但高于第二阈值的预设数据采集请求,则对用户数据采集请求进行填补,填补后返回步骤a。
16、步骤d:若无相似度高于第二阈值的预设数据采集请求,则将所述用户数据采集请求标记为错误请求,返回至用户端。
17、作为优选地,所述对用户数据采集请求进行填补时可采用均值插补、利用同类均值插补、极大似然估计、多重插补中的一个或多个缺失值填补方法。
18、作为优选地,根据sql语句集与第二映射关系得到数据表集时,具体包括以下步骤:
19、对所述sql语句集中的sql语句进行一一解析,获得多个解析结果,任一所述解析结果包括每个所述字段对应的目标数据所在预设数据表的表名以及每个所述字段对应的目标数据的数据类型;
20、基于所述解析结果、所述数据表集以及所述筛选条件从所述预设数据表中采集所述目标数据,得到执行结果。
21、作为优选地,预先对数据表进行统一化处理时,具体包括以下步骤:
22、对数据表的不同数据采集场景进行统一的数据准备处理;
23、采用统一的数据采集通道架构流转数据表。
24、第二方面,提供一种数据采集处理系统,包括如下内容:
25、统一化模块:所述统一化模块用于对数据表进行统一化处理;
26、映射模块:所述映射模块用于将数据采集请求与第一sql语句进行映射,得到第一映射关系;所述映射模块用于将第一sql语句与数据表进行映射,得到第二映射关系。
27、获取模块:所述获取模块用于获取用户数据采集请求。
28、比对模块:所述比对模块用于将用户数据采集请求与预设数据采集请求进行比对。
29、sql语句生成模块:所述sql语句生成模块用于根据用户在数据表集中所选择的字段和所述数据表集生成sql语句。
30、作为优选地,还包括存储模块,所述存储模块中存储有数据表和预设数据采集请求。
31、第三方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述数据采集处理方法。
32、第四方面,提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述数据采集处理方法。
33、本发明的有益效果为:本发明通过根据用户数据采集请求调取相似的预设数据采集请求,从而获取多个第一sql语句组成的sql语句集,以及与sql语句集对应的多个数据表组成的数据表集供用户选择,在得到用户的选择结果后,返回到后端对sql语句与预设数据采集请求的第一映射关系进行优化,无需用户进行sql语句编写即可满足数据采集处理需求,能够在高效进行数据采集处理,且还能够根据用户选择结果完善sql语句与预设数据采集请求的映射关系,智能化程度高。
1.一种数据采集处理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的数据采集处理方法,其特征在于,获取用户在数据表集中所选择的字段,根据所述数据表集和所述字段生成第二sql语句时,还包括以下步骤:
3.根据权利要求1所述的数据采集处理方法,其特征在于,响应于用户数据采集请求时,还包括以下步骤:
4.根据权利要求3所述的数据采集处理方法,其特征在于,所述对用户数据采集请求进行填补时可采用均值插补、利用同类均值插补、极大似然估计、多重插补中的一个或多个缺失值填补方法。
5.根据权利要求1所述的数据采集处理方法,其特征在于,根据sql语句集与第二映射关系得到数据表集时,具体包括以下步骤:
6.根据权利要求1所述的数据采集处理方法,其特征在于,预先对数据表进行统一化处理时,具体包括以下步骤:
7.一种数据采集处理系统,其特征在于,包括如下内容:
8.根据权利要求7所述的数据采集处理系统,其特征在于,还包括存储模块,所述存储模块中存储有数据表和预设数据采集请求。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述数据采集处理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据采集处理方法。