数据采集方法、装置、设备及存储介质与流程

文档序号:22759863发布日期:2020-10-31 09:58阅读:125来源:国知局
本发明涉及大数据技术的顺序查询领域,尤其涉及一种数据采集方法、装置、设备及存储介质。
背景技术
::数据采集是软件行业里的一个特殊工种,区别于版本交付,它是一个个零碎的脚本,有时就是一个小的业务需求,它是满足用户临时取数和数据探索的工作,也是校验某些汇总类的报表的重要途径,由于有了这项工作使得追随业务的变动小步快速迭代,从而让业务需求探索期缩短。目前,数据采集工作需要专项的分析师来跟进,但是面对众多机构提出种类繁多的业务需求,数据采集的工作效率难以得到提升,同时还要投入大量的人力去支持,因此对复杂需求的数据采集业务,检索比较耗时,并且采集数据效率比较低。技术实现要素:本发明的主要目的在于解决了对复杂需求的数据采集业务,检索比较耗时,并且采集数据效率比较低的技术问题。为实现上述目的,本发明第一方面提供了一种数据采集方法,包括:接收终端发送的数据采集请求,并对所述数据采集请求进行审批,得到审批结果,所述数据采集请求包括待采集信息和连接字段信息,所述连接字段信息用于指示不同表之间的字段连接关系;当所述审批结果为审批通过时,对所述待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个所述待采集数据表的已存数据量;当每个所述待采集数据表的已存数据量全部小于预置阈值时,按照所述连接字段信息、所述多个待采集字段和所述多个待采集数据表生成第一待查询关联语句;当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,将每个所述待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照所述连接顺序和所述多个连接条件对所述连接字段信息、所述多个待采集字段和所述多个待采集数据表进行语句拼接,得到第二待查询关联语句;执行所述第一待查询关联语句或者所述第二待查询关联语句,得到所述数据采集请求对应的目标数据集,并对所述目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供所述预置云端平台通过链接地址指示目标用户进行数据下载。可选的,在本发明第一方面的第一种实现方式中,所述接收终端发送的数据采集请求,并对所述数据采集请求进行审批,得到审批结果,所述数据采集请求包括待采集信息和连接字段信息,所述连接字段信息用于指示不同表之间的字段连接关系,包括:接收终端发送的数据采集请求,并解析所述数据采集请求,得到目标用户的唯一标识、查询日期、待采集信息和连接字段信息,所述连接字段信息用于指示不同表之间的字段连接关系;对所述目标用户的唯一标识、所述查询日期、所述待采集信息和所述连接字段信息进行记录;基于所述目标用户的唯一标识和所述待采集信息确定审批事项和审批信息,所述审批信息包括审批层级、审批类型和目标审批人;按照所述审批层级和所述审批类型将所述审批事项分发至所述目标审批人对应的审批终端;接收所述审批终端发送的审批结果,并根据所述审批结果更新所述数据采集请求对应的审批状态。可选的,在本发明第一方面的第二种实现方式中,所述当所述审批结果为审批通过时,对所述待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个所述待采集数据表的已存数据量,包括:当所述审批结果为审批通过时,按照预置分隔符对所述待采集信息进行解析,得到多个待采集字段和多个待采集数据表;对每个所述待采集数据表生成对应的数量查询语句,并执行所述对应的数量查询语句,得到每个所述待采集数据表的已存数据量。可选的,在本发明第一方面的第三种实现方式中,所述当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,将每个所述待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照所述连接顺序和所述多个连接条件对所述连接字段信息、所述多个待采集字段和所述多个待采集数据表进行语句拼接,得到第二待查询关联语句,包括:当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,对每个所述待采集数据表的已存数据量按照从小到大顺序进行排序,得到初始排序序列;采用所述查询日期从预置映射表中读取所述多个待采集数据表各自对应的关联数据表,所述关联数据表包括日表、年表和历史全量表;根据所述连接字段信息对所述初始排序序列进行关联数据表筛选,得到目标排序序列,并基于所述目标排序序列确定连接顺序;对所述多个待采集字段和所述各自对应的关联数据表分别生成多个初始查询语句;按照所述连接字段信息设置多个连接条件,并按照所述连接顺序和所述多个连接条件对所述多个初始查询语句进行语句拼接,得到第二待查询关联语句。可选的,在本发明第一方面的第四种实现方式中,所述执行所述第一待查询关联语句或者所述第二待查询关联语句,得到所述数据采集请求对应的目标数据集,并对所述目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供所述预置云端平台通过链接地址指示目标用户进行数据下载,包括:执行所述第一待查询关联语句或者所述第二待查询关联语句,得到所述数据采集请求对应的目标数据集,所述目标数据集包括多个已采集字段名和多个已采集数据列;从预置脱敏数据表中读取待脱敏的字段名和对应的脱敏规则,并根据所述待脱敏的字段名对所述多个已采集字段名进行匹配,得到匹配结果;基于所述匹配结果读取所述多个已采集数据列对应的敏感数据,并根据所述对应的脱敏规则对所述多个已采集数据列对应的敏感数据进行脱敏处理,得到已脱敏的数据集;获取预设文件模板,并按照所述预设文件模板对所述已脱敏的数据集进行组合,得到目标文件,并对所述目标文件进行压缩处理,得到存储路径;将所述存储路径转化为链接地址,并将所述链接地址发送到预置云端平台,以供所述预置云端平台通过所述链接地址指示目标用户进行数据下载。可选的,在本发明第一方面的第五种实现方式中,在所述接收终端发送的数据采集请求,并对所述数据采集请求进行审批,得到审批结果,所述数据采集请求包括待采集信息和连接字段信息之前,所述数据采集方法还包括:接收所述终端发送的数据表显示请求,基于所述数据表显示请求查询并分析预置数据库中的各表结构信息,得到表名、表注释、字段名和字段注释;对所述表名、所述表注释、所述字段名和所述字段注释按照预设数据格式进行封装,得到中文映射数据,并将所述中文映射数据发送到所述终端,以使得所述终端用于对所述中文映射数据进行展示和配置处理,生成所述数据采集请求。可选的,在本发明第一方面的第六种实现方式中,所述接收所述终端发送的数据表显示请求,基于所述数据表显示请求查询并分析预置数据库中的各表结构信息,得到表名、表注释、字段名和字段注释,包括:接收所述终端发送的数据表显示请求,并解析所述数据表显示请求,得到数据库名称;基于所述数据库名称获取预置数据库对应的预设主机地址、预设用户名和预设密码;采用所述数据库名称、所述预设主机地址、所述预设用户名和所述预设密码连接所述预置数据库,得到连接结果;当所述连接结果为连接成功时,使用预设的结构化查询语句查询所述预置数据库的各表结构信息;对所述各表结构信息进行解析,得到表名、表注释、字段名和字段注释。本发明第二方面提供了一种数据采集装置,包括:审批模块,用于接收终端发送的数据采集请求,并对所述数据采集请求进行审批,得到审批结果,所述数据采集请求包括待采集信息和连接字段信息,所述连接字段信息用于指示不同表之间的字段连接关系;解析模块,当所述审批结果为审批通过时,用于对所述待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个所述待采集数据表的已存数据量;第一生成模块,当每个所述待采集数据表的已存数据量全部小于预置阈值时,用于按照所述连接字段信息、所述多个待采集字段和所述多个待采集数据表生成第一待查询关联语句;第二生成模块,当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,用于将每个所述待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照所述连接顺序和所述多个连接条件对所述连接字段信息、所述多个待采集字段和所述多个待采集数据表进行语句拼接,得到第二待查询关联语句;脱敏模块,用于执行所述第一待查询关联语句或者所述第二待查询关联语句,得到所述数据采集请求对应的目标数据集,并对所述目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供所述预置云端平台通过链接地址指示目标用户进行数据下载。可选的,在本发明第二方面的第一种实现方式中,所述审批模块具体用于:接收终端发送的数据采集请求,并解析所述数据采集请求,得到目标用户的唯一标识、查询日期、待采集信息和连接字段信息,所述连接字段信息用于指示不同表之间的字段连接关系;对所述目标用户的唯一标识、所述查询日期、所述待采集信息和所述连接字段信息进行记录;基于所述目标用户的唯一标识和所述待采集信息确定审批事项和审批信息,所述审批信息包括审批层级、审批类型和目标审批人;按照所述审批层级和所述审批类型将所述审批事项分发至所述目标审批人对应的审批终端;接收所述审批终端发送的审批结果,并根据所述审批结果更新所述数据采集请求对应的审批状态。可选的,在本发明第二方面的第二种实现方式中,所述解析模块具体用于:当所述审批结果为审批通过时,按照预置分隔符对所述待采集信息进行解析,得到多个待采集字段和多个待采集数据表;对每个所述待采集数据表生成对应的数量查询语句,并执行所述对应的数量查询语句,得到每个所述待采集数据表的已存数据量。可选的,在本发明第二方面的第三种实现方式中,所述第二生成模块具体用于:当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,对每个所述待采集数据表的已存数据量按照从小到大顺序进行排序,得到初始排序序列;采用所述查询日期从预置映射表中读取所述多个待采集数据表各自对应的关联数据表,所述关联数据表包括日表、年表和历史全量表;根据所述连接字段信息对所述初始排序序列进行关联数据表筛选,得到目标排序序列,并基于所述目标排序序列确定连接顺序;对所述多个待采集字段和所述各自对应的关联数据表分别生成多个初始查询语句;按照所述连接字段信息设置多个连接条件,并按照所述连接顺序和所述多个连接条件对所述多个初始查询语句进行语句拼接,得到第二待查询关联语句。可选的,在本发明第二方面的第四种实现方式中,所述脱敏模块具体用于:执行所述第一待查询关联语句或者所述第二待查询关联语句,得到所述数据采集请求对应的目标数据集,所述目标数据集包括多个已采集字段名和多个已采集数据列;从预置脱敏数据表中读取待脱敏的字段名和对应的脱敏规则,并根据所述待脱敏的字段名对所述多个已采集字段名进行匹配,得到匹配结果;基于所述匹配结果读取所述多个已采集数据列对应的敏感数据,并根据所述对应的脱敏规则对所述多个已采集数据列对应的敏感数据进行脱敏处理,得到已脱敏的数据集;获取预设文件模板,并按照所述预设文件模板对所述已脱敏的数据集进行组合,得到目标文件,并对所述目标文件进行压缩处理,得到存储路径;将所述存储路径转化为链接地址,并将所述链接地址发送到预置云端平台,以供所述预置云端平台通过所述链接地址指示目标用户进行数据下载。可选的,在本发明第二方面的第五种实现方式中,所述数据采集装置还包括:分析模块,用于接收所述终端发送的数据表显示请求,基于所述数据表显示请求查询并分析预置数据库中的各表结构信息,得到表名、表注释、字段名和字段注释;封装模块,用于对所述表名、所述表注释、所述字段名和所述字段注释按照预设数据格式进行封装,得到中文映射数据,并将所述中文映射数据发送到所述终端,以使得所述终端用于对所述中文映射数据进行展示和配置处理,生成所述数据采集请求。可选的,在本发明第二方面的第六种实现方式中,所述分析模块具体用于:接收所述终端发送的数据表显示请求,并解析所述数据表显示请求,得到数据库名称;基于所述数据库名称获取预置数据库对应的预设主机地址、预设用户名和预设密码;采用所述数据库名称、所述预设主机地址、所述预设用户名和所述预设密码连接所述预置数据库,得到连接结果;当所述连接结果为连接成功时,使用预设的结构化查询语句查询所述预置数据库的各表结构信息;对所述各表结构信息进行解析,得到表名、表注释、字段名和字段注释。本发明第三方面提供了一种数据采集设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据采集设备执行上述的数据采集方法。本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数据采集方法。本发明提供的技术方案中,接收终端发送的数据采集请求,并对所述数据采集请求进行审批,得到审批结果,所述数据采集请求包括待采集信息和连接字段信息,所述连接字段信息用于指示不同表之间的字段连接关系;当所述审批结果为审批通过时,对所述待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个所述待采集数据表的已存数据量;当每个所述待采集数据表的已存数据量全部小于预置阈值时,按照所述连接字段信息、所述多个待采集字段和所述多个待采集数据表生成第一待查询关联语句;当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,将每个所述待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照所述连接顺序和所述多个连接条件对所述连接字段信息、所述多个待采集字段和所述多个待采集数据表进行语句拼接,得到第二待查询关联语句;执行所述第一待查询关联语句或者所述第二待查询关联语句,得到所述数据采集请求对应的目标数据集,并对所述目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供所述预置云端平台通过链接地址指示目标用户进行数据下载。本发明实施例中,通过对众多用户提出种类繁多的数据采集工作生成不同的数据采集请求,对数据采集请求进行审批,并对审批通过的数据采集请求进行大小表的判断,进而构建连接查询,提高数据采集效率,同时对采集到的数据进行脱敏处理,增强数据采集的安全性。附图说明图1为本发明实施例中数据采集方法的一个实施例示意图;图2为本发明实施例中数据采集方法的另一个实施例示意图;图3为本发明实施例中数据采集装置的一个实施例示意图;图4为本发明实施例中数据采集装置的另一个实施例示意图;图5为本发明实施例中数据采集设备的一个实施例示意图。具体实施方式本发明实施例提供了一种数据采集方法、装置、设备及存储介质,用于通过对众多用户提出种类繁多的数据采集工作生成不同的数据采集请求,对数据采集请求进行审批,并对审批通过的数据采集请求进行大小表的判断,进而构建连接查询,提高数据采集效率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中数据采集方法的一个实施例包括:101、接收终端发送的数据采集请求,并对数据采集请求进行审批,得到审批结果,数据采集请求包括待采集信息和连接字段信息,连接字段信息用于指示不同表之间的字段连接关系。具体的,当检测到终端接收到目标用户对预设表模型中不同字段进行拖拽操作,并在预设展示区域展示不同字段时,服务器接收终端发送的数据采集请求,数据采集请求包括待采集信息和连接字段信息,连接字段信息用于指示不同表之间的字段连接关系,例如,承保主题表a与理赔表b为两个不同的数据表,可将承保主题表的保单号字段c与理赔表的保单号字段d设置为连接字段信息;服务器对数据采集请求生成一个待审批的签报信息,在待审批的签报信息被审批通过后,服务器对数据采集请求进行采集处理。其中,审批可以包括多个审批环节,例如,第一层审批人为机构负责人,第二层审批人为业务属主,第三层审批人为对敏感信息进行审核的安全审计人员。具体的,服务器对数据数据采集请求设置对应的待审批记录;服务器从预置配置规则表中获取待审批记录相应的预设审批规则;服务器基于预设审批规则确定待审批记录对应的审核人,并将待审批记录发送给审核人,以使得审核人对待审批记录进行审批。可以理解的是,本发明的执行主体可以为数据采集装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。102、当审批结果为审批通过时,对待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个待采集数据表的已存数据量。具体的,当审批结果为审批通过时,服务器对待采集信息进行解析,得到多个待采集字段和多个待采集数据表;服务器根据结构化查询语言语法规则和多个待采集数据表生成多个待查询总数量语句;服务器执行多个待查询总数量语句,得到每个待采集数据表的已存数据量;服务器判断每个待采集数据表的已存数据量是否小于预置阈值,其中,预置阈值可以为5000万,也就是,对每个待采集数据表的已存数据量与预置阈值进行差运算,得到运算结果,当运算结果小于0时,服务器确定每个待采集数据表的已存数据量小于预置阈值,执行步骤103;当运算结果大于或者等于0时,服务器确定每个待采集数据表的已存数据量大于或者等于预置阈值,执行步骤104。103、当每个待采集数据表的已存数据量全部小于预置阈值时,按照连接字段信息、多个待采集字段和多个待采集数据表生成第一待查询关联语句。当每个待采集数据表的已存数据量全部小于预置阈值时,服务器确定多个待采集数据表均为小数据表,进一步地,服务器对多个小数据表进行关联查询时,服务器可以采用预置连接关键字join按照连接字段信息顺序对多个待采集字段和多个待采集数据表进行关联语句处理,生成第一待查询关联语句,第一关联查询语句用于执行连接查询处理。例如,连接字段顺序为a、d、e、b和c,那么就可以按照a、d、e、b和c进行关联语句处理。需要说明的是,连接查询是关系数据库中的一种查询方式,包括内连接、外连接和交叉连接等。通过连接运算符可以实现多个待查询数据表的关联查询,连接运算符包括内连接、左外连接、右外连接、全外连接。104、当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,将每个待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照连接顺序和多个连接条件对连接字段信息、多个待采集字段和多个待采集数据表进行语句拼接,得到第二待查询关联语句。当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,服务器确定至少一个待采集数据表为大数据表,进一步地,服务器对每个待采集数据表的已存数据量按照从小到大顺序进行排序,得到连接顺序;然后,服务器根据连接字段信息确定多个连接条件。例如,有4个待采集数据表,投保人信息数据表table1、保险类型数据表table2、保险价格数据表table3和理赔数据表table4,分别对应的已存数据量为5000条,8000条、2000条和12000条,若预置阈值为10000条,则服务器确定table4的已存数据量大于预置阈值,则服务器确定连接顺序为table3、table1、table2和table4。其中,table3、table1、table2和table4分别对应的连接字段信息为table3.id、table1.id、table2.id与table4.id,对应的连接条件分别为table3.id=table1.id、table1.id=table2.id和table2.id=table4.id,对应的待采集字段分别为保险价格字段table3.price、投保人姓名字段table1.name、投保人证件号字段table1.card、投保人手机号字段table1.phone、保险类型字段table2.type和理赔表出险详情字段table4.detail。其次服务器进行语句连接时,获取预设连接语句模板,预设连接语句模板中包括多个预设关键字,例如,select、join、from和on,预设连接语句模板如下所示:select${field}from${tname1}join${tname2}on${join1}join${tname3}on${join2}join${tname4}on${join3}。其中,字符串${field}用于指示以逗号分隔的多个待采集字段、字符串${tname1}、${tname2}、${tname3}和${tname4}用于指示多个待采集数据表的名称,字符串${join1}、${join2}和${join3}用于指示多个连接条件,各字符串还可以为其他字符组合方式,具体此处不做限定。进一步地,服务器在预设连接语句模板中按照连接顺序、对应的连接条件、多个待采集字段和多个待采集数据表进行字符串替换,得到第二待查询关联语句,例如:selecttable3.price,table1.name,table1.card,table1.phone,table2.type,table4.detailfromtable3jointable1ontable3.id=table1.idjointable2ontable1.id=table2.idjointable4ontable2.id=table4.id。可以理解的是,第二待查询关联语句是符合结构化查询语言语法规则的,而服务器对小数据表和大数据表进行关联查询时,将小数据表放在关键字join的前面,同时也会将小数据表进行缓存,提高数据查询效率。105、执行第一待查询关联语句或者第二待查询关联语句,得到数据采集请求对应的目标数据集,并对目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供预置云端平台通过链接地址指示目标用户进行数据下载。其中,脱敏处理是指对某些敏感信息通过预设的脱敏规则进行数据的变形处理,实现敏感隐私数据的可靠保护。在涉及用户安全数据或者一些商业性敏感数据的情况下,对真实数据进行改造并使用,例如,产险敏感数据包括身份证号、电话号码卡号、银行卡号和客户号信息,服务器在对个人信息进行公布前,需要进行脱敏处理。进一步地,服务器在预置数据库中执行第一待查询关联语句或者第二待查询关联语句,得到执行结果;当执行结果为执行成功时,服务器获取数据采集请求对应的目标数据集;服务器对目标数据集进行脱敏处理,并对已脱敏的数据集设置链接地址;服务器将已脱敏的数据集对应的链接地址发送到预置云端平台,以供预置云端平台通过链接地址指示目标用户进行数据下载。进一步地,将目标数据集存储于区块链数据库中,具体此处不做限定。本发明实施例中,通过对众多用户提出种类繁多的数据采集工作生成不同的数据采集请求,对数据采集请求进行审批,并对审批通过的数据采集请求进行大小表的判断,进而构建连接查询,提高数据采集效率。请参阅图2,本发明实施例中数据采集方法的另一个实施例包括:201、接收终端发送的数据表显示请求,基于数据表显示请求查询并分析预置数据库中的各表结构信息,得到表名、表注释、字段名和字段注释。具体的,服务器接收终端发送的数据表显示请求,并对数据表显示请求进行解析,得到数据库名称;服务器基于数据库名称获取预置数据库的预设主机地址、预设用户名和预设密码,例如,预设主机地址为127.0.0.1或者localhost,预设用户名为root,预设密码为root123;服务器根据数据库名称、预设主机地址、预设用户名和预设密码连接预置数据库,得到连接结果;当连接结果为连接成功时,服务器根据预设的结构化查询语句查询分析预置数据库的各表结构信息;服务器根据各表结构信息生成各字段类型及其大小信息,得到表名、表注释、字段名和字段注释,其中,预置数据库可以为关系数据库,例如,获取数据表a中的表注释的第一结构化查询语句为:select*fromuser_tab_commentswheretable_name='a'orderbytable_name;获取数据表a中所有的字段注释的第二结构化查询语句如下所示:select*fromuser_tab_columnswheretable_name='a'orderbycolumn_name。202、对表名、表注释、字段名和字段注释按照预设数据格式进行封装,得到中文映射数据,并将中文映射数据发送到终端,以使得终端用于对中文映射数据进行配置处理,生成数据采集请求。其中,预设数据格式包括脚本js对象简谱(javascriptobjectnotation,json)格式,预设数据格式为一种关联结构,也就是将多个表和每个表对应的字段构成多个子集合。服务器将表名、表注释、字段名和字段注释按照预设的数据格式设置为中文映射数据,例如,服务器通过解析产险的承保主题表,车、财、意理赔主题表的表结构,将表名和字段名对应的码值全都映射为中文名称,以使得终端按照预置树状形式展示平台上提供目标用户操作,并接受目标用户采用“拖”,“拉”,“拽”的方式对不同的数据表中字段进行关联后生成数据采集请求。需要说明的是,服务器对关联字段封装为连接字段信息,将多个待采集字段和多个待采集数据表合并为待采集信息,从而降低了目标用户的学习成本,并不涉及具体的编程语言,仅需简单操作即可,提高数据采集的效率。203、接收终端发送的数据采集请求,并对数据采集请求进行审批,得到审批结果,数据采集请求包括待采集信息和连接字段信息,连接字段信息用于指示不同表之间的字段连接关系。可选的,服务器接收终端发送的数据采集请求,并解析数据采集请求,得到目标用户的唯一标识、查询日期、待采集信息和连接字段信息,连接字段信息用于指示不同表之间的字段连接关系,服务器可以对目标用户设置不同的审批层级,例如,目标用户a采用一级审批,目标用户b采用二级审批,目标用户c采用三级审批,目标用户a、b和c采用各自对应的唯一标识与审批层级关联;服务器对目标用户的唯一标识、查询日期、待采集信息和连接字段信息进行记录;服务器基于目标用户的唯一标识和待采集信息确定审批事项和审批信息,审批信息包括审批层级、审批类型和目标审批人,不同的审批层级采用不同的审批类型进行标识,不同的审批层级由不同的目标审批人进行审批,审批层级、审批类型和目标审批人为一一对应关系,并将目标用户的唯一标识和多个目标编码进行存储,得到审批事项,根据目标用户的唯一标识查询得到审批事项对应的审批信息;服务器按照审批层级和审批类型将审批事项分发至目标审批人对应的审批终端。需要说明的是,服务器可以设置对敏感信息的审批机制,具体的,服务器发送到审批事项,审批事项包括待审批文本;通过审批终端根据预设的敏感信息规则对待审批文本进行扫描,得到扫描结果;进一步地,服务器根据扫描结果设置审批事项的审核结果;服务器接收审批终端发送的审批结果,并根据审批结果更新数据采集请求对应的审批状态。其中,多个待采集字段可以来源于相同的待采集数据表,也可以来源于不同的待采集数据表,也可以对不同待采集数据表的字段进行关联,具体此处不做限定。204、当审批结果为审批通过时,对待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个待采集数据表的已存数据量。可选的,当审批结果为审批通过时,服务器按照预置分隔符对待采集信息进行解析,得到多个待采集字段和多个待采集数据表,例如,选取字段名为保单号、保单名和理赔金额的字段,采用“表名$字段名”的格式分别对保单号、保单名和理赔金额进行标识,也就是table_namea$policy_no、table_namea$policy_name,table_nameb$claim_amount,其中,table_namea和table_nameb为待采集数据表,保单号policy_no、保单名policy_name和理赔金额claim_amount为待采集字段,$为预置分隔符,预置分隔符也可以采用下划线“_”,具体此处不做限定;服务器对每个待采集数据表生成对应的数量查询语句,并执行对应的数量查询语句,得到每个待采集数据表的已存数据量,例如,表a中100万条数据,表b中有50万条数据。205、当每个待采集数据表的已存数据量全部小于预置阈值时,按照连接字段信息、多个待采集字段和多个待采集数据表生成第一待查询关联语句。该步骤与步骤103的描述相似,具体此处不再赘述。206、当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,将每个待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照连接顺序和多个连接条件对连接字段信息、多个待采集字段和多个待采集数据表进行语句拼接,得到第二待查询关联语句。具体的,当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,服务器对每个待采集数据表的已存数据量按照从小到大顺序进行排序,得到初始排序序列;服务器采用查询日期从预置映射表中读取多个待采集数据表各自对应的关联数据表,关联数据表包括日表、年表和历史全量表,其中,日表用于指示按照预置业务存储每天更新的数据,年表用于存储一年、两年或者三年的数据,历史全量表用于保存全部数据。例如,承保主题表有10多亿数据,将承保主题表拆分为历史表,近三年表和日表,根据查询量统计查近三年表的和查当日表比较多,则根据承保日期去判断查询历史表或者近三年表还是日表;服务器根据连接字段信息对初始排序序列进行关联数据表筛选,得到目标排序序列,并基于目标排序序列确定连接顺序,例如,初始排序序列包括6个待采集数据表a、b、c、d、e和f,通过关联数据表筛选后,目标排序序列包括3个待采集数据表a、c和f;服务器对多个待采集字段和各自对应的关联数据表分别生成多个初始查询语句,其中,初始查询语句中包括关键字select、from、where,依据结构化查询语言语法规则对多个待采集的字段和各自对应的关联数据表进行设置,得到多个初始查询语句,进一步地,服务器根据多个待采集的字段拼装select语句,例如,select语句为selecta.id,b.name,c.num,d.name;服务器根据各自对应的关联数据表设置关联语句,关联语句包括from语句和join语句;服务器将select语句、from语句和join语句按照关联数据表连接得到多个初始查询语句,例如,多个初始查询语句包括fromtable1ajointable2b,jointable3c,jointable4d;服务器按照连接字段信息设置多个连接条件,例如,多个连接条件包括ona.id=b.id,ona.cid=c.cid和onb.name=d.name,并按照连接顺序和多个连接条件对多个初始查询语句进行语句拼接,得到第二待查询关联语句。例如,第二待查询关联语句为selecta.id,b.name,c.num,d.namefromtable1ajointable2bona.id=b.idjointable3cona.cid=c.cidjointable4donb.name=d.name。进一步地,服务器对拼接后的语句进行映射连接操作,得到第二待查询关联语句。映射连接mapjoin是数据仓库工具hive的一种优化操作,适用于小数据表连接大数据表的场景,由于表的连接操作是在映射map端,并且是在内存中进行的,所以其并不需要启动归约任务,从而能在一定程度上节省资源提高连接效率,生成的第二待查询关联语句如下所示:select/*+mapjoin(b)*/a.a1,a.a2,b.b2fromtableaajointablebbona.a1=b.b1;服务器使用mapjoin将小表放入内存,在map端和大数据表逐一匹配,拆分大数据表为小数据表,以便提高查询效率,减少服务器的查询压力。可以理解的是,由于表连接时,存在过滤条件,在任意两个表连接后,数据量会更小,可在数据量减少以后再与更大的数据表连接,以此类推,使得查询数据的效率更高。207、执行第一待查询关联语句或者第二待查询关联语句,得到数据采集请求对应的目标数据集,并对目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供预置云端平台通过链接地址指示目标用户进行数据下载。具体的,服务器执行第一待查询关联语句或者第二待查询关联语句,得到数据采集请求对应的目标数据集,目标数据集包括多个已采集字段名和多个已采集数据列;服务器从预置脱敏数据表中读取待脱敏的字段名和对应的脱敏规则,例如,对身份证号进行信息摘要算法md5加密,也就是对身份证号按照脱敏规则进行脱敏处理;并根据待脱敏的字段名对多个已采集字段名进行匹配,得到匹配结果;服务器基于匹配结果读取多个已采集数据列对应的敏感数据,并根据对应的脱敏规则对多个已采集数据列对应的敏感数据进行脱敏处理,得到已脱敏的数据集,脱敏处理是在用于校验敏感字段的,每个表名和字段对应一张脱敏表,服务器遍历对应的数据表确定是否需要加密;服务器获取预设文件模板,并按照预设文件模板对已脱敏的数据集进行组合,得到目标文件,并对目标文件进行压缩处理,得到存储路径;服务器将存储路径转化为链接地址,并将链接地址发送到预置云端平台,以供预置云端平台通过链接地址指示目标用户进行数据下载,其中,在压缩文件时,还可以写入配置文件权限的账户名称,当下载该压缩文件时,校验配置该压缩文件即可,以确保只有具有权限的目标用户才能下载该压缩文件。本发明实施例中,通过对众多用户提出种类繁多的数据采集工作生成不同的数据采集请求,对数据采集请求进行审批,并对审批通过的数据采集请求进行大小表的判断,进而构建连接查询,提高数据采集效率。上面对本发明实施例中数据采集方法进行了描述,下面对本发明实施例中数据采集装置进行描述,请参阅图3,本发明实施例中数据采集装置的一个实施例包括:审批模块301,用于接收终端发送的数据采集请求,并对数据采集请求进行审批,得到审批结果,数据采集请求包括待采集信息和连接字段信息,连接字段信息用于指示不同表之间的字段连接关系;解析模块302,当审批结果为审批通过时,用于对待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个待采集数据表的已存数据量;第一生成模块303,当每个待采集数据表的已存数据量全部小于预置阈值时,用于按照连接字段信息、多个待采集字段和多个待采集数据表生成第一待查询关联语句;第二生成模块304,当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,用于将每个待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照连接顺序和多个连接条件对连接字段信息、多个待采集字段和多个待采集数据表进行语句拼接,得到第二待查询关联语句;脱敏模块305,用于执行第一待查询关联语句或者第二待查询关联语句,得到数据采集请求对应的目标数据集,并对目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供预置云端平台通过链接地址指示目标用户进行数据下载。本发明实施例中,通过对众多用户提出种类繁多的数据采集工作生成不同的数据采集请求,对数据采集请求进行审批,并对审批通过的数据采集请求进行大小表的判断,进而构建连接查询,提高数据采集效率。请参阅图4,本发明实施例中数据采集装置的另一个实施例包括:审批模块301,用于接收终端发送的数据采集请求,并对数据采集请求进行审批,得到审批结果,数据采集请求包括待采集信息和连接字段信息,连接字段信息用于指示不同表之间的字段连接关系;解析模块302,当审批结果为审批通过时,用于对待采集信息进行解析,得到多个待采集字段和多个待采集数据表,并统计每个待采集数据表的已存数据量;第一生成模块303,当每个待采集数据表的已存数据量全部小于预置阈值时,用于按照连接字段信息、多个待采集字段和多个待采集数据表生成第一待查询关联语句;第二生成模块304,当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,用于将每个待采集数据表的已存数据量按照从小到大顺序确定连接顺序,设置多个连接条件,并按照连接顺序和多个连接条件对连接字段信息、多个待采集字段和多个待采集数据表进行语句拼接,得到第二待查询关联语句;脱敏模块305,用于执行第一待查询关联语句或者第二待查询关联语句,得到数据采集请求对应的目标数据集,并对目标数据集进行脱敏处理,将已脱敏的数据集发送到预置云端平台,以供预置云端平台通过链接地址指示目标用户进行数据下载。可选的,审批模块301还可以具体用于:接收终端发送的数据采集请求,并解析数据采集请求,得到目标用户的唯一标识、查询日期、待采集信息和连接字段信息,连接字段信息用于指示不同表之间的字段连接关系;对目标用户的唯一标识、查询日期、待采集信息和连接字段信息进行记录;基于目标用户的唯一标识和待采集信息确定审批事项和审批信息,审批信息包括审批层级、审批类型和目标审批人;按照审批层级和审批类型将审批事项分发至目标审批人对应的审批终端;接收审批终端发送的审批结果,并根据审批结果更新数据采集请求对应的审批状态。可选的,解析模块302还可以具体用于:当审批结果为审批通过时,按照预置分隔符对待采集信息进行解析,得到多个待采集字段和多个待采集数据表;对每个待采集数据表生成对应的数量查询语句,并执行对应的数量查询语句,得到每个待采集数据表的已存数据量。可选的,第二生成模块304还可以具体用于:当至少一个待采集数据表的已存数据量大于或者等于预置阈值时,对每个待采集数据表的已存数据量按照从小到大顺序进行排序,得到初始排序序列;采用查询日期从预置映射表中读取多个待采集数据表各自对应的关联数据表,关联数据表包括日表、年表和历史全量表;根据连接字段信息对初始排序序列进行关联数据表筛选,得到目标排序序列,并基于目标排序序列确定连接顺序;对多个待采集字段和各自对应的关联数据表分别生成多个初始查询语句;按照连接字段信息设置多个连接条件,并按照连接顺序和多个连接条件对多个初始查询语句进行语句拼接,得到第二待查询关联语句。可选的,脱敏模块305还可以具体用于:执行第一待查询关联语句或者第二待查询关联语句,得到数据采集请求对应的目标数据集,目标数据集包括多个已采集字段名和多个已采集数据列;从预置脱敏数据表中读取待脱敏的字段名和对应的脱敏规则,并根据待脱敏的字段名对多个已采集字段名进行匹配,得到匹配结果;基于匹配结果读取多个已采集数据列对应的敏感数据,并根据对应的脱敏规则对多个已采集数据列对应的敏感数据进行脱敏处理,得到已脱敏的数据集;获取预设文件模板,并按照预设文件模板对已脱敏的数据集进行组合,得到目标文件,并对目标文件进行压缩处理,得到存储路径;将存储路径转化为链接地址,并将链接地址发送到预置云端平台,以供预置云端平台通过链接地址指示目标用户进行数据下载。可选的,数据采集装置还包括:分析模块306,用于接收终端发送的数据表显示请求,基于数据表显示请求查询并分析预置数据库中的各表结构信息,得到表名、表注释、字段名和字段注释;封装模块307,用于对表名、表注释、字段名和字段注释按照预设数据格式进行封装,得到中文映射数据,并将中文映射数据发送到终端,以使得终端用于对中文映射数据进行展示和配置处理,生成数据采集请求。可选的,分析模块306还可以具体用于:接收终端发送的数据表显示请求,并解析数据表显示请求,得到数据库名称;基于数据库名称获取预置数据库对应的预设主机地址、预设用户名和预设密码;采用数据库名称、预设主机地址、预设用户名和预设密码连接预置数据库,得到连接结果;当连接结果为连接成功时,使用预设的结构化查询语句查询预置数据库的各表结构信息;对各表结构信息进行解析,得到表名、表注释、字段名和字段注释。本发明实施例中,通过对众多用户提出种类繁多的数据采集工作生成不同的数据采集请求,对数据采集请求进行审批,并对审批通过的数据采集请求进行大小表的判断,进而构建连接查询,提高数据采集效率。上面图3和图4从模块化功能实体的角度对本发明实施例中的数据采集装置进行详细描述,下面从硬件处理的角度对本发明实施例中数据采集设备进行详细描述。图5是本发明实施例提供的一种数据采集设备的结构示意图,该数据采集设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据采集设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在数据采集设备500上执行存储介质530中的一系列指令操作。数据采集设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的数据采集设备结构并不构成对数据采集设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述数据采集方法的步骤。进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1