本发明涉及大数据技术领域,尤其涉及一种大数据质检方法、系统、存储介质及设备。
背景技术:
现有技术中,对大数据的质检方法通常是先结构客户端发送的质检请求,然后根据质检请求携带的检查任务标识获取对应的数据质检方案,再利用质检请求携带的检查参数的参数值解析数据质检方案生成大数据平台可执行的数据质检指令,然后发送数据质检指令到大数据平台,最后接收大数据平台执行数据质检指令后返回的数据质检结果。这种大数据的质检方法主要存在以下问题和痛点:1.需要事先配置数据质检方案,多个质检方案会存在对同一个表同一个字段都需要校验的情况,因此方案的检查结果不能共享,存在重复计算,造成资源浪费,如果要修改方案,比较麻烦,不便于扩展;2、后台需要通过质检生成的sql语句,也存在上面同样的问题,同一个待检测对象会在不同的语句里出现,检测的粒度太粗,资源不能共享;3、不能实时返回质检结果,数据量越大返回结果的时间越慢;同样存在资源浪费问题。
技术实现要素:
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种大数据质检方法、系统、存储介质及设备。
本发明解决上述技术问题的技术方案如下:一种大数据质检方法,包括如下步骤:
s1:读取数据库中的业务数据信息,根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池;
s2:根据质检目标任务确定对应的质检规则,并根据所述质检规则和质检指标数据池中的质检指标数据计算质检结果;
s3:将所述质检结果与对应的预设质检阈值直接进行比较,并在所述质检结果与预设质检阈值触发预警规则时生成预警信息。
本发明的大数据质检方法,通过预先根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池,这样后续针对特定的质检任务可以直接采用质检指标数据池内的质检指标数据计算质检结果,即插即用,流程简单从而大大降低了重复计算的工作量,明显降低质检工作难度,检指标数据池内的数据可以共享,扩展性较强,灵活方便,提升质检效率,并且随着数据量增大,性能不受影响,并且可以直接返回质检结果,方便直观。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:所述步骤s2之前,还包括如下步骤:
根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选,并对筛选后的所述质检指标数据进行标记。
上述进一步方案的有益效果是:通过对所述质检指标数据池中的质检指标数据进行筛选并进行标记,这样针对特定的质检任务,可以非常方便地根据标记筛选出对应所需的质检指标数据,从而快速计算质检结果,提高质检效率,有利于优化系统性能。
进一步:所述根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选的具体方法为:
根据所述质检目标任务确定目标业务数据类型,并根据所述目标质检指标数据类型从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据。
上述进一步方案的有益效果是:通过确定所述质检目标任务数据类型,这样可以准确从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据,这些质检指标数据即是当前质检目标任务所需的质检指标数据,进而可以比较方便的完成当前质检目标任务的质检结果计算。
进一步:所述步骤s1中,所述根据业务数据信息和预定义规则计算质检指标数据具体包括如下步骤:
s11:判断所述业务数据信息的数据量,并根据所述业务数据信息的数据量确定抽样比例;
s12:根据所述抽样比例对所述业务数据信息进行抽样,并根据抽样得到的所述业务数据信息和预定义规则计算质检指标数据。
上述进一步方案的有益效果是:通过根据所述业务数据信息的数据量进行对应比例的抽样,这样可以减少质检指标数据的计算量,提高计算效率,保证系统性能。
本发明还提供了一种大数据质检系统,包括质检指标数据池模块、质检规则引擎模块和预警模块;
所述质检指标数据池模块,用于读取数据库中的业务数据信息,根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池;
所述质检规则引擎模块,用于根据质检目标任务确定对应的质检规则,并根据所述质检规则和质检指标数据池中的质检指标数据计算质检结果;
所述预警模块,用于将所述质检结果与对应的预设质检阈值直接进行比较,并在所述质检结果与预设质检阈值触发预警规则时生成预警信息。
本发明的大数据质检系统,通过预先根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池,这样后续针对特定的质检任务可以直接采用质检指标数据池内的质检指标数据计算质检结果,即插即用,流程简单从而大大降低了重复计算的工作量,明显降低质检工作难度,检指标数据池内的数据可以共享,扩展性较强,灵活方便,提升质检效率,并且随着数据量增大,性能不受影响,并且可以直接返回质检结果,方便直观。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:所述的大数据质检系统还包括筛选标记模块,用于根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选,并对筛选后的所述质检指标数据进行标记。
上述进一步方案的有益效果是:通过对所述质检指标数据池中的质检指标数据进行筛选并进行标记,这样针对特定的质检任务,可以非常方便地根据标记筛选出对应所需的质检指标数据,从而快速计算质检结果,提高质检效率,有利于优化系统性能。
进一步:所述筛选标记模块根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选的具体实现为:
根据所述质检目标任务确定目标业务数据类型,并根据所述目标质检指标数据类型从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据。
上述进一步方案的有益效果是:通过确定所述质检目标任务数据类型,这样可以准确从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据,这些质检指标数据即是当前质检目标任务所需的质检指标数据,进而可以比较方便的完成当前质检目标任务的质检结果计算。
进一步:所述质检指标数据池模块根据业务数据信息和预定义规则计算质检指标数据的具体实现为:
判断所述业务数据信息的数据量,并根据所述业务数据信息的数据量确定抽样比例;
根据所述抽样比例对所述业务数据信息进行抽样,并根据抽样得到的所述业务数据信息和预定义规则计算质检指标数据。
上述进一步方案的有益效果是:通过根据所述业务数据信息的数据量进行对应比例的抽样,这样可以减少质检指标数据的计算量,提高计算效率,保证系统性能。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述的大数据质检方法。
本发明还提供了一种大数据质检设备,包括所述的存储介质和处理器,所述处理器执行所述存储介质上的计算机程序时实现所述大数据质检方法的步骤。
附图说明
图1为本发明一实施例的大数据质检方法的流程示意图;
图2为本发明一实施例的大数据质检系统的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种大数据质检方法,包括如下步骤:
s1:读取数据库中的业务数据信息,根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池;
s2:根据质检目标任务确定对应的质检规则,并根据所述质检规则和质检指标数据池中的质检指标数据计算质检结果;
s3:将所述质检结果与对应的预设质检阈值直接进行比较,并在所述质检结果与预设质检阈值触发预警规则时生成预警信息。
本发明的大数据质检方法,通过预先根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池,这样后续针对特定的质检任务可以直接采用质检指标数据池内的质检指标数据计算质检结果,即插即用,流程简单从而大大降低了重复计算的工作量,明显降低质检工作难度,检指标数据池内的数据可以共享,扩展性较强,灵活方便,提升质检效率,并且随着数据量增大,性能不受影响,并且可以直接返回质检结果,方便直观。
可选地,在本发明的一个或多个实施例中,所述步骤s2之前,还包括如下步骤:
根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选,并对筛选后的所述质检指标数据进行标记。
通过对所述质检指标数据池中的质检指标数据进行筛选并进行标记,这样针对特定的质检任务,可以非常方便地根据标记筛选出对应所需的质检指标数据,从而快速计算质检结果,提高质检效率,有利于优化系统性能。
具体地,在本发明的一个或多个实施例中,所述根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选的具体方法为:
根据所述质检目标任务确定目标业务数据类型,并根据所述目标质检指标数据类型从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据。
通过确定所述质检目标任务数据类型,这样可以准确从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据,这些质检指标数据即是当前质检目标任务所需的质检指标数据,进而可以比较方便的完成当前质检目标任务的质检结果计算。
在本发明的一个或多个实施例中,所述步骤s1中,所述根据业务数据信息和预定义规则计算质检指标数据具体包括如下步骤:
s11:判断所述业务数据信息的数据量,并根据所述业务数据信息的数据量确定抽样比例;
s12:根据所述抽样比例对所述业务数据信息进行抽样,并根据抽样得到的所述业务数据信息和预定义规则计算质检指标数据。
通过根据所述业务数据信息的数据量进行对应比例的抽样,这样可以减少质检指标数据的计算量,提高计算效率,保证系统性能。
实际中,所述业务数据信息的数据量与抽样比例可以根据实际情况进行灵活调整。需要特别说明的是,为了保证数据的均匀性,并且不会给计算结果带来实质性影响,这里是按照抽样比例对同一种数据类型的业务数据信息进行抽样。
下面,以商品采购成本为例,来解释说明本发明的大数据质检方法。商品采购总成本=商品采购费用(a)+运输费用(b)+库存费用(c)+利息费用(融资)(d)+管理费用(e)+保险费用(f)+其他费用(g),其中商品采购费用(a)=采购数量(a1)*采购单价(a2)。
采用本发明的大数据质检方法,首先需要读取数据库中的业务数据信息,然后根据业务数据信息和预定义规则计算质检指标数据,本发明中实施例中,业务数据信息的数据量超过了30万,相对较大,我们按照15:1的比例进行抽样,然后得到业务数据信息的数据量会超过2万,然后根据到业务数据信息和预定义规则计算质检指标数据,如下:
采购数量(a1):当月采购该商品的总数量;
运输费用(b):当月采购商品总的运输费用;
采购单价(a2):当月采购该商品的平均价格;
库存费用(c):当月所有商品总的库存费用;
利息费用(d):当月融资总利息;
管理费用(e):当月采购商品所产生总的费用;
保险费用(f):当月采购商品保险总的费用;
其他费用(g):当月其他购买商品总的费用支出。
质检指标数据计算完成后,即可构建质检指标数据池。接下来,即可根据质检目标任务确定对应的质检规则,并根据所述质检规则和质检指标数据计算质检结果。
具体地,对总的采购费用设置预警规则
(1)总采购费用cm=a1*a2+b+c+d+e+f+g>con(常数,自定义);
说明:如果总采购费用cm>预设采购费用质检阈值con,则预警。
(2)库存费用(cd)=c>con1(常数,自定义);
说明:如库存费用cm>预设库存费用质检阈值con1,则预警;
(3)物流和库存费(cld)=c+b>con2(常数,自定义);
说明:如物流和库存费cld>预设物流和库存费质检阈值con2,则预警;
(4)商品采购费(cp)=a1*a2>con3(常数,自定义)
说明:如商品采购费cp>预设商品采购费质检阈值con2,则预警。
实际中,针对不同的质检任务确定对应的质检规则,然后根据质检规则来和质检指标数据计算质检结果,从而完成大数据的质检,不需要针对数据库中大大数据从源头开始进行重复计算,直接采用质检检指标数据池中的质检指标数据,结合对应的质检目标任务确定的目标业务数据类型,即可非常快速地通过对应数据类型匹配的质检指标数据来完成质检结果的计算,在保证质检结果精度前提下,大大降低了计算数据处理量,并优化了系统性能。
如图2所示,本发明还提供了一种大数据质检系统,包括质检指标数据池模块、质检规则引擎模块和预警模块;
所述质检指标数据池模块,用于读取数据库中的业务数据信息,根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池;
所述质检规则引擎模块,用于根据质检目标任务确定对应的质检规则,并根据所述质检规则和质检指标数据池中的质检指标数据计算质检结果;
所述预警模块,用于将所述质检结果与对应的预设质检阈值直接进行比较,并在所述质检结果与预设质检阈值触发预警规则时生成预警信息。
本发明的大数据质检系统,通过预先根据业务数据信息和预定义规则计算质检指标数据,并构建质检指标数据池,这样后续针对特定的质检任务可以直接采用质检指标数据池内的质检指标数据计算质检结果,即插即用,流程简单从而大大降低了重复计算的工作量,明显降低质检工作难度,检指标数据池内的数据可以共享,扩展性较强,灵活方便,提升质检效率,并且随着数据量增大,性能不受影响,并且可以直接返回质检结果,方便直观。
可选地,在本发明的一个或多个实施例中,所述的大数据质检系统还包括筛选标记模块,用于根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选,并对筛选后的所述质检指标数据进行标记。
通过对所述质检指标数据池中的质检指标数据进行筛选并进行标记,这样针对特定的质检任务,可以非常方便地根据标记筛选出对应所需的质检指标数据,从而快速计算质检结果,提高质检效率,有利于优化系统性能。
具体地,在本发明的一个或多个实施例中,所述筛选标记模块根据质检目标任务对所述质检指标数据池中的质检指标数据进行筛选的具体实现为:
根据所述质检目标任务确定目标业务数据类型,并根据所述目标质检指标数据类型从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据。
通过确定所述质检目标任务数据类型,这样可以准确从所述质检指标数据池中筛选出数据类型与所述目标质检指标数据类型相匹配的质检指标数据,这些质检指标数据即是当前质检目标任务所需的质检指标数据,进而可以比较方便的完成当前质检目标任务的质检结果计算。
在本发明的一个或多个实施例中,所述质检指标数据池模块根据业务数据信息和预定义规则计算质检指标数据的具体实现为:
判断所述业务数据信息的数据量,并根据所述业务数据信息的数据量确定抽样比例;
根据所述抽样比例对所述业务数据信息进行抽样,并根据抽样得到的所述业务数据信息和预定义规则计算质检指标数据。
通过根据所述业务数据信息的数据量进行对应比例的抽样,这样可以减少质检指标数据的计算量,提高计算效率,保证系统性能。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述的大数据质检方法。
本发明还提供了一种大数据质检设备,包括所述的存储介质和处理器,所述处理器执行所述存储介质上的计算机程序时实现所述大数据质检方法的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。