本发明涉及电信运营领域,尤其涉及一种大数据质量告警检测方法和系统。
背景技术:
1、电信运营商企业级大数据平台系统上,数据质量为其提供洁净、结构清晰的数据,是企业级大数据平台省级系统开发数据产品、提供数据服务、发挥大数据价值的必要前提,是企业数据资产管理的关键因素。
2、现有的数据质量检测与告警以静态人工经验设置参数的方式来实现,通过人工经验来设置告警规则,很多情况下不太准确,与业务数据的实际情况不相符合,可能存在某数据发生了异常波动,但由于认为告警设置不合理,未被及时发现,或者系统给出的告警问题属于业务正常的问题。这样产生的误报、漏报给后续数据质量的处理环节带来许多问题,加大了数据质量问题处理的难度和复杂性,影响了整个数据质量保证工作的效率。
技术实现思路
1、本发明所要解决的技术问题是针对现有技术的不足,提供一种大数据质量告警检测方法和系统。
2、本发明解决上述技术问题的技术方案如下:
3、一种大数据质量告警检测方法,包括:
4、配置数据质量检测规则;
5、根据所述数据质量检测规则结合待检测数据对象的数据执行质量检测,查找异常数据;
6、通过预设告警模型对所述异常数据进行所述数据质量检测规则的判别,根据判别结果输出所述待检测数据对象的告警信息;
7、根据所述告警信息对应配置的告警处理规则,对告警信息进行处理。
8、本发明的有益效果是:本方案通过配置数据质量检测规则、质量检测和预设告警模型,来对数据历史波动性、数据本身重要性、数据当前的影响程度、数据生成的时间变化等各种因素综合评定,给出准确的告警类型供后续进行告警处理。大大提高了数据质量检测告警的准确性,减少了数据质量的大量手工操作和问题处理,提高了数据质量管理的效率。
9、进一步地,还包括:
10、通过局部离群因子检测算法构建预设告警模型。
11、采用上述进一步方案的有益效果是:本方案通过局部离群因子检测算法构建预设告警模型,基于密度的异常检测算法进行异常样本检测。这类方法将样本与近邻之间的距离以及近邻个数这两个参数结合起来,得到该样本处的“密度”,根据密度大小来判断样本是否异常,基于密度的异常检模型,结合历史数据,挖掘潜在数据异常。
12、进一步地,还包括:
13、通过计算出样本数据的局部稀疏率来判别异常数据;
14、和/或,在所述预设告警模型判别异常数据之前,通过近邻距离计算的修剪因子剪除干扰样本数据,以对预设告警模型进行优化;
15、所述通过预设告警模型对所述异常数据进行所述数据质量检测规则的判别,具体包括:
16、通过优化后的预设告警模型对所述异常数据进行所述数据质量检测规则的判别。
17、采用上述进一步方案的有益效果是:本方案通过优化方法,不去计算代价高昂的可达距离和局部可达密度,而是计算局部稀疏率(localsparsityratio,lsr);另外,利用通过近邻距离计算的修剪因子剪除大量的不可能异常的样本,通过本优化方法计算代价低,质量检测精度高。
18、进一步地,所述根据所述数据质量检测规则结合待检测数据对象的数据,查找异常数据,具体包括:
19、连接待检测数据对象对应的分布式文件集群或关系型数据库;
20、根据所述分布式文件集群或所述关系型数据库获得待检测数据对象的数据;
21、根据所述数据质量检测规则结合待检测数据对象的数据,查找异常数据。
22、进一步地,还包括:
23、输出质量检测结果,并将检测结果输出到所述待检测数据对象的数据库中进行保存。
24、本发明解决上述技术问题的另一种技术方案如下:
25、一种大数据质量告警检测系统,包括:配置模块、质量检测模块、告警模块和处理模块;
26、所述配置模块用于配置数据质量检测规则;
27、所述质量检测模块用于根据所述数据质量检测规则结合待检测数据对象的数据执行质量检测,查找异常数据;
28、所述告警模块用于通过预设告警模型对所述异常数据进行所述数据质量检测规则的判别,根据判别结果输出所述待检测数据对象的告警信息;
29、所述处理模块用于根据所述告警信息对应配置的告警处理规则,对告警信息进行处理。
30、本发明的有益效果是:本方案通过配置数据质量检测规则、质量检测和预设告警模型,来对数据历史波动性、数据本身重要性、数据当前的影响程度、数据生成的时间变化等各种因素综合评定,给出准确的告警类型供后续进行告警处理。大大提高了数据质量检测告警的准确性,减少了数据质量的大量手工操作和问题处理,提高了数据质量管理的效率。
31、进一步地,还包括:模型构建模块,用于通过局部离群因子检测算法构建预设告警模型。
32、采用上述进一步方案的有益效果是:本方案通过局部离群因子检测算法构建预设告警模型,基于密度的异常检测算法进行异常样本检测。这类方法将样本与近邻之间的距离以及近邻个数这两个参数结合起来,得到该样本处的“密度”,根据密度大小来判断样本是否异常,基于密度的异常检模型,结合历史数据,挖掘潜在数据异常。
33、进一步地,还包括:优化模块,用于通过计算出样本数据的局部稀疏率来判别异常数据;
34、和/或,在所述预设告警模型判别异常数据之前,通过近邻距离计算的修剪因子剪除干扰样本数据,以对预设告警模型进行优化;
35、所述告警模块具体用于通过优化后的预设告警模型对所述异常数据进行所述数据质量检测规则的判别。
36、采用上述进一步方案的有益效果是:本方案通过优化方法,不去计算代价高昂的可达距离和局部可达密度,而是计算局部稀疏率(localsparsityratio,lsr);另外,利用通过近邻距离计算的修剪因子剪除大量的不可能异常的样本,通过本优化方法计算代价低,质量检测精度高。
37、进一步地,所述质量检测模块具体用于连接待检测数据对象对应的分布式文件集群或关系型数据库;
38、根据所述分布式文件集群或所述关系型数据库获得待检测数据对象的数据;
39、根据所述数据质量检测规则结合待检测数据对象的数据,查找异常数据。
40、进一步地,还包括:保存模块,用于输出质量检测结果,并将检测结果输出到所述待检测数据对象的数据库中进行保存。
41、本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
1.一种大数据质量告警检测方法,其特征在于,包括:
2.根据权利要求1所述的一种大数据质量告警检测方法,其特征在于,还包括:
3.根据权利要求1或2所述的一种大数据质量告警检测方法,其特征在于,还包括:
4.根据权利要求1所述的一种大数据质量告警检测方法,其特征在于,所述根据所述数据质量检测规则结合待检测数据对象的数据,查找异常数据,具体包括:
5.根据权利要求1或2或4所述的一种大数据质量告警检测方法,其特征在于,还包括:
6.一种大数据质量告警检测系统,其特征在于,包括:配置模块、质量检测模块、告警模块和处理模块;
7.根据权利要求6所述的一种大数据质量告警检测系统,其特征在于,还包括:模型构建模块,用于通过局部离群因子检测算法构建所述预设告警模型。
8.根据权利要求6或7所述的一种大数据质量告警检测系统,其特征在于,还包括:优化模块,用于通过计算出样本数据的局部稀疏率来判别异常数据;
9.根据权利要求6所述的一种大数据质量告警检测系统,其特征在于,所述质量检测模块具体用于连接待检测数据对象对应的分布式文件集群或关系型数据库;
10.根据权利要求6或7或9所述的一种大数据质量告警检测系统,其特征在于,还包括:保存模块,用于输出质量检测结果,并将检测结果输出到所述待检测数据对象的数据库中进行保存。