本发明涉及数据质量检测,具体为一种数据质量检测方法及系统。
背景技术:
1、在对数据进行分析和管理的过程中,异常数据的出现会直接导致分析结果发生显著的变化,造成得到的结果超出预期,从而使管理者对整个项目过程的推断、控制和预测不准确,出现错误的判断将给整个项目带来巨大的风险,因此需要对数据进行质量检测。
2、经检索,授权公告号“cn112395280b”的中国发明专利,公开了“一种数据质量检测方法及其系统”,该申请根据原有整合历史数据建立数据模型,同时对新样本数据进行预测识别获得数据质量波动情况,从而能够事先采取调整措施以及针对性地进行数据质量管理。
3、此外申请公布号“cn109933581a”的中国发明专利,公开了“一种数据质量检测方法及系统”,该申请通过将数据等分存储到多台服务器磁盘和内存,采用分布式文件存储,让多台计算终端对分布式内存上的数据同时进行计算,实现分布式内存并行计算,然后将对多台计算终端上的运算结果进行汇总,即可完成质量检测。
4、然而上述两个专利在实际使用时,存在以下问题:
5、第一、第一个专利虽然能够根据历史数据建立数据模型,对新样本数据进行预测识别,但是无法对异常数据进行实时检测和处理,只能在数据质量波动出现后采取调整措施,不能做到及时处理。
6、第二、第二个专利虽然采用了分布式内存并行计算的方式,提高了数据质量检测的效率,但并未对数据质量检测的准确性和可靠性做出改进,且对异常数据的检测和处理能力有限。
7、因此,为此申请人基于上述两点不足,提出了一种新型数据质量检测方法及系统。
技术实现思路
1、本发明的目的在于提供一种数据质量检测方法及系统,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、第一方面,设计了一种数据质量检测方法,所述方法包括:
4、所述方法包括:
5、获取数据源内至少一条待检测数据,将待检测数据拆解成数据字符的状态;
6、构建筛选规则,并让同类字符信息的数据字符归纳一起;
7、构建内部搭载有不同系统的数据分析模型,提取数据字符内字符信息,得到多个数据字符项目,将历史数据字符指标和数据字符项目比对,得到数据字符的项目差值评分;
8、构建判别规则,设定判别阈值,根据每个数据字符的项目差值评分和预设的阈值进行比较,来确定的单个数据字符是否“达标”,统计“达标”的数据字符项目数量,并根据数量判断数据源的整体质量;
9、建立影响指标,基于数据的应用场景,对多个数据字符的项目差值评分进行的权重划分,依据权重划分后的“达标”的数据字符项目数量,最终判别待检测数据的整体质量。
10、作为本技术方案的进一步优选的,根据项目差值评分和预设的阈值进行比较;
11、当差值评分高于阈值,则判定该项目为高质量数据,并将其记为“达标”;
12、当差值评分低于阈值,则判定该项目为低质量数据,并将其记为“不达标”。
13、作为本技术方案的进一步优选的,根据“达标”的数据字符项目数量,进一步判断数据的质量等级;
14、当至少80%的数据字符项目都“达标”,则数据质量为“80分—90分”;
15、当50%—79%的数据字符项目“达标”,则数据质量为“60分—79分”;
16、当低于50%的数据字符项目“达标”,则数据质量为“40分—59分”。
17、作为本技术方案的进一步优选的,所述影响指标的构建标准包括:
18、a.准确性:对于“达标”的项目,当其字符信息与历史数据存在差异时,将其标记为“可能存在问题”并分配20%-35%权重;
19、b.一致性:对于来自同一数据源或同一批次的数据字符,当其中多个项目都出现字符信息与历史数据存在差异时,将其标记为“需要重点关注”并分配40%-55%权重;
20、c.稳定性:对于“达标”的项目,当其字符信息与历史数据不存在差异时,将其标记为“稳定性好”并分配10%-40%权重。
21、作为本技术方案的进一步优选的,数据字符的项目差值评分和预设的阈值进行比较,得到差值基于影响指标的构建标准,重新构建,构建的数值为等于原先数值乘以权重数值再加上原先的数值。
22、作为本技术方案的进一步优选的,构建筛选规则的方法包括:
23、检查数据字符内无效、模糊、错误以及重复的字符,并对这些字符进行标记;
24、替换或删除被标记的字符;
25、构建分类标准,基于字符的信息让同类字符的数据字符归纳到一起。
26、作为本技术方案的进一步优选的,数据分析模型的分析方法包括:
27、从筛选后的数据字符中提取出有用的字符特征;
28、基于提取的字符特征,联想并生成多个与其相同领域的数据字符项目;
29、将生成的数据字符项目存储管理到数据库内。
30、第二方面,为完善本技术方案,申请人又提出了基于上述数据质量检测方法的数据质量检测系统,该系统包括:
31、数据获取模块:用于获取数据源内至少一条待检测数据;
32、数据拆解模块:用于将待检测数据拆解成数据字符的状态;
33、数据归纳模块:用于构建筛选规则,并让同类字符信息的数据字符归纳一起;
34、数据提取模块:用于构建内部搭载有不同系统的数据分析模型,提取数据字符内字符信息,得到多个数据字符项目;
35、指标比对模块:用于将历史数据字符指标和数据字符项目比对,得到数据字符的项目差值评分;
36、判别模块:用于构建判别规则,设定判别阈值,根据每个数据字符的项目差值评分和预设的阈值进行比较,来确定的单个数据字符是否“达标”,统计“达标”的数据字符项目数量;
37、质量判断模块:用于根据“达标”的数据字符项目数量,进一步判断数据的质量等级;
38、影响指标模块:用于建立影响指标,基于数据的应用场景,对多个数据字符的项目差值评分进行的权重划分;
39、最终判别模块:用于依据权重划分后的“达标”的数据字符项目数量,最终判别待检测数据的整体质量。
40、与现有技术相比,本发明的有益效果是;
41、该数据质量检测方法及系统,相较于传统数据质量检测方法通过将待检测数据拆解成数据字符的状态,能够更精细地检测数据质量问题,其次,通过构建筛选规则和数据分析模型,能够更准确地提取数据字符内的信息,并得到多个数据字符项目,再次,通过将历史数据字符指标和数据字符项目进行比对,能够得出更准确的项目差值评分,最后,通过构建判别规则和设定判别阈值,能够更准确地判断数据质量是否达标。
42、此外,本发明的数据质量检测方法及系统通过将待检测数据拆解成数据字符的状态,并利用筛选规则和数据分析模型进行数据提取和分析,能够迅速有效地检测数据质量,提高了检测效率;
43、还有就是,本发明通过构建筛选规则、数据分析模型、判别规则和影响指标等模块,能够实现数据质量的自动检测和判别,从而降低了人工干预的成本和错误率。
44、此外需说明的是,本发明提供的数据质量检测方法,通过构建筛选规则、数据分析模型、判别规则以及影响指标,实现了对数据质量的全面检测和评估,其中该方法具有较强的通用性,可以应用于各种数据源的检测,如数据库、文件、网络数据等,同时,该方法还考虑了数据的应用场景,通过对数据字符的项目差值评分进行权重划分,使得检测结果更加符合实际业务需求。
45、需补充的是,本发明还提供了构建筛选规则、数据分析模型、判别规则以及影响指标的具体方法,使得数据质量检测过程更加清晰、有序,通过实施本发明,可以有效地提高数据质量检测的准确性和效率,为各类企业、机构提供可靠的数据质量保障。