数据质量分析方法和系统、数据处理方法和系统及介质与流程

文档序号:37457259发布日期:2024-03-28 18:40阅读:7来源:国知局
数据质量分析方法和系统、数据处理方法和系统及介质与流程

本技术涉及数据处理领域,并且更具体地涉及数据质量分析方法和系统、数据处理方法和系统以及实现上述方法的计算机可读存储介质。


背景技术:

1、随着信息技术的发展,大数据已经被广泛认为是一种战略性的新型资源,其可以利于目前产生的海量数据实现相关的技术发展与服务创新。为了适应大数据的发展,一般采用基于数据库的数据管理,其需要耗费大量的存储资源、处理资源和通信资源等,为大数据的分析和应用带来诸多挑战。

2、目前,由于难以对数据库中的数据进行准确、高效的质量分析,导致当数据库中的数据因时效过期、数据变动等原因失效后仍然被存储、处理、传输,造成设备存储、计算和网络传输的浪费。例如,在数据的整个生命周期中,由于数据的时效性、完整性、准确性等会随时间发生变化,导致数据在某些应用场景下不再适用。


技术实现思路

1、为了解决或至少缓解以上问题中的一个或多个,提供了以下技术方案。

2、按照本技术的第一方面,提供一种数据质量分析方法,所述方法包括下列步骤:获取目标数据,所述目标数据包括第一类型目标数据和第二类型目标数据;利用基于第一时间变量构建的线性衰减模型获取所述第一类型目标数据的第一数据特征,利用基于第二时间变量构建的指数衰减模型获取所述第二类型目标数据的第二数据特征;以及至少基于所述第一数据特征确定所述第一类型目标数据的质量分析结果,以及至少基于所述第二数据特征确定所述第二类型目标数据的质量分析结果。

3、根据本技术一实施例所述的数据质量分析方法,其中获取目标数据包括:获取待分析的数据;以及去除所述待分析的数据中缺失感兴趣字段的数据,以获取所述目标数据。

4、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中所述第一类型目标数据的第一数据特征周期性地被获取,以及所述第二类型目标数据的第二数据特征在非周期的预定时刻被获取。

5、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中所述第一时间变量与以下中的一项或多项相关联:所述第一类型目标数据的第一数据特征的获取时刻、所述第一类型目标数据的第一数据特征的获取周期、所述第一类型目标数据的采集时刻。

6、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中所述线性衰减模型通过以下步骤来构建:将所述第一类型目标数据的第一数据特征的获取周期划分为多个时间段;通过将所述第一类型目标数据的第一数据特征的获取时刻与所述第一类型目标数据的采集时刻之间的时间间隔长度作为所述第一时间变量来构建每个时间段内的线性衰减子模型;以及通过组合每个时间段内的线性衰减子模型来得到所述线性衰减模型。

7、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中利用基于第一时间变量构建的线性衰减模型获取所述第一类型目标数据的第一数据特征包括:在所述第一类型目标数据的第一数据特征的每个获取时刻,将输出值最大的线性衰减子模型确定为第一数据特征函数;确定所述第一数据特征函数在所述第一类型目标数据的第一数据特征的每个获取周期内的时间积分结果;以及基于在所述第一类型目标数据的第一数据特征的每个获取周期内的时间积分结果的集合来获取所述第一类型目标数据的第一数据特征。

8、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中所述第二时间变量与以下中的一项或多项相关联:所述第二类型目标数据的采集时刻、所述第二类型目标数据的最近更新时刻、所述第二类型目标数据的第二数据特征的获取时刻。

9、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中所述指数衰减模型通过以下步骤来构建:将所述第二类型目标数据的第二数据特征的获取时刻与距离所述获取时刻最近的所述第二类型目标数据的采集时刻之间的时间间隔长度作为所述第二时间变量来构建所述指数衰减模型;或将所述第二类型目标数据的最近更新时刻与所述第二类型目标数据的第二数据特征的获取时刻的差值作为所述第二时间变量来构建所述指数衰减模型。

10、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中利用基于第二时间变量构建的指数衰减模型获取所述第二类型目标数据的第二数据特征包括:在所述第二类型目标数据的第二数据特征的每个获取时刻,将由所述第二类型目标数据的第二数据特征的获取时刻与距离所述获取时刻最近的所述第二类型目标数据的采集时刻之间的时间间隔长度构建的指数衰减子模型确定为第二数据特征函数;在所述第二类型目标数据的第二数据特征的每个获取时刻,利用所述第二数据特征函数确定第二类型目标数据的第二数据子特征;以及基于对所述第二类型目标数据的第二数据子特征的平均处理结果来获取所述第二类型目标数据的第二数据特征。

11、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中利用基于第二时间变量构建的指数衰减模型获取所述第二类型目标数据的第二数据特征包括:在所述第二类型目标数据的第二数据特征的获取时刻,将由所述第二类型目标数据的最近更新时刻与所述第二类型目标数据的第二数据特征的获取时刻的差值构建的指数衰减模型确定为第二数据特征函数;以及利用所述第二数据特征函数来获取所述第二类型目标数据的第二数据特征。

12、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中至少基于所述第一数据特征确定所述第一类型目标数据的质量分析结果包括:获取与所述第一类型目标数据相关联的多个分析因子,其中所述多个分析因子至少包括时效性因子;获取对应于所述多个分析因子的多个权重和多个评分,其中将所述第一数据特征作为所述时效性因子的评分;以及基于所述多个权重与所述多个评分的加权求和结果确定所述第一类型目标数据的质量分析结果。

13、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中至少基于所述第二数据特征确定所述第二类型目标数据的质量分析结果包括:获取与所述第二类型目标数据相关联的多个分析因子,其中所述多个分析因子至少包括时效性因子;获取对应于所述多个分析因子的多个权重和多个评分,其中将所述第二数据特征作为所述时效性因子的评分;以及基于所述多个权重与所述多个评分的加权求和结果确定所述第二类型目标数据的质量分析结果。

14、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中至少基于所述第二数据特征确定所述第二类型目标数据的质量分析结果包括:获取与所述第二类型目标数据相关联的多个分析因子,其中所述多个分析因子不包括时效性因子;获取对应于所述多个分析因子的多个权重和多个评分以及所述多个权重与所述多个评分的加权求和结果;以及基于所述加权求和结果与所述第二数据特征的乘积确定所述第二类型目标数据的质量分析结果。

15、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中所述分析因子包括以下中的一项或多项:规范性、完整性、准确性、一致性、时效性、多维性、稀缺性和经济性。

16、根据本技术一实施例或以上任一实施例的所述的数据质量分析方法,其中获取对应于所述多个分析因子的多个权重包括:基于所述多个分析因子来构造判断矩阵;获取所述判断矩阵的最大特征值以确定对应于所述最大特征值的特征向量;以及对所述特征向量执行归一化处理和一致性检验,以获取所述多个权重。

17、按照本技术的第二方面,提供一种数据质量分析系统,所述系统包括:存储器;与所述存储器耦合的处理器;以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序的运行导致下列操作:获取目标数据,所述目标数据包括第一类型目标数据和第二类型目标数据;利用基于第一时间变量构建的线性衰减模型获取所述第一类型目标数据的第一数据特征,利用基于第二时间变量构建的指数衰减模型获取所述第二类型目标数据的第二数据特征;以及至少基于所述第一数据特征确定所述第一类型目标数据的质量分析结果,以及至少基于所述第二数据特征确定所述第二类型目标数据的质量分析结果。

18、根据本技术的第三方面,提供一种计算机可读存储介质,其包括指令,所述指令在运行时执行根据本技术第一方面所述的数据质量分析方法的步骤。

19、根据本技术的第四方面,提供一种数据处理方法,所述方法包括下列步骤:利用根据本技术第一方面所述的数据质量分析方法获取目标数据的质量分析结果;以及基于所述目标数据的质量分析结果执行对目标数据的处理操作。

20、根据本技术的第五方面,提供一种数据处理系统,其特征在于,所述系统包括:存储器;与所述存储器耦合的处理器;以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序的运行导致下列操作:利用根据本技术第一方面所述的数据质量分析方法获取目标数据的质量分析结果;以及基于所述目标数据的质量分析结果执行对目标数据的处理操作。

21、根据本技术的第六方面,提供一种计算机可读存储介质,其包括指令,所述指令在运行时执行根据本技术第四方面所述的数据处理方法的步骤。

22、根据本技术的一个或多个实施例的数据质量分析方案能够利用基于时间变量构建的衰减模型获取目标数据的至少一种数据特征,至少基于数据特征确定目标数据的质量分析结果,从而实现准确、高效的数据质量分析。根据本技术的一个或多个实施例的数据质量分析方案避免了人工分析引入的主观因素,节约了低质量数据排除所消耗的人力资源与计算机软硬件资源,同时也节约了低质量数据未被及时处理而对存储资源、处理资源和通信资源的耗费。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1