一种用于智慧场景的大数据清洗方法

文档序号:37861895发布日期:2024-05-07 19:39阅读:19来源:国知局
一种用于智慧场景的大数据清洗方法

本发明涉及数据处理,尤其涉及一种用于智慧场景的大数据清洗方法。


背景技术:

1、随着大数据方向技术的发展,智慧城市,智慧园区等智能化城市建设也随之出现。在这些智慧场景中,都需要通过不同的传感器进行数据采集,并通过云计算服务器的数据处理结果进行智慧场景的调控。在这些场景中对于传感器的数据采集都会以时序数据的形式进行数据计算,在通过传感器数据进行数据分析的过程中首先就需要对智慧场景中传感器采集到的数据进行数据清洗。

2、在智慧场景中传感器采集到的时序数据中,因为数据之间具有固定的时间间隔,所以可以通过基于连通性的局部异常因子cof进行数据点的异常检测,并根据设定异常因子阈值对智慧场景中传感器数据进行数据清洗。

3、在实际的智慧场景中,在传感器采集到的数据中会因为数据传输问题,电力问题或是其他导致传感器数据缺失的情况下。如果都通过单个传感器的时序数据进行近邻均值插值,在出现区域性的数据缺失时这种插值方式会出现较大的数据偏差。并且在对插值后的数据点进行异常检测的过程中,因为缺失数据点插值带来的偏差,会存在着离群因子不准确的技术问题。

4、在智慧场景中的同传感器数据的多维时序张量中,通过传感器时序数据中缺失数据点的分布信息获取缺失数据点的随机程度,从而在受到缺失数据点影响的cof离群因子计算的数据点的局部连接距离进行优化,消除缺失数据点的数据清洗过程中的负面影响。


技术实现思路

1、本发明的目的在于提供一种用于智慧场景的大数据清洗方法,在智慧场景中的数据清洗过程中,通过传感器之间存在的关系对缺失数据点在数据清洗过程中的影响进行评估,并消除缺失数据点带来的负面影响。

2、为了实现上述发明目的,本发明采用技术方案具体为:一种用于智慧场景的大数据清洗方法,包括以下步骤:

3、步骤s1:通过智慧场景中的相同传感器进行数据采集,形成多维时序数据;

4、步骤s2:通过缺失数据点的分布信息对时序数据中受影响数据点的平均连接距离进行优化;

5、步骤s3:设定离群因子阈值,完成数据清洗。

6、作为本发明提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s1中,在智慧场景中,如智慧社区,智慧交通,智慧园区等场景中的智能调控都需要基于各种传感器,如空气质量传感器,车辆速度传感器,行人传感器,温度传感器等,本发明所述的大数据清洗方法即为对于空间中一定范围内(智慧园区内,智慧社区内,智慧交通中一个道路内)的相同传感器的数据清洗。在这些相同的传感器中,数据的采集频率是相同的。

7、对于某一个类型的传感器,获取全部传感器采集的数据,并通过物联网关将数据通过互联网传输至云计算服务器中。本发明所述的数据处理即为在云计算服务器中进行的数据计算操作。

8、在云计算服务器中需要对传感器采集到的数据通过不同的调控模型进行实际智慧场景中不同的调控,在数据分析之前即通过本发明所述的方法进行数据清洗。

9、对于相同传感器采集到的传感器时序数据,以多维张量的形式进行记录,所述的多维张量为多维时序数据,其中第i个传感器的时序数据记录为ti,在数据记录的过程中同样记录传感器之间的位置关系,d(ti,tj)表示第i个传感器与第j个传感器之间的空间距离,在智慧场景中同种传感器中的两个传感器根据传感器之间的距离关系形成不同的相关性,距离近的传感器则在采集的数据中具有相关性,如,温度,空气颗粒物,行人等,至此,通过智慧场景中的相同传感器进行数据采集,形成多维时序数据。

10、作为本发明提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s2中,在获取到智慧场景中的传感器数据之后,需要对采集到的传感器数据中的缺失数据进行填充,并进行数据异常检测,将传感器中的异常数据进行优化,从而完成数据清洗。

11、在智慧场景中传感器的多维时序数据,其中存在着不同的数据缺失情况需要进行不同的插值方式,并在插值之后的数据点异常检测过程中通过数据点的影响程度对离群因子中的平均连接距离进行优化,从而获取到准确地异常检测结果。

12、具体包括如下步骤:

13、s21、通过多维数据空间缺失数据点的分布信息获取缺失数据点的分布随机程度;

14、s22、通过分布随机程度对缺失数据点的插值进行调整,并完成缺失数据插值;

15、s23、通过缺失数据点的影响程度对缺失数据点的cof离群因子计算过程中的连接距离进行优化。

16、作为本发明提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s3中,在获取到智慧场景中每个传感器时序数据点的离群因子之后,设定离群因子阈值β在0.8至1.5之间,将离群因子高于该阈值的数据点视为异常数据点,将这些异常数据点通过k距离邻域中的数值均值作为插值,完成数据清洗过程。

17、作为本发明提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s21中,在获取到单种类传感器数据形成的多维时序数据之后,首先通过缺失值查找确定传感器数据中的全部缺失值。

18、对于传感器时序数据中的缺失值,因为在后续的分析过程中需要通过完整的时序数据进行时序数据趋势变化信息的提取,所以需要通过多维时序数据中确实数值的近邻数据点通过均值插值的方式进行填充,或是通过近邻传感器的传感器时序数据进行综合插值。

19、在上述场景中,对于缺失数据点造成的影响程度,可以通过多维时序数据中缺失数据点形成的分布情况进行判断,当缺失数据点形成有规律的局部缺失,则说明该数据缺失是因为一些区域性的问题所导致的,那么这些规律的缺失数据点就可以更高程度地通过具有相似时序变化地近邻传感器时序数据进行均值插值。而对于缺失数据点无局部缺失的规律时,则可以通过近邻插值的方式进行缺失值填充。在上述的两种缺失值填充过程中,存在着对多维时序数据不同的插值方式。

20、随机缺失数据点随机程度计算范围判断:

21、对于集合数据点数量n(i)≤5的数据集合来说,可以将其认为是随机缺失的数据点集合。对于随机缺失的数据点集合的随机程度判断无法通过连通来确定范围。所以本发明中通过数据点集合的最近邻与反向最近邻来确定缺失数据点集合的随机程度判断范围。对于集合间的距离可以通过两个集合中最近的两个数据点进行距离的判断(本发明中的距离默认为二维数据空间中的欧式距离)。

22、随机缺失数据点的随机程度判断范围isk为集合i的k个最近邻与反向最近邻的交集,第i个缺失数据集合进行随机程度计算的判断范围,在对每一个缺失数据进行随机程度的衡量时,需要将集合数据点数量n(i)>5,与n(i)>5的缺失数据集合进行区分计算,对于n(i)>5的数据集合将其确定为非随机缺失模式,之后通过其随机程度计算方法确定随机程度,从而准确判断该集合的随机程度。

23、对于n(i)≤5的缺失数据集合,在上述过程中获取到了判断其随机程度的范围isk。此时对于缺失数据集合随机程度计算方式则是通过范围内数据集合的分布信息进行判断。

24、n(i)>5缺失数据集合的随机程度:

25、对于每个集合中的数据点数量,将第i个集合中的数据点数量n(i)>5的集合看作是连续缺失,根据集合中同行数据与同列数据的数量占比作为该集合的随机程度;

26、对于n(i)>5的集合i的随机程度计算方式如下所述:

27、

28、n(i):表示第i个缺失数据点集合中的数据点数量;n(i)x,n(i)y:分别表示第i个集合中最高的x轴不同坐标数量与y轴坐标数量,即缺失数据集合的最小外接矩形范围;

29、对于n(i)>5的缺失数据集合,通过最小外接矩形数据点中不在集合i中的数据点数量在最小外接矩形的数据点数量的占比来衡量一个集合的随机程度,通过上述计算方式进行n(i)>5时的随机程度计算;所述的规整缺失数据分布如图1所示。

30、n(i)≤5缺失数据集合的随机程度:

31、对于每个集合中的数据点数量,将第i个集合中的数据点数量n(i)≤5的集合看作是随机缺失,在其对应的isk(i)范围中,缺失数据集合i的随机程度εi的计算方式如下所述:

32、

33、构建公式模型的目的主要是通过判断范围isk(i)内的缺失数据集合数据点数量进行范围内数据点随机程度的衡量;

34、isk(i)表示第i个缺失数据点通过最近邻与反向最近邻确定的衡量其随机程度的缺失数据点范围,数据点的k个最近邻集合与k个反向最近邻集合的交集,此处k给出取值6至20之间。

35、n(isk(i))表示isk(i)范围内的缺失数据点数量;

36、max isk(i)x表示isk(i)范围内缺失数据点的最大横向坐标范围;

37、max isk(i)x表示isk(i)范围内缺失数据点的最大纵向坐标范围;

38、表示isk(i)范围内缺失数据点的平均距离,所有缺失数据点间的距离除以间隔数量,归一化过程则为对于一个数据集中所有的判断范围进行平均距离归一化集合。

39、在衡量缺失数据集合的随机程度过程中,通过缺失数据点的最近邻与反向最近邻的交集范围作为衡量随机程度的范围。在最近邻与反向最近邻的交集中,可以保证这个范围内的数据点可以看作是同一种密度分布类型。也就是说不会出现将高密度与低密度的数据点作为同一邻域范围。这样就可以在范围上的角度确定合适的衡量缺失数据点随机程度的范围。

40、在获取到随机程度的衡量范围之后,则可以通过范围内的数据点中缺失数据点数量的占比作为这个范围内的缺失数据点随机程度在整体形态上的随机程度判断。对于一个判断范围,如果范围的最小外接矩形的面积越大,则说明这个范围内数据点的随机程度可能就会越小,而如果这个范围内的缺失数据点数量越多,则相对来说范围内的缺失数据点随机程度就会较低。这一部分为通过数量衡量随机程度。

41、在范围内缺失数据点的平均距离角度来进行衡量则是通过距离衡量范围内数据点的随机程度。对于一个判断范围,范围内的缺失数据点的平均间隔距离越大,则说明这个范围内的数据点越离散,这样通过两个角度的同时衡量,即可确定第i个数据点在其判断范围内的随机程度。

42、基于上述式(1)至式(2)中对于缺失数据点随机程度的衡量,可以用于衡量后续连通距离的影响程度。从而对受其影响的数据点的连通距离进行校正,从而保证数据清洗过程中的异常数据点判断的准确性;通过多维数据空间缺失数据点的分布信息获取缺失数据点的分布随机程度。

43、作为本发明提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s22中,在获取到缺失数据点的分布随机程度之后,即可通过数据点的分布随机程度来进行缺失数据点的插值计算。对于缺失数据点的分布随机程度,随机程度越高,则需要更小的通过近邻传感器进行数据点的插值,而随机程度越低,则可以通过更高的近邻传感器进行插值,对于第i个传感器的第j个缺失数据点tij,通过其对应的随机程度ξij进行插值计算的衡量:

44、

45、

46、ξij表示第i个传感器中第j个缺失数据点的缺失随机程度;ωij,k表示第i个传感器中第j个缺失数据点的最近的k个数据点的集合;tim表示第i个传感器中的第m个数据点的数据值;ωi,5表示与第i个传感器空间距离最近的5个传感器时序数据集合;tej表示第e个传感器中的第j个数据点的数据值。

47、上式(3)至式(4)中,通过缺失数据点的随机程度对缺失值插值过程中对于近邻数据点的参考进行调整。随机程度越高则更倾向于单传感器中的近邻数据点进行均值计算,而随机程度越低则说明缺失更有规律,所以通过智慧场景中最近的5个传感器对应时序位置的数据点的均值作为参考。

48、通过上述的缺失值插值计算过程完成全部缺失值的插值计算,并将获取到的插值结果记录到缺失值位置,完成数据填充。通过分布随机程度对缺失数据点的插值进行调整,并完成缺失数据插值。

49、作为本发明提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s23中,在完成数据插值之后,即可通过对时序数据中的每个数据点进行cof离群因子的计算。但是因为对于缺失数据的插值是通过单传感器与近邻传感器对应位置的数值进行获取的,因为会与实际数值之间存在偏差,所以这些填充后的数据点在计算离群因子的过程中会将其自身的误差带给k距离邻域中包括该数据点的数据,从而导致离群因子的不准确。

50、所以在计算离群因子的过程中,因为缺失数据点的随机程度越高,则对于该数据点的插值中存在更多的不确定性,所以需要通过缺失数据点的随机程度对该数据点的局部平均连接距离进行优化,从而获取准确地离群因子。

51、综上所述,在连通距离计算的过程中如果计算到补全后的缺失数据点,那么就根据该缺失数据点的随机程度对该缺失数据点的距离根据随机程度进行校正。受到第i个缺失数据点影响的时序数据中的第m个数据点的平均链接距离ac-dist(m)计算方式如下:

52、

53、

54、

55、其中,其中dist(m)表示不含缺失数据点方向的k距离邻域选取获取的局部连接距离,dist′(m)表示通过包含确实数据点区域的k距离邻域选取获取的局部连接距离,本发明中通过两者的平均局部连接距离作为后续cof离群因子计算的局部连接距离,从而通过缺失数据点随机程度的衡量对缺失数据点在局部连接距离中造成的影响进行校正,并参考不包含缺失数据点的k距离邻域获取到的局部连接距离综合获取最终用于计算cof离群因子的局部连接距离。

56、dist(ej)表示对于第m个数据点的k距离邻域数据点的最近路径e中第j步的路径花费。

57、r-1表示e中的最大索引,也就是j的最大值。

58、表示当路径e中的第i个数据点是缺失数据点时,如果该缺失数据点所在集合中的缺失数据点数量大于5,则使用作为其校正因子。

59、εi表示当路径e中的第i个数据点是缺失数据点时,如果该缺失数据点所在集合中的缺失数据点数量小于等于5,则使用εi作为其校正因子。

60、上式(5)至式(6)中,对于受到第i个缺失数据点影响的时序数据中的第m个数据点的局部连接距离的计算过程中,通过缺失数据点数量的判断来选择不同的校正因子,根据缺失数据点的随机程度对受影响的第m个数据点的局部连接距离进行优化,从而消除缺失数据点导致的离群因子增大的情况。通过缺失数据点的影响程度对受影响数据点的cof离群因子计算过程中的连接距离进行优化。通过缺失数据点的分布信息对时序数据中受影响数据点的平均连接距离进行优化。

61、与现有技术相比,本发明的有益效果为:

62、1、本发明的通过对缺失数据的缺失模型进行分析,获取缺失数据的随机程度来对数据点的离群因子中连通距离的计算进行校正,可以通过缺失数据的随机程度所表述出的缺失数据对于数据点连通距离计算的影响程度来对受影响的数据点进行连通距离的校正,从而保证在数据清洗过程中可以正确的将异常数据进行识别。

63、2、本发明通过多维数据空间缺失数据点的分布信息获取缺失数据点的分布随机程度,分布随机程度对缺失数据点的插值进行调整,并完成缺失数据插值,通过缺失数据点的随机程度对缺失数据点的cof离群因子计算过程中的连接距离进行优化。

64、3、本发明在智慧场景中,需要对海量传感器数据进行处理,在这些传感器数据中首先需要将其中的异常数值进行清洗,从而保证后续数据分析的准确性,本发明所针对的场景就是在智慧场景中传感器采集到的数据中进行数据清洗。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1