一种针对车辆监控数据的时间线聚类方法及装置与流程

文档序号:33053843发布日期:2023-01-24 23:48阅读:33来源:国知局
一种针对车辆监控数据的时间线聚类方法及装置与流程

1.本技术涉及汽车技术领域,具体涉及一种针对车辆监控数据的时间线聚类方法及装置。


背景技术:

2.现阶段,车辆在行驶过程中需要对车辆的状况进行实时监测,监测数据会进行收集,后期维护时基于收集的监测数据对车辆进行分析,以便适时进行维护。
3.因此,在数据分析之间,对监测数据进行聚类工作较为重要,其能够将关联性较强的数据进行集中,以便集中进行分析。但是,传统的数据聚类工作多基于人为制定的规则,主观性较强,无法客观的基于数据间的关联性进行聚类,甚至会影响后续的数据分析工作。
4.因此,现提供一种新的数据聚类技术,以满足当前使用需求。


技术实现要素:

5.本技术提供一种针对车辆监控数据的时间线聚类方法及装置,基于时间顺序进行数据收集,根据各数据信息的数据情况计算各数据之间的关联程度,并基于关联程度进行数据聚类,为后期分析工作提供便利。
6.为实现上述目的,本技术提供以下方案。
7.第一方面,本技术提供了一种针对车辆监控数据的时间线聚类方法,所述方法包括以下步骤:
8.按照预设排列间隔,在按照时间顺序收集的车辆监控信息中选定多个作为质心信息,剩余所述车辆监控信息作为非质心信息;
9.计算非质心信息与前后最接近的两个所述质心信息的数据距离以及数据引力;
10.基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类。
11.本技术实施例中,基于时间顺序进行数据收集,根据各数据信息的数据情况计算各数据之间的关联程度,并基于关联程度进行数据聚类,为后期分析工作提供便利。
12.需要说明的是,本技术实施例的设计用途是识别车辆运行时不同时间的稳态工况场景,但也可以扩展到其他用途;
13.车辆监控数据一般由多字段组成,按照采集时间从先到后按时间线顺序排列;
14.每一个稳态工况表征为“一段”连续的数据段,通过本技术的技术方案可以使得每一段是由算法自动汇聚而成,而不是按某种人为规则或者人为阈值来生成,从而排除主观性;
15.这种聚类不同于传统的kmeans,dbscan等算法,需要在严格排列的时间线上执行。
16.进一步的,所述方法还包括以下步骤:
17.若所述质心信息未进行聚类,则其与自身前后最接近的两个所述质心信息中数据引力较大的所述质心信息进行聚类。
18.具体的,所述基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类中,所述方法包括以下步骤:
19.基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定所述数据距离以及所述数据引力均较大的所述质心信息作为对应的目标质心信息;
20.将所述非质心信息与对应的所述目标质心信息进行聚类。
21.具体的,所述基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类中,所述方法包括以下步骤:
22.识别所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力的优先级;
23.若所述数据距离的优先级较高,则选定所述数据距离较大的所述质心信息作为对应的目标质心信息进行聚类;
24.若所述数据引力的优先级较高,则选定所述数据引力较大的所述质心信息作为对应的目标质心信息进行聚类。
25.具体的,所述预设排列间隔的数值为预设的固定数值或在预设排列间隔范围内的随机数值。
26.需要说明的是,基于本技术的技术方案,给出一个完整的实施流程,具体如下:
27.第一步,定义质心,即聚类的中心点。
28.第二步,定义质心质量,指质心所从属的聚类的数据条目数,可以对其中每条数据乘以权重,目前先验地取每条数据的权重都是1.0。
29.第三步,进行质心初始撒布:
30.按固定间隔或者按某种概率分布(一般是均匀分布)随机地撒布在整个数据区间,采用均匀分布,质心之间的距离是随机的、但彼此近似。
31.其中,本技术的质心不同于一般聚类算法的常规操作,会随着聚类增大,变换为聚类中所有元素的平均值;
32.本技术中的质心保持不变,一来极大减少计算量,不必每次计算所有元素的平均值,二来保持质心为某一真实存在的数据行,而不是数据行的平均值不断变化的。
33.第四步,进行初始聚类:
34.每个质心都是一个初始聚类,该聚类优于只包含一个元素,也就是质心,因此质量为1。
35.第五步,计算两条数据的距离:
36.使用多种距离函数,采用最常见的mse均方差来定义距离,具体如下:
37.v1=(a1,b1,c1)
38.v2=(a2,b2,c2)
39.dis(v1,v2)={(a1-a2)^2+(b1-b2)^2+(c1-c2)^2}/len(v1)。
40.第六步,计算聚类c对本聚类之外的某一行数据x的“引力”值,具体如下:
41.c2x force=(c包含的数据行数*dis(c的质心,x)/(c的质心与x间隔的行数)^order,
42.其中order次方一般取2,也可以取更高次方。
43.需要说明的是,聚类的优先主旨是:每行数据优先加入距离自己更近且更大的聚类。
44.第七步,不属于聚类的数据行加入:
45.每个聚类初始只有一个数据行,就是质心。对每个聚类的两端,即本身最靠前元素的更前一个,本身最靠后元素的更后一个;
46.这些元素、称为已知聚类的边界外紧邻元素,假设两端都存在,其数量是所有聚类的数量n的两倍,简称边界外紧邻元素;
47.对所有边界外紧邻元素x,分别计算其两侧的聚类对它的引力值,将x加入其两侧对它引力更大的那一个聚类。
48.反复第七步,直到所有数据行都加入到某一聚类为止。
49.第二方面,本技术提供了一种针对车辆监控数据的时间线聚类装置,所述装置包括:
50.质心选取模块,其用于按照预设排列间隔,在按照时间顺序收集的车辆监控信息中选定多个作为质心信息,剩余所述车辆监控信息作为非质心信息;
51.关系计算模块,其用于计算非质心信息与前后最接近的两个所述质心信息的数据距离以及数据引力;
52.聚类执行模块,其用于基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类。
53.进一步的,所述聚类执行模块还用于若所述质心信息未进行聚类,则其与自身前后最接近的两个所述质心信息中数据引力较大的所述质心信息进行聚类。
54.进一步的,所述聚类执行模块还用于基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定所述数据距离以及所述数据引力均较大的所述质心信息作为对应的目标质心信息;
55.所述聚类执行模块还用于将所述非质心信息与对应的所述目标质心信息进行聚类。
56.进一步的,所述聚类执行模块还用于识别所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力的优先级;
57.所述聚类执行模块还用于若所述数据距离的优先级较高,则选定所述数据距离较大的所述质心信息作为对应的目标质心信息进行聚类;
58.所述聚类执行模块还用于若所述数据引力的优先级较高,则选定所述数据引力较大的所述质心信息作为对应的目标质心信息进行聚类。
59.具体的,所述预设排列间隔的数值为预设的固定数值或在预设排列间隔范围内的随机数值。
60.本技术提供的技术方案带来的有益效果包括:
61.本技术基于时间顺序进行数据收集,根据各数据信息的数据情况计算各数据之间的关联程度,并基于关联程度进行数据聚类,为后期分析工作提供便利。
附图说明
62.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
63.图1为本技术实施例中提供的针对车辆监控数据的时间线聚类方法的步骤流程图;
64.图2为本技术实施例中提供的针对车辆监控数据的时间线聚类方法中的数据分布示意图;
65.图3为本技术实施例中提供的针对车辆监控数据的时间线聚类方法中的质心分布示意图;
66.图4为本技术实施例中提供的针对车辆监控数据的时间线聚类装置的结构框图。
具体实施方式
67.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
68.以下结合附图对本技术的实施例作进一步详细说明。
69.本技术实施例提供一种针对车辆监控数据的时间线聚类方法及装置,基于时间顺序进行数据收集,根据各数据信息的数据情况计算各数据之间的关联程度,并基于关联程度进行数据聚类,为后期分析工作提供便利。
70.为达到上述技术效果,本技术的总体思路如下:
71.一种针对车辆监控数据的时间线聚类方法,该方法包括以下步骤:
72.s1、按照预设排列间隔,在按照时间顺序收集的车辆监控信息中选定多个作为质心信息,剩余车辆监控信息作为非质心信息;
73.s2、计算非质心信息与前后最接近的两个质心信息的数据距离以及数据引力;
74.s3、基于非质心信息与自身前后最接近的两个质心信息的数据距离以及数据引力,选定对应的质心进行聚类。
75.以下结合附图对本技术的实施例作进一步详细说明。
76.本技术实施例提供一种针对车辆监控数据的时间线聚类方法,该方法包括以下步骤:
77.s1、按照预设排列间隔,在按照时间顺序收集的车辆监控信息中选定多个作为质心信息,剩余车辆监控信息作为非质心信息;
78.s2、计算非质心信息与前后最接近的两个质心信息的数据距离以及数据引力;
79.s3、基于非质心信息与自身前后最接近的两个质心信息的数据距离以及数据引力,选定对应的质心进行聚类。
80.本技术实施例中,基于时间顺序进行数据收集,根据各数据信息的数据情况计算各数据之间的关联程度,并基于关联程度进行数据聚类,为后期分析工作提供便利。
81.需要说明的是,本技术实施例的设计用途是识别车辆运行时不同时间的稳态工况场景,但也可以扩展到其他用途;
82.车辆监控数据一般由多字段组成,按照采集时间从先到后按时间线顺序排列,比如说明书附图的图2所示:
83.每一个稳态工况表征为“一段”连续的数据段,通过本技术的技术方案可以使得每一段是由算法自动汇聚而成,而不是按某种人为规则或者人为阈值来生成,从而排除主观性;
84.这种聚类不同于传统的kmeans,dbscan等算法,需要在严格排列的时间线上执行。
85.进一步的,所述方法还包括以下步骤:
86.若所述质心信息未进行聚类,则其与自身前后最接近的两个所述质心信息中数据引力较大的所述质心信息进行聚类。
87.具体的,所述基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类中,所述方法包括以下步骤:
88.基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定所述数据距离以及所述数据引力均较大的所述质心信息作为对应的目标质心信息;
89.将所述非质心信息与对应的所述目标质心信息进行聚类。
90.具体的,所述基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类中,所述方法包括以下步骤:
91.识别所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力的优先级;
92.若所述数据距离的优先级较高,则选定所述数据距离较大的所述质心信息作为对应的目标质心信息进行聚类;
93.若所述数据引力的优先级较高,则选定所述数据引力较大的所述质心信息作为对应的目标质心信息进行聚类。
94.具体的,所述预设排列间隔的数值为预设的固定数值或在预设排列间隔范围内的随机数值。
95.第二方面,本技术提供了一种针对车辆监控数据的时间线聚类装置,所述装置包括:
96.质心选取模块,其用于按照预设排列间隔,在按照时间顺序收集的车辆监控信息中选定多个作为质心信息,剩余所述车辆监控信息作为非质心信息;
97.关系计算模块,其用于计算非质心信息与前后最接近的两个所述质心信息的数据距离以及数据引力;
98.聚类执行模块,其用于基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类。
99.本技术实施例中,基于时间顺序进行数据收集,根据各数据信息的数据情况计算各数据之间的关联程度,并基于关联程度进行数据聚类,为后期分析工作提供便利。
100.需要说明的是,本技术实施例的设计用途是识别车辆运行时不同时间的稳态工况场景,但也可以扩展到其他用途;
101.车辆监控数据一般由多字段组成,按照采集时间从先到后按时间线顺序排列,比如说明书附图的图2所示:
102.每一个稳态工况表征为“一段”连续的数据段,通过本技术的技术方案可以使得每一段是由算法自动汇聚而成,而不是按某种人为规则或者人为阈值来生成,从而排除主观性;
103.这种聚类不同于传统的kmeans,dbscan等算法,需要在严格排列的时间线上执行。
104.进一步的,所述聚类执行模块还用于若所述质心信息未进行聚类,则其与自身前后最接近的两个所述质心信息中数据引力较大的所述质心信息进行聚类。
105.进一步的,所述聚类执行模块还用于基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定所述数据距离以及所述数据引力均较大的所述质心信息作为对应的目标质心信息;
106.所述聚类执行模块还用于将所述非质心信息与对应的所述目标质心信息进行聚类。
107.进一步的,所述聚类执行模块还用于识别所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力的优先级;
108.所述聚类执行模块还用于若所述数据距离的优先级较高,则选定所述数据距离较大的所述质心信息作为对应的目标质心信息进行聚类;
109.所述聚类执行模块还用于若所述数据引力的优先级较高,则选定所述数据引力较大的所述质心信息作为对应的目标质心信息进行聚类。
110.具体的,所述预设排列间隔的数值为预设的固定数值或在预设排列间隔范围内的随机数值。
111.需要说明的是,基于本技术实施例的技术方案,给出一个完整的实施流程,具体如下:
112.第一步,定义质心,即聚类的中心点。
113.第二步,定义质心质量,指质心所从属的聚类的数据条目数,可以对其中每条数据乘以权重,目前先验地取每条数据的权重都是1.0。
114.第三步,进行质心初始撒布:
115.按固定间隔或者按某种概率分布(一般是均匀分布)随机地撒布在整个数据区间,比如说明书附图的图3所示,阴影行是均匀撒布的初始质心,采用均匀分布,质心之间的距离是随机的、但彼此近似。
116.其中,本技术实施例的质心不同于一般聚类算法的常规操作,会随着聚类增大,变换为聚类中所有元素的平均值;
117.申请实施例中的质心保持不变,一来极大减少计算量,不必每次计算所有元素的平均值,二来保持质心为某一真实存在的数据行,而不是数据行的平均值不断变化的。
118.第四步,进行初始聚类:
119.每个质心都是一个初始聚类,该聚类优于只包含一个元素,也就是质心,因此质量为1。
120.第五步,计算两条数据的距离:
121.使用多种距离函数,采用最常见的mse均方差来定义距离,具体如下:
122.v1=(a1,b1,c1)
123.v2=(a2,b2,c2)
124.dis(v1,v2)={(a1-a2)^2+(b1-b2)^2+(c1-c2)^2}/len(v1)。
125.第六步,计算聚类c对本聚类之外的某一行数据x的“引力”值,具体如下:
126.c2x force=(c包含的数据行数*dis(c的质心,x)/(c的质心与x间隔的行数)^order,
127.其中order次方一般取2,也可以取更高次方。
128.需要说明的是,聚类的优先主旨是:每行数据优先加入距离自己更近且更大的聚类。
129.第七步,不属于聚类的数据行加入:
130.每个聚类初始只有一个数据行,就是质心。对每个聚类的两端,即本身最靠前元素的更前一个,本身最靠后元素的更后一个;
131.这些元素、称为已知聚类的边界外紧邻元素,假设两端都存在,其数量是所有聚类的数量n的两倍,简称边界外紧邻元素;
132.对所有边界外紧邻元素x,分别计算其两侧的聚类对它的引力值,将x加入其两侧对它引力更大的那一个聚类。
133.反复第七步,直到所有数据行都加入到某一聚类为止。
134.具体实施时,本技术实施例可以使用并行或串行方式执行:
135.每两个相邻的聚类中间都“夹”有一段“空白区“,也就是还未加入任何聚类的数据行,且这些数据行只会加入两边的聚类中的某一个。
136.因此,可以依次串行处理每一个空白段,也可以并行,同时处理每一个空白段,适合于大数据量下的并行加速。
137.需要说明的是,本技术实施例中的各步骤的步骤标号,其并不限制本技术技术方案中各操作的前后顺序。
138.基于与方法实施例相同的发明构思,本技术实施例提供一种针对车辆监控数据的时间线聚类装置,该装置包括:
139.质心选取模块,其用于按照预设排列间隔,在按照时间顺序收集的车辆监控信息中选定多个作为质心信息,剩余所述车辆监控信息作为非质心信息;
140.关系计算模块,其用于计算非质心信息与前后最接近的两个所述质心信息的数据距离以及数据引力;
141.聚类执行模块,其用于基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定对应的所述质心进行聚类。
142.本技术实施例中,基于时间顺序进行数据收集,根据各数据信息的数据情况计算各数据之间的关联程度,并基于关联程度进行数据聚类,为后期分析工作提供便利。
143.需要说明的是,本技术实施例的设计用途是识别车辆运行时不同时间的稳态工况场景,但也可以扩展到其他用途;
144.车辆监控数据一般由多字段组成,按照采集时间从先到后按时间线顺序排列,比如说明书附图的图2所示:
145.每一个稳态工况表征为“一段”连续的数据段,通过本技术的技术方案可以使得每一段是由算法自动汇聚而成,而不是按某种人为规则或者人为阈值来生成,从而排除主观性;
146.这种聚类不同于传统的kmeans,dbscan等算法,需要在严格排列的时间线上执行。
147.进一步的,所述聚类执行模块还用于若所述质心信息未进行聚类,则其与自身前后最接近的两个所述质心信息中数据引力较大的所述质心信息进行聚类。
148.进一步的,所述聚类执行模块还用于基于所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力,选定所述数据距离以及所述数据引力均较大的所述质心信息作为对应的目标质心信息;
149.所述聚类执行模块还用于将所述非质心信息与对应的所述目标质心信息进行聚类。
150.进一步的,所述聚类执行模块还用于识别所述非质心信息与自身前后最接近的两个所述质心信息的数据距离以及数据引力的优先级;
151.所述聚类执行模块还用于若所述数据距离的优先级较高,则选定所述数据距离较大的所述质心信息作为对应的目标质心信息进行聚类;
152.所述聚类执行模块还用于若所述数据引力的优先级较高,则选定所述数据引力较大的所述质心信息作为对应的目标质心信息进行聚类。
153.具体的,所述预设排列间隔的数值为预设的固定数值或在预设排列间隔范围内的随机数值。
154.需要说明的是,基于本技术实施例的技术方案,给出一个完整的实施流程,具体如下:
155.第一步,定义质心,即聚类的中心点。
156.第二步,定义质心质量,指质心所从属的聚类的数据条目数,可以对其中每条数据乘以权重,目前先验地取每条数据的权重都是1.0。
157.第三步,进行质心初始撒布:
158.按固定间隔或者按某种概率分布(一般是均匀分布)随机地撒布在整个数据区间,比如说明书附图的图3所示,阴影行是均匀撒布的初始质心,采用均匀分布,质心之间的距离是随机的、但彼此近似。
159.其中,本技术实施例的质心不同于一般聚类算法的常规操作,会随着聚类增大,变换为聚类中所有元素的平均值;
160.申请实施例中的质心保持不变,一来极大减少计算量,不必每次计算所有元素的平均值,二来保持质心为某一真实存在的数据行,而不是数据行的平均值不断变化的。
161.第四步,进行初始聚类:
162.每个质心都是一个初始聚类,该聚类优于只包含一个元素,也就是质心,因此质量为1。
163.第五步,计算两条数据的距离:
164.使用多种距离函数,采用最常见的mse均方差来定义距离,具体如下:
165.v1=(a1,b1,c1)
166.v2=(a2,b2,c2)
167.dis(v1,v2)={(a1-a2)^2+(b1-b2)^2+(c1-c2)^2}/len(v1)。
168.第六步,计算聚类c对本聚类之外的某一行数据x的“引力”值,具体如下:
169.c2x force=(c包含的数据行数*dis(c的质心,x)/(c的质心与x间隔的行数)^
order,
170.其中order次方一般取2,也可以取更高次方。
171.需要说明的是,聚类的优先主旨是:每行数据优先加入距离自己更近且更大的聚类。
172.第七步,不属于聚类的数据行加入:
173.每个聚类初始只有一个数据行,就是质心。对每个聚类的两端,即本身最靠前元素的更前一个,本身最靠后元素的更后一个;
174.这些元素、称为已知聚类的边界外紧邻元素,假设两端都存在,其数量是所有聚类的数量n的两倍,简称边界外紧邻元素;
175.对所有边界外紧邻元素x,分别计算其两侧的聚类对它的引力值,将x加入其两侧对它引力更大的那一个聚类。
176.反复第七步,直到所有数据行都加入到某一聚类为止。
177.具体实施时,本技术实施例可以使用并行或串行方式执行:
178.每两个相邻的聚类中间都“夹”有一段“空白区“,也就是还未加入任何聚类的数据行,且这些数据行只会加入两边的聚类中的某一个。
179.因此,可以依次串行处理每一个空白段,也可以并行,同时处理每一个空白段,适合于大数据量下的并行加速。
180.需要说明的是,本技术实施例中的各步骤的步骤标号,其并不限制本技术技术方案中各操作的前后顺序。
181.需要说明的是,本技术实施例提供的针对车辆监控数据的时间线聚类装置,其对应的技术问题、技术手段以及技术效果,从原理层面与针对车辆监控数据的时间线聚类方法的原理类似。
182.需要说明的是,在本技术中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
183.以上仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1