1.基于密度峰值聚类的交通流量序列划分方法,其特征在于该方法包括以下步骤:
c1、计算每条交通流量子序列的局部密度;
c2、按照局部密度对子序列进行排序,计算每条交通流量子序列距离一个较高密度的交通流量子序列的长度;
c3、定义一个综合考虑密度值和距离值的指标,并计算每一个流量子序列下该指标的取值,根据综合指标变化率趋势图得到最佳聚类数和聚类中心;
c4、利用密度值将非聚类中心序列进行分类,再通过界定类域边缘中的最高密度序列来定义类域的边界序列,确定划分结果。
2.根据权利要求1所述的基于密度峰值聚类的时间序列聚类方法,其特征在于:步骤c1中,计算序列的局部密度之前,利用每条序列对应时间的距离总体的方差体现序列的相似度:
c11、以相等长度为时间间隔,将交通流量序列划分为n个子序列,子序列记为X=x1,x2,…,xn;
c12、针对任意一个子序列i,以固定时段为时间间隔将子序列划分成若干区段,该固定时段取为5分钟、10分钟或者15分钟;区段序列为xi=xi(1),xi(2),…,xi(N).
c13、计算每条子序列的局部密度ρi;
①假设i,j表示任意两条子序列,则子序列i和j之间的欧氏距离dij:
式中:dij为第i、j序列之间对应时间的欧氏距离;r为时段序号;xi(k)为第i个子序列中第r个区段的流量值,N为每个子序列所包含的区段数;
②计算不同子序列之间的距离方差:
式中:Si为i子序列与其它子序列之间所对应距离的方差;m为距离数,其值为n*(n-1)/2;为所有子序列距离的平均值,表达式为:
③计算每条子序列的局部密度:
式中:ρi为第i个子序列的局部密度;dc为截断距离参数,其取值应使得序列的平均邻居数是数据集中序列总数的1-2%;将计算得到m个距离数据dij,按大小进行排序;假设得到db1≤db2≤…≤dbm,取dc=df(mt),其中f(mt)表示对mt四舍五入得到的整数,t是数据集中序列总数的百分比;距离dij小于截断距离dc的数值越多,密度值ρi越大,则子序列i周围所聚集的子序列越多,以此衡量序列间相互聚集程度。
3.根据权利要求2所述的基于密度峰值聚类的时间序列聚类方法,其特征在于:步骤c2具体是:
将子序列的局部密度ρi按照大小进行排序ρq1≥ρq2≥,…,≥ρqi≥ρq(i+1)≥,…,≥ρqn,计算每条子序列距离一个较高密度子序列的长度:
式中:δqi为ρi按大小排序后,第qi个区段流量距离一个较高密度子序列的长度;dqiqj为ρi按大小排序后,第qi与qj个子序列之间的距离;当子序列xqi具有最大密度时,δqi表示所有子序列中与xqi的最大距离值;当子序列xqi的最大密度值小于最大密度时,δqi表示在所有局部密度大于xqi的子序列中,所有子序列与xqi之间的最小距离。
4.根据权利要求3所述的基于密度峰值聚类的时间序列聚类方法,其特征在于:步骤c3具体是:
c31、将变量ρqi和δqi标准化:
式中:和分别表示变量ρqi和δqi标准化后结果;分别表示变量ρqi和δqi的平均值;σρ和σδ分别表示变量ρqi和δqi的标准差;
c32、引入一个将密度值和距离值综合考虑的指标:
式中:γqi为综合考虑ρqi和δqi值的指标;
c33、将γqi按升序排序,令其排序为γp1≤γp2≤,…,≤γpi≤γp(i+1)≤,…,≤γpn,计算随着数据不断增大时数值任意相邻γpi的差值:
△γpi,p(i+1)=γp(i+1)-γpi (1-i)
式中,△γpi,p(i+1)为升序排序后第pi和p(i+1)个子序列的综合指标差值;γp(i+1)和γpi分别表示升序排序后第p(i+1)和pi个子序列的综合指标值;
c34、针对第pi个升序排序的综合指标,用pi与p(i-1)和p(i+1)之间
的变化率比值作为衡量γpi稳定性的指标,即:
式中,ηpi为按照综合指标升序排序后,第pi个子序列的稳定性系数;
c35、用ηpi衡量综合指标的稳定性,并取稳定性系数最大值所对应的pi作为最佳聚类数kop;
c36、选取前kop个综合指标最大的子序列作为聚类中心。
5.根据权利要求4所述的基于密度峰值聚类的时间序列聚类方法,其特征在于:步骤c4具体是:
c41、利用密度值将非聚类中心序列进行分类:将每个非聚类中心子序列的密度值ρqi按照从大到小的顺序进行排序,每个子序列被分到一个具有较高密度值的最近相邻子序列所在的类当中;
c42、通过界定类域边缘中的最高密度子序列来定义类域的边界子序列:分配到该类中但与其他类中序列的距离小于dc的序列计算两者的密度平均值,取平均值中最高密度定义为ρz,类中密度高于ρz的序列作为类的核心部分,其余作为类边缘部分,也称作噪声。