基于密度峰值聚类的交通流量序列划分方法与流程

文档序号：11135669阅读：来源：国知局

技术特征：

1.基于密度峰值聚类的交通流量序列划分方法，其特征在于该方法包括以下步骤：

c1、计算每条交通流量子序列的局部密度；

c2、按照局部密度对子序列进行排序，计算每条交通流量子序列距离一个较高密度的交通流量子序列的长度；

c3、定义一个综合考虑密度值和距离值的指标，并计算每一个流量子序列下该指标的取值，根据综合指标变化率趋势图得到最佳聚类数和聚类中心；

c4、利用密度值将非聚类中心序列进行分类，再通过界定类域边缘中的最高密度序列来定义类域的边界序列，确定划分结果。

2.根据权利要求1所述的基于密度峰值聚类的时间序列聚类方法，其特征在于：步骤c1中，计算序列的局部密度之前，利用每条序列对应时间的距离总体的方差体现序列的相似度：

c11、以相等长度为时间间隔，将交通流量序列划分为n个子序列，子序列记为X＝x₁,x₂,…,x_n；

c12、针对任意一个子序列i，以固定时段为时间间隔将子序列划分成若干区段，该固定时段取为5分钟、10分钟或者15分钟；区段序列为x_i＝x_i(1),x_i(2),…,x_i(N).

c13、计算每条子序列的局部密度ρ_i；

①假设i,j表示任意两条子序列，则子序列i和j之间的欧氏距离d_ij：

$<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>r</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>r</mi> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>$

式中：d_ij为第i、j序列之间对应时间的欧氏距离；r为时段序号；x_i(k)为第i个子序列中第r个区段的流量值，N为每个子序列所包含的区段数；

②计算不同子序列之间的距离方差：

$<mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munder> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <msup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mover> <mi>d</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow>$

式中：S_i为i子序列与其它子序列之间所对应距离的方差；m为距离数，其值为n*(n-1)/2；为所有子序列距离的平均值，表达式为：

$<mrow> <mover> <mi>d</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munder> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow>$

③计算每条子序列的局部密度：

$<mrow> <msub> <mi>ρ</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>d</mi> <mi>c</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow>$

式中：ρ_i为第i个子序列的局部密度；d_c为截断距离参数，其取值应使得序列的平均邻居数是数据集中序列总数的1-2％；将计算得到m个距离数据d_ij，按大小进行排序；假设得到d_b1≤d_b2≤…≤d_bm，取d_c＝d_f(mt)，其中f(mt)表示对mt四舍五入得到的整数，t是数据集中序列总数的百分比；距离d_ij小于截断距离d_c的数值越多，密度值ρ_i越大，则子序列i周围所聚集的子序列越多，以此衡量序列间相互聚集程度。

3.根据权利要求2所述的基于密度峰值聚类的时间序列聚类方法，其特征在于：步骤c2具体是：

将子序列的局部密度ρ_i按照大小进行排序ρ_q1≥ρ_q2≥,…,≥ρ_qi≥ρ_q(i+1)≥,…,≥ρ_qn，计算每条子序列距离一个较高密度子序列的长度：

$<mrow> <msub> <mi>δ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>j</mi> <mo><</mo> <mi>i</mi> </mrow> </munder> <mo>{</mo> <msub> <mi>d</mi> <mrow> <mi>q</mi> <mi>i</mi> <mi>q</mi> <mi>j</mi> </mrow> </msub> <mo>}</mo> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>&GreaterEqual;</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mi>max</mi> <mrow> <mi>j</mi> <mo>&GreaterEqual;</mo> <mn>2</mn> </mrow> </munder> <mo>{</mo> <msub> <mi>δ</mi> <mrow> <mi>q</mi> <mi>j</mi> </mrow> </msub> <mo>}</mo> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>e</mi> <mo>)</mo> </mrow> </mrow>$

式中：δ_qi为ρ_i按大小排序后，第qi个区段流量距离一个较高密度子序列的长度；d_qiqj为ρ_i按大小排序后，第qi与qj个子序列之间的距离；当子序列x_qi具有最大密度时，δ_qi表示所有子序列中与x_qi的最大距离值；当子序列x_qi的最大密度值小于最大密度时，δ_qi表示在所有局部密度大于x_qi的子序列中，所有子序列与x_qi之间的最小距离。

4.根据权利要求3所述的基于密度峰值聚类的时间序列聚类方法，其特征在于：步骤c3具体是：

c31、将变量ρ_qi和δ_qi标准化：

$<mrow> <msub> <mi>S</mi> <msub> <mi>ρ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>ρ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mover> <mi>ρ</mi> <mo>&OverBar;</mo> </mover> </mrow> <msub> <mi>σ</mi> <mi>ρ</mi> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>f</mi> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>S</mi> <msub> <mi>δ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>δ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mover> <mi>δ</mi> <mo>&OverBar;</mo> </mover> </mrow> <msub> <mi>σ</mi> <mi>δ</mi> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>g</mi> <mo>)</mo> </mrow> </mrow>$

式中：和分别表示变量ρ_qi和δ_qi标准化后结果；分别表示变量ρ_qi和δ_qi的平均值；σ_ρ和σ_δ分别表示变量ρ_qi和δ_qi的标准差；

c32、引入一个将密度值和距离值综合考虑的指标：

$<mrow> <msub> <mi>γ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>S</mi> <msub> <mi>ρ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> </msub> <mo>·</mo> <msub> <mi>S</mi> <msub> <mi>δ</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>h</mi> <mo>)</mo> </mrow> </mrow>$

式中：γ_qi为综合考虑ρ_qi和δ_qi值的指标；

c33、将γ_qi按升序排序，令其排序为γ_p1≤γ_p2≤,…,≤γ_pi≤γ_p(i+1)≤,…,≤γ_pn，计算随着数据不断增大时数值任意相邻γ_pi的差值：

△γ_pi,p(i+1)＝γ_p(i+1)-γ_pi (1-i)

式中，△γ_pi,p(i+1)为升序排序后第pi和p(i+1)个子序列的综合指标差值；γ_p(i+1)和γ_pi分别表示升序排序后第p(i+1)和pi个子序列的综合指标值；

c34、针对第pi个升序排序的综合指标，用pi与p(i-1)和p(i+1)之间

的变化率比值作为衡量γ_pi稳定性的指标，即：

$<mrow> <msub> <mi>η</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <msub> <mi>Δγ</mi> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>,</mo> <mi>p</mi> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>Δγ</mi> <mrow> <mi>p</mi> <mi>i</mi> <mo>,</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msub> <mi>γ</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>γ</mi> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msub> </mrow> <mrow> <msub> <mi>γ</mi> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msub> <mo>-</mo> <msub> <mi>γ</mi> <mrow> <mi>p</mi> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>&GreaterEqual;</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow>$

式中，η_pi为按照综合指标升序排序后，第pi个子序列的稳定性系数；

c35、用η_pi衡量综合指标的稳定性，并取稳定性系数最大值所对应的pi作为最佳聚类数k_op；

c36、选取前k_op个综合指标最大的子序列作为聚类中心。

5.根据权利要求4所述的基于密度峰值聚类的时间序列聚类方法，其特征在于：步骤c4具体是：

c41、利用密度值将非聚类中心序列进行分类：将每个非聚类中心子序列的密度值ρ_qi按照从大到小的顺序进行排序，每个子序列被分到一个具有较高密度值的最近相邻子序列所在的类当中；

c42、通过界定类域边缘中的最高密度子序列来定义类域的边界子序列：分配到该类中但与其他类中序列的距离小于d_c的序列计算两者的密度平均值，取平均值中最高密度定义为ρ_z，类中密度高于ρ_z的序列作为类的核心部分，其余作为类边缘部分，也称作噪声。

完整全部详细技术资料下载

当前第2页1 2 3