一种基于时空特征的船舶轨迹密度聚类方法及装置与流程

文档序号:21985996发布日期:2020-08-25 19:23阅读:280来源:国知局
一种基于时空特征的船舶轨迹密度聚类方法及装置与流程

本发明涉及一种基于时空特征的船舶轨迹密度聚类方法及装置,属于海上交通领域。



背景技术:

随着我国对外贸易的日益扩大,海上交通量的迅猛增长,海上交通环境越来越复杂,船舶在生产活动中产生的时空轨迹越来越多,海上巨大的交通压力对交通控制和管理提出了更高的要求,及时发现并有效地监测和管理船舶的异常轨迹是智能海上交通的重要组成部分,而发现船舶的异常轨迹的前提是需要得到典型的船舶运动轨迹。其中,通过收集船舶播发的海量的ais(automaticidentificationsystem)数据,利用其中蕴藏的海上交通特征信息,对船舶轨迹数据进行挖掘可发现船舶群体运动规律,分析其形成原因并预测未来发展,为海上通道安全保障、海洋空间规划优化,乃至维护海洋生态的多样性等奠定基础。

目前,针对船舶轨迹聚类方法主要是利用ais数据中船舶运动信息进行聚类分析。如申请公布号为cn109447135a,名称为“一种基于ais数据提取船舶轨迹的聚类方法”的一篇中国专利申请文件,其公开的是将每条船舶轨迹的起始点的经纬度和终点的经纬度作为船舶轨迹的特征值;利用k-means空间聚类法对船舶轨迹进行聚类。但是该方法使用的k-means算法存在对初始值不敏感等问题,使其在船舶轨迹聚类中存在聚类效率和稳定性不高的问题。

此外,如申请公布号为cn104680187a,名称为“基于缓冲区相似性度量的舰船轨迹层次聚类分析方法”的中国专利申请文件,其公开了利用缓冲区分析对航道轨迹线聚类的相似性度量,通过层次聚类方法,设置簇间的相似性阈值;将相似性度量最大的两根船舶轨迹线聚为一类,并将该聚类内的轨迹线缓冲区的并集作为新的缓冲区参与到下一次相似性度量计算和聚类中去,直到两聚类的船舶轨迹线簇之间的相似性最大值小于簇间相似性阈值时完成聚类。但是该方法依然依赖于人工设置的缓冲区半径和簇间的相似性阈值,若设置不当,会导致局部船舶群体运动规律特征的丧失或对轨迹的过度分类。同时,其仅考虑了空间运动规律的相似性,忽略了发生在同一位置不同时间的轨迹的关联性,这样就导致聚类不准确,无法真实地衡量出轨迹线聚类。

而基于密度的轨迹聚类方法(dbscan算法),该方法能够有效地进行移动目标的轨迹研究,如一篇为“基于密度的轨迹时空聚类分析(吴笛等著,《地球信息科学》,2015年10月第17卷第10期)”的文献公开的基于密度的轨迹时空聚类方法,在对移动的物体的聚类过程中同时考虑轨迹的空间距离信息和时间距离信息,并且,对于时间距离的度量,其考虑了时间差和时间跨度,其并未考虑移动物体的速度信息,仅仅是将不同子轨迹段的速度信息看作相同,但是,实际上对于移动的物体的轨迹,其中的不同子轨迹段的速度差异很大,那么,仅用时间来度量时间距离必然存在不准确的问题,这样也就无法准确地衡量时空距离,最终导致聚类的不准确。



技术实现要素:

本发明的目的是提供一种基于时空特征的船舶轨迹密度聚类方法及装置,以解决现有技术中无法准确地衡量时空距离,最终导致轨迹聚类的不准确的问题。

为实现上述目的,本发明的一种基于时空特征的船舶轨迹密度聚类方法的技术方案,包括以下步骤:

1)获取船舶的运行轨迹数据,所述运行轨迹数据包括船舶位置信息、航速和时间信息;

2)对船舶的运行轨迹数据提取特征点,根据提取的特征点进行轨迹划分,得到各船舶轨迹的子轨迹段;

3)计算任意两子轨迹段之间的空间距离和时间距离,对得到的空间距离和时间距离进行加权求和得到融合后的时空距离;

所述空间距离是根据船舶位置信息计算得到的;所述时间距离是根据各子轨迹段的航速、各子轨迹段的时间信息和相应的两子轨迹段的时间差计算得到的;

4)根据获取的时空距离,并通过dbscan算法对各子轨迹段进行聚类。

本发明的有益效果是:

本发明通过计算任意两子轨迹段之间的空间距离和时间距离,对得到的空间距离和时间距离进行加权求和得到融合后的时空距离,其中对于时间距离的计算引入了船舶航速信息这一参量,通过将不同子轨迹段的航速信息作为时间距离的因素之一,能够更加真实地反映不同子轨迹段的时间距离信息,使其与实际的子轨迹段的时间距离更加接近,能够准确度量时间距离,进而准确地衡量时空距离,最终准确地对船舶运行轨迹进行聚类,更加有效地反映出发生在同一海域不同时间的船舶轨迹区分开来,得到更为细化、准确的船舶轨迹移动规律,能够为合理的航路规划及海事监管中的热点航道提取和异常事件预防提供有效的决策手段和参考信息。

进一步的,所述时间距离的计算表达式为:

其中,vi为子轨迹段li的航速,vj为子轨迹段lj的航速,ti为子轨迹段li的时间信息,tj为子轨迹段lj的时间信息,δtij为子轨迹段li和lj之间的时间差。

进一步的,所述航速为对应子轨迹段的速度均值。

进一步的,所述子轨迹段的速度均值为:

其中,vs、ve分别为子轨迹段的起点速度和终点速度。

进一步的,其特征在于,所述时间差为tij=max(tie,tje)-min(tis,tjs),

其中,tis、tie为子轨迹段li所跨时间区间的起点和终点,tjs、tje为子轨迹段lj所跨时间区间的起点和终点。

进一步的,还包括对获取的船舶的运行轨迹数据进行预处理,以滤除噪声或偏差大的数据,获取有效的船舶运行轨迹数据的步骤。

进一步的,步骤2)中提取的特征点为od点、sp点和tf点中的至少两种,所述od点为每条船舶运行轨迹的起点和终点;所述sp点为停泊点,所述tf点为轨迹特征点。

进一步的,步骤3)中,还包括对所述时间距离和空间距离进行标准化处理的步骤。

进一步的,所述时空距离dst为:

dst=ωs×dsn+ωt×dtn

其中,dsn是对空间距离进行标准化处理得到的,dtn是对时间距离dt进行标准化处理得到的,ws为空间距离的权重系数,wt为时间距离的权重系数,满足ωs+ωt=1。

本发明还提供了一种基于时空特征的船舶轨迹密度聚类装置的技术方案,包括处理器和存储器,所述处理器执行所述存储器存储的上述的基于时空特征的船舶轨迹密度聚类方法的技术方案。

附图说明

图1是本发明的基于时空特征的船舶轨迹密度聚类方法实施例的方法流程图;

图2是本发明的基于时空特征的船舶轨迹密度聚类方法实施例的特征点提取示意图;

图3是本发明的基于时空特征的船舶轨迹密度聚类方法实施例的子轨迹段示意图;

图4是本发明的基于时空特征的船舶轨迹密度聚类方法实施例的子轨迹段之间的空间距离度量示意图;

图5是本发明的时空特征的船舶轨迹密度聚类方法实施例的子轨迹段在不同权重系数下的聚类质量示意图;

图6是本发明的基于时空特征的船舶轨迹密度聚类装置实施例的结构示意图。

具体实施方式

下面结合附图对本发明方案进行介绍。

基于时空特征的船舶轨迹密度聚类方法实施例:

本发明的基于时空特征的船舶轨迹密度聚类方法,如图1所示,包括如下步骤:

步骤一:获取船舶的运行轨迹数据,所述运行轨迹数据包括船舶位置信息、航速和时间信息;

其中,本实施例中是通过围绕船舶轨迹时空聚类模型建立的船舶ais数据库,主要包括:mmsi码、船舶位置信息、航向信息、航速、船舶大小、时间信息等。

从船舶ais数据库中获取船舶的运行轨迹数据;由于船舶ais设备以“明码”和“暗码”两种压缩编码的形式传输数据,因此在获取运行轨迹数据时,需要运用ais数据解析程序从原始数据中提取所需内容并导入数据库。

为了保证后续轨迹特征点选取的精度和速度,准确地获取时空距离,本实施例中还包括对获取的船舶运行轨迹数据进行预处理,以去除噪声或者偏差大的数据,获取有效的船舶运行轨迹数据:删除mmsi码错误的数据;删除船舶位置的经纬度出现负值或是经度大于180°、纬度大于90°的数据;删除航速为负值或大于60kn的数据;删除超过研究水域范围的数据等。

步骤二:对船舶的运行轨迹数据提取特征点,根据提取的特征点进行轨迹划分,得到船舶轨迹的子轨迹段;

1)特征点的提取:

本实施例中,提取的特征点包括od(origin-destination)点、sp(stay-point)点和tf(trajectory-feature)点;其中,od点为每条船舶轨迹的起点和终点。sp点为船舶轨迹的停泊点,其的选取方法为:当两个相邻轨迹点之间时间差大于特定的时间阈值,且两个轨迹点的速度值都小于设定的速度阈值的两个相邻的轨迹点。tf点为利用曲线边缘检测法对每条船舶轨迹的所有轨迹点进行识别,符合判定条件的轨迹点。

其中,如图2所示,tf点的判定条件为:

假设给定一条船舶运行轨迹,其中的p1(x1,y1),p2(x2,y2),p3(x3,y3),p4(x4,y4)(x1<x2<x3<x4)是轨迹上相继的4个点。

(1)连接轨迹点p1(x1,y1)和p2(x2,y2)构成一条关于轨迹的正向直线t12,对应的正向直线方程:

t12(x,y)=(y2-y1)(x-x1)+(y-y1)(x2-x1)

计算轨迹点p3(x3,y3)关于正向直线方程t12的值,若t12(x3,y3)<0,则称轨迹点p3(x3,y3)是关于正向直线的内点;若t12(x3,y3)>0,则称轨迹点p3(x3,y3)是关于正向直线外点。

(2)连接轨迹点p2(x2,y2)p和3(x3,y3)构成一条关于轨迹的正向直线t23,对应的正向直线方程:

t23(x,y)=(y3-y2)(x-x2)+(y-y2)(x3-x2)

计算轨迹点p4(x4,y4)关于正向直线方程t23的值,并根据上述方法判断轨迹点p4(x4,y4)为内点或外点。

(3)若t12(x3,y3)·t23(x4,y4)<0,说明轨迹在p3(x3,y3)处方向有所改变,则轨迹点p3(x3,y3)是特征点,即为tf点,否则p3(x3,y3)不是特征点。

(4)依次循环判断,直到最后一个轨迹点,即可识别出船舶运行轨迹的轨迹特征点。

为了降低特征点提取的复杂度,作为其他实施方式,本实施例中提取的特征点也可以为od点、sp点和tf点中的其中两种。

2)子轨迹段的划分:根据上述提取出的三类轨迹特征点(od点、sp点和tf点)组成该船舶运行轨迹的特征点集合,将特征点集合中的相邻特征点按时间先后顺序排列,依此连接生成该条轨迹的子轨迹,其中相邻两个特征点的线段称为子轨迹段,如图3所示。

步骤三,计算任意两子轨迹段之间的空间距离和时间距离,对得到的空间距离和时间距离进行加权求和得到融合后的时空距离;

本实施例中的两子轨迹段之间的空间距离是根据船舶位置信息计算得到的,包括平行距离、垂直距离和角度距离。

具体的,设两条子轨迹段li和lj,记为li(si,ei)和lj(sj,ej),其中si、ei和sj、ej分别为子轨迹段li和子轨迹段lj的起点和终点的位置信息,由子轨迹段lj向li垂直投影,如图4所示,,其中,ps和pe为lj在li上的垂直投影点。

则子轨迹段li和lj之间的垂直距离为:

子轨迹段li和lj之间的平行距离为:

d||(li,lj)=min(l||1,l||2)

子轨迹段li和lj之间的角度距离为:

综上,得到子轨迹段li和子轨迹段lj之间的空间距离为:

ds=d⊥(li,lj)+d||(li,lj)+dθ(li,lj)

本实施例中的时间距离是根据各子轨迹段的航速信息、各子轨迹段的时间信息和两子轨迹段的时间差计算得到的;

具体的是,设两条子轨迹段li和lj对应的时间信息分别为ti(tis,tie)和tj(tjs,tje),其中tis、tie和tjs、tje分别为子轨迹段li和lj所跨时间区间的起点和终点:

则两条子轨迹段之间的时间差为:

δtij=max(tie,tje)-min(tis,tjs)

其中,两条子轨迹段li和lj对应的速度信息分别为vi(vis,vie)和vj(vjs,vje),vis、vie分别为子轨迹段li的起点速度和终点速度,vjs、vje分别为子轨迹段lj的起点速度和终点速度。

计算两条子轨迹段li和lj的速度均值,其分别为

那么,子轨迹段li和lj之间的时间距离dt:

本实施例中的两子轨迹段之间的时间距离由时间跨度、时间差和航速的速度均值共同决定。作为其他实施方式,为了更简单地进行时间距离的计算,上述中的速度均值也可以采用子轨迹段中的任一点的速度,这是由于在短时间内,子轨迹段内的船舶航速基本不会变化。

本实施例中的时空距离,是对上述计算得到的空间距离和时间距离进行加权求和得到的;具体的过程为:

首先,对空间距离和时间距离进行标准化处理;由于空间距离和时间距离的数量级不相同,本实施例中采用z-score分数对空间距离和时间距离进行标准化处理。

以空间距离ds标准化的处理过程为例,设dsi(i=1,2,…,n)构成n个空间距离度量值,其均值为:

计算ds的均值绝对偏差:

使用均值绝对偏差对空间距离ds标准化为:

其中,dsn服从高斯分布。

本实施例中的时间距离也按照上述标准化,得到dtn,具体的计算过程,此处不再详细介绍。

其次,计算时空距离dst,其表达式为:

dst=ωs×dsn+ωt×dtn

其中,dsn为将空间距离通过z-score分数方法进行标准化处理得到的,dtn为将时间距离dt通过z-score分数方法进行标准化处理得到的,ws为空间距离的权重系数,wt为时间距离的权重系数,满足ωs+ωt=1。

需要说明的是,本实施例中的权重系数ws和wt,用来调整对空间距离和时间距离的敏感度,其是根据经验提前设定的,通常取0.5和0.5、0.6和0.4、0.7和0.3等几组数值中的一组或多组。

步骤四:根据获取的时空距离,并通过dbscan算法对各子轨迹段进行聚类。

本实施例中通过dbscan算法对各子轨迹段进行聚类时,从任一子轨迹段出发,计算与其他所有子轨迹线段间的时空距离,根据获取的各子轨迹段间的时空距离,给定ε-邻域范围和最小线段参数(minlns),统计满足ε-邻域范围的线段个数,并与最小线段参数(minlns)进行比较,当ε-邻域范围内的线段数目大于给定的最小线参数(minlns)时,该子轨迹段即为核心轨迹,形成一个聚类,其邻域内的直接密度可达线段也将聚到该类中,再对剩余的其他子轨迹段按照同样的方式依次进行聚类扩展,得到最终的聚类结果;而其中未被聚成一类的子轨迹段则是孤立轨迹,不作处理。

其中,ε-邻域范围nε:nε(li)为子轨迹段li在线段集d(li∈d)内所有与其时空距离不超过ε的轨迹集合;

nε(li)={li∈d|ddist(li,lj)≤ε},

核心轨迹:子轨迹段li的线段集为d(li∈d),给定邻域范围ε和最小线段参数minlns,若满足|nε(li)|≥minlns,则认为li为核心轨迹。

直接密度可达:子轨迹段li的线段集为d(li∈d),给定参数邻域范围ε和最小线段参数minlns,若li为核心轨迹且lj在li的ε邻域范围内,则称lj从li直接密度可达。

密度可达:子轨迹段li的线段集为d(li∈d),给定参数邻域范围ε和最小线段参数minlns,若存在从li到lk直接密度可达,从lk到lj直接密度可达,则从li到lj密度可达。

密度相连:子轨迹段li的线段集为d(li∈d),给定参数邻域范围ε和最小线段参数minlns,若存在li和lj均由lk密度可达,则li和lj密度相连。

为了得到更好的聚类分析结果,本实施例中通过dbi(daviesbouldinindex)指数来衡量不同权重系数下的子轨迹段的聚类质量。

需要说明的是,由于dbi指数是聚类效果评价指标,在聚类得出结果之后得到的具体数值(介于0和1之间),通过计算dbi指数的大小评价聚类效果的优劣。因此,通过dbi(daviesbouldinindex)指数能够直观地分析出不同权重下聚类结果质量的高低,从而确定聚类质量最优的权重系数,进而准确地对船舶运行的子轨迹进行聚类。

具体的,戴维森堡丁指数(dbi,daviesbouldinindex),又称为分类适确性指标,是一种评估聚类算法优劣的指标。

首先假设实验数据有m个时间序列,这些时间序列聚类为n个簇。m个时间序列设为输入矩阵x,n个簇类设为n作为参数传入算法,使用下列公式进行计算:

dbi的含义是度量每个簇类最大相似度的均值;它能够较好的体现不同权重系数取值的聚类质量,dbi的值最小是0,值越小,代表聚类质量越好。

具体计算步骤:

(1)计算si;定义分散度值si为:第i个类中,类内数据到簇质心的平均距离,代表了簇类i中各样本的分散程度,计算公式为:

其中,xj代表簇类i中第j个数据点,也就是一个样本点,ai是簇类的质心,ti是簇类中数据的个数。

(2)计算mi,j;

定义距离值mi,j,表示第i类与第j类的距离。分子之和计算完后,需计算分母mi,j,定义为簇类i与簇类j的距离,计算公式为:

ak,i代表簇类i质心点的第k个值,mi,j就是簇类i与簇类j质心的距离,即ak,i表示第i类的中心点的第k个属性的值,mi,j则就是第i类与第j类中心的距离。

(3)计算ri,j;

定义相似度值ri,j,用于衡量第i类与第j类的相似度。计算公式:

(4)计算dbi;

通过以上公式的计算,做一个基于簇类数n的n2的嵌套循环,对每一个簇类i计算最大值的ri,j,记为di,di=max(ri,j),即簇类i和其他类的最大的相似度值。然后对所有类的最大相似度取平均值就得到了dbi指数,计算公式为:

本实施例中是基于步骤三中选取的不同的权重系数,进行调参,这个调参过程是与密度聚类的ε-邻域范围和最小线段参数(minlns)两个参数的调参同步进行的。由于选取的不同的权重系数得到的聚类结果可能都达到聚类要求,这时就需要通过计算dbi指数,当该dbi指数值越小,则该dbi指数对应的权重系数下的子轨迹段的聚类结果越好。

如图5所示,本实施例中在权重系数为ws=0.7和wt=0.3时,聚类质量达到最优,并且数据对权重设置有一定的敏感度。

基于时空特征的船舶轨迹密度聚类装置实施例:

本实施例提出的一种基于时空特征的船舶轨迹密度聚类装置,如图6所示,包括处理器、存储器,存储器中存储有可在处理器上运行的计算机程序,处理器在执行计算机程序时实现上述聚类方法实施例的方法。

也就是说,以上聚类方法实施例的方法应理解可由计算机程序指令实现基于时空特征的船舶轨迹密度聚类方法的流程。可提供这些计算机程序指令到处理器,使得通过处理器执行这些指令产生用于实现上述方法流程所指定的功能。

本实施例所指的处理器是指微处理器mcu或可编程逻辑器件fpga等的处理装置;

本实施例所指的存储器包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。例如:利用电能方式存储信息的各式存储器,ram、rom等;利用磁能方式存储信息的的各式存储器,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、u盘;利用光学方式存储信息的各式存储器,cd或dvd。当然,还有其他方式的存储器,例如量子存储器、石墨烯存储器等等。

通过上述存储器、处理器以及计算机程序构成的装置,在计算机中由处理器执行相应的程序指令来实现,处理器可以搭载各种操作系统,如windows操作系统、linux系统、android、ios系统等。

作为其他实施方式,装置还可以包括显示器,显示器用于将诊断结果展示出来,以供工作人员参考。以上所述仅为本发明的优选实施例,已经用一般性说明、具体实施方式对本发明作了详尽的描述,但并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种修改或改进。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1