一种基于大数据平台针对AIS信息源的数据挖掘系统的制作方法

文档序号:18552345发布日期:2019-08-30 22:10阅读:341来源:国知局
一种基于大数据平台针对AIS信息源的数据挖掘系统的制作方法

本发明属于大数据领域,涉及一种基于大数据平台针对ais信息源的数据挖掘系统;ais是船舶自动识别系统,海量数据的采集、存储、挖掘,特别是数据挖掘的算法和模型是大数据领域的难点和重点。



背景技术:

在船舶智能避碰研究当中,为了生成更为可靠有效的避碰决策,信息源的种类不仅仅局限于当前时刻两船的位置、航向、速度等因素,同样还应考虑他船的航行意图,接下来的船舶动向,未来他船可能到达的位置,使得整体的智能避碰系统具有先验性,预见性,可以使得最后生成的避碰决策更加可靠,可以有效的降低碰撞风险,避免由于碰撞所引起的人身以及财产的损失。

同时在港口监管部门对所管理区域进行安全监控时,需要动态的去识别船舶的异常行为,发现有异常行为的船舶需要重点关注,这样可以有效的降低监管人员的工作量,同时降低监控系统的误报警率。所以实时、高精度的预测船舶航行行为是需要进行深入研究的问题。船舶航行行为又称为机动行为,它是船舶的运动过程。船舶轨迹中每3个点就构成一个运动过程,即每3个轨迹点包含1个船舶操纵行为事件。

应用船舶自动识别系统(automaticidentificationsystem,ais)大数据作为学习样本,在海事研究当中ais数据获取简单,数据来源可靠精度高,船舶自动识别系统(ais)已经被国际航行的300总吨以上的船舶和国内航行500吨以上的货船和客船强制安装,并且也逐渐在越来越多的渔船上安装。适用范围广,可以说在非近岸海域的区域当中,ais的覆盖率极高,几乎和实际船舶一一对应。同时也随着各国ais基站网络的建立和星载ais群的出现,ais数据的收集也得到了解决,ais已成为近乎实时的全球海上交通信息来源。ais数据为多元多维数据,其中包含各种船舶信息,ais轨迹数据可描述船舶的空间位置和属性随时间的变化。船舶ais轨迹点由船舶采样点位置(gps位置)、采样时间、海上移动识别码(maritimemobileserviceidentify,mmsi)、对地速度(sog)、对地航向(cog)、航行状态和转向速率等构成。这些轨迹点数据信息根据时间采样先后顺序构成了轨迹点序列。

随着航海信息技术的迅速进步,船舶自动识别系统产生的航行数据(简称ais数据)呈现爆发式增长。这些海量的ais数据蕴含有丰富的物流、航运、海上交通等有用知识。传统的数据分析方法已不能满足现代航运业快速发展的要求,急需有效的理论与技术对这些大量的ais数据进行分析和应用。数据挖掘和聚类作为一种从海量数据中挖掘有用的、具有潜在效用知识的理论与方法,已经成为海量ais数据的主要分析技术。

空间点在轨迹中不是同等重要的,有些点表示人们在那里停留了一段时间的位置,我们称之为“停留点”(staypoint);在ais轨迹数据的分类、聚类、异常发现等诸多数据挖掘问题时,我们需要计算轨迹和几个点之间的距离(或者,我们可以说相似性)或两个轨迹之间的距离。假设给定两ais轨迹数据t1和t2,一个相似性度量函数dist(t1,t2)。如果轨迹数据t1和t2满足dist(t1,t2)≤ε,则称ais轨迹数据t1和t2是相似的;一个离群轨迹是在一个距离度量,例如形状和旅行时间上与资料库中其他的轨迹有明显不同的一个轨迹,或者是轨迹的一部分。这种离群轨迹可能是船舶的恶意绕道或意外的航线变化(由于海面天气变化等)。它还能提醒行驶在错误的道路上的船舶。一般的想法是利用现有的轨迹聚类或频繁模式挖掘方法。如果一个轨迹(或一个部分)不能在任何(基于密度的)聚类中被容纳,或者不频繁,它可能是一个异常值。

现有技术主要是针对常见固定区域数据研究,对针对大区域大批量数据挖掘,如何做到快速响应;ais数据可以挖掘出哪些更深层次的实际应用业务点,是本来领域技术人员着重要研究的内容。



技术实现要素:

为克服上述现有技术中的不足,本发明目的在于提供一种基于大数据平台针对ais信息源的数据挖掘系统。

为实现上述目的及其他相关目的,本发明提供一种基于大数据平台针对ais信息源的数据挖掘系统,包括数据采集系统、数据存储系统、数据挖掘系统及数据分析系统;所述数据存储系统为分布式存储系统,所述数据挖掘系统包括对数据的分类统计、目标运动特征分析、目标密度分布分析、目标航迹分布分析、活动规律分析、异常行为检测分析;所述数据挖掘系统支持ais数据批量处理、ais数据查询及ais数据可视化;所述ais数据批量处理包括历史数据存储、统计分析、数据挖掘及结果保存;所述ais数据查询包括对于ais轨迹数据的查询和对ais数据进行统计分析的交互式查询;所述ais数据可视化分包括对ais数据本身的可视化和对ais数据挖掘结果的可视化。

进一步地,所述分布式存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息。它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。使用hadoop作为存储系统,并将逐个介绍它的文件系统、资源调度系统、系统高可用性和数据库建表。针对ais数据,可以设计多层次的数据库结构。

进一步地,还包括数据预处理系统,所述数据预处理系统负责数据清洗、异常数据处理及特征提取;在使用ais数据之前,对异常数据处理、轨迹分段和压缩、停留点检测或地图匹配需要进行轨迹数据预处理;数据预处理系统通过数据清洗、数据集成、数据变换及数据规约方法对原始数据进行处理;从而提高数据挖掘模式的质量。

进一步地,所述数据挖掘系统还包括统计分析,所述统计分析从时间和空间两个维度对ais数据进行分析,包括基于空间的统计分析和基于时间的统计分析。

进一步地,所述数据挖掘系统还包括索引系统,所述索引系统是对ais数据和挖掘结果建立索引,满足范围和相似度的查询需求;对于轨迹数据主要是范围查询和k-最近邻(knn,k-nearestneighbor)查询。

进一步地,所述数据挖掘系统还包括查询系统,所述查询系统基于索引系统,并对外提供查询服务和聚合运算;对于轨迹数据主要是范围查询和k-最近邻查询。

进一步地,所述数据挖掘系统用于深度挖掘ais数据的价值,包括停留点、相似度以及异常检测数据的挖掘。

由于上述技术方案运用,本发明与现有技术相比具有的有益效果是:

本发明能够快速准确地提取船只目标,能够在保持完整数据原有特征的同时,大大减少计算开销和网络数据传输量,满足资源受限环境下快速检测重要船只目标的查询需求。通过对ais数据挖掘任务,如轨迹模式挖掘,轨迹不确定性、异常值检测、停留点、分类。如异常值检测可以发现“异常行为船舶”;分类帮助分析不同类型的船舶的航行情况等共同特征;停留点检测可以帮助确定热点港口并侧面了解该港口的进出口贸易指标。

附图说明

图1为本发明系统组成示意图;

图2为本发明实施例中空间点在轨迹中的示意图;

图3为本发明实施例中聚类算法核心对象点分布示意图;

图4为本发明实施例应用场景一的参照航迹示意图;

图5为本发明实施例应用场景二的相似航迹示意图;

图6为本发明实施例应用场景三的异常航迹示意图。

具体实施方式

以下结合附图,由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

实施例:

如图1所示,一种基于大数据平台针对ais信息源的数据挖掘系统,包括数据采集系统、数据存储系统、数据挖掘系统及数据分析系统;所述数据存储系统为分布式存储系统,所述数据挖掘系统包括对数据的分类统计、目标运动特征分析、目标密度分布分析、目标航迹分布分析、活动规律分析、异常行为检测分析;所述数据挖掘系统支持ais数据批量处理、ais数据查询及ais数据可视化;所述ais数据批量处理包括历史数据存储、统计分析、数据挖掘及结果保存;所述ais数据查询包括对于ais轨迹数据的查询和对ais数据进行统计分析的交互式查询;所述ais数据可视化分包括对ais数据本身的可视化和对ais数据挖掘结果的可视化。

进一步地,所述分布式存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息。它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。使用hadoop作为存储系统,并将逐个介绍它的文件系统、资源调度系统、系统高可用性和数据库建表。针对ais数据,可以设计多层次的数据库结构。

进一步地,还包括数据预处理系统,所述数据预处理系统负责数据清洗、异常数据处理及特征提取;在使用ais数据之前,对异常数据处理、轨迹分段和压缩、停留点检测或地图匹配需要进行轨迹数据预处理;数据预处理系统通过数据清洗、数据集成、数据变换及数据规约方法对原始数据进行处理;从而提高数据挖掘模式的质量。

进一步地,所述数据挖掘系统还包括统计分析,所述统计分析从时间和空间两个维度对ais数据进行分析,包括基于空间的统计分析和基于时间的统计分析。

进一步地,所述数据挖掘系统还包括索引系统,所述索引系统是对ais数据和挖掘结果建立索引,满足范围和相似度的查询需求;对于轨迹数据主要是范围查询和k-最近邻(knn,k-nearestneighbor)查询。

进一步地,所述数据挖掘系统还包括查询系统,所述查询系统基于索引系统,并对外提供查询服务和聚合运算;对于轨迹数据主要是范围查询和k-最近邻查询。

进一步地,所述数据挖掘系统用于深度挖掘ais数据的价值,包括停留点、相似度以及异常检测数据的挖掘。

空间点在轨迹中不是同等重要的,有些点表示人们在那里停留了一段时间的位置,我们称之为“停留点”(staypoint)。轨迹中存在两种类型的停留点;一个是单点位置,例如图2中的staypoint1,用户静止一段时间;这种情况非常罕见,因为即使在相同的位置,用户的定位设备通常也会产生不同的读数。第二种类型,如图2中所示的staypoint2,通常在轨迹中被观察到,代表人们四处移动的地方或者保持静止,定位读数转换。

通过这样的停留点,我们可以将一系列带时间戳的空间点p的轨迹转变成一系列有意义的地点s,

停留点检测算法识别移动物体在特定距离阈值内滞留一段时间的位置。一个停留点可以代表船舶停靠的港口等,比其他轨迹上的点承载更多的语义。如图2所示,停留点检测算法首先检查轨迹中锚点(例如,p5)与其后继者之间的距离是否在大于给定阈值(例如,100m)。然后,它测量锚点与距离阈值内的最后的后继者(即,p8)之间的时间跨度。如果时间间隔大于给定阈值,则检测到停留点(由p5,p6,p7和p8表征);该算法开始检测从p9开始的下一个停留点。我们基于密度聚类思想改进了这种停留点检测算法。在发现p5到p8是候选停留点(使用p5作为锚点)之后,算法进一步检查自p6开始的后继点。例如,如果从p9到p6的距离小于阈值,则将p9添加到停留点。

另外,可以采用dbscan算法进行聚类。dbscan是一种基于密度的聚类算法,一般假定各类可以通过样本分布的紧密程度决定。以航迹来说,同一类的航迹,他们之间相似度是相对比较高的,即在该类别任意航迹周围一定范围内一定有同类别的航迹存在。将紧密相连的航迹划为一类,这样就得到了一个聚类类别。将所有各组紧密相连的航迹划为各个不同的类别,我就得到了最终的所有聚类类别结果。这种聚类方法最大的优点是不需要事先设定类别个数,只需要设定相似度阈值和每种类别所需包含的最少航迹数目。

对于一个样本集d:

(1)e-邻域:对于样本xi∈d,e-邻域中包含样本集d中与xi距离不大于e的子样本集所在的区域,即ne(xi)={xi∈d|distance(xt,xj)≤e),这里的distance我们可以采用上述中提到的dtw距离;

(2)核心对象:对于任一样本xi∈d,如果其e邻域内对应的样本点数至少包含minpts个样本,即ne(xi)≥minpts,则xi就是一个核心对象;

(3)直接密度可达(密度直达):给定一个对象集合d,如果p是在q的e-邻域内,而q是一个核心对象,我们说对象p从对象q出发是直接密度可达的;

(4)密度可达:p通过多个密度直达的样本点可以连到对象q,则说p和q密度可达。

聚类算法实现方式:任意选择一个没有类别的核心对象作为种子,然后找到所有这个核心对象能够密度可达的样本集合,即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合,这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

如图3所示,核心对象样本数为5,即minpts=5,各圆形轨迹的圆形是核心对象,e-邻域中(每一个圆形区域内)至少有5个样本。所有核心对象密度直达的样本在以核心对象为中心的圆形区域内,如果不在区域内内,则不能密度直达。图中用箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的e-邻域内所有的样本相互都是密度相连的。

聚类算法可以通过点的密集程度来聚合出几组数据。但是相似航迹的挖掘是由线去挖掘而不是由点去挖掘,使用dbscan挖掘出的几组点的集合将会丢失语意,不再能连成唯一的一条航迹,所以利用现有的图形描边算法、lcss相似性算法的思路结合实际业务场景(聚合轨迹)的需求,进行航道挖掘算法的研发。在参与计算的一组轨迹中,我们需要一个相似度阈值θ,将相似度低于θ的航迹过滤,剩下的便是有可能挖掘潜在航道的有价值的航迹数据。这组航迹共n条,抽取出最长和次长的轨迹记为轨迹a、轨迹b确定它们将是航道的基线,由于挖掘的航迹线较多,且相似度阈值θ较高,基线的选择对最终航道挖掘出的结果影响不大。

上述挖掘系统及算法的应用场景一:

通过对参照的航迹所在区域的航迹数据挖掘可以找出具有和参照航迹行为相似的目标。比如参照航迹是渔船,那么相似的航迹也可能很大程度上也是渔船;如果参照航迹是舰船,那么具有相似航迹的目标也可能是舰船的伴随目标。

“参照航迹相似分析”界面用户可以根据“查询时间”、“船舶类型”、“参照航迹”、“距离阈值”、“相似度阈值”、“所选图形区域”通过利用动态时间规整dynamictimewarping(dtw)筛选,查询出航迹的信息显示在地图上;如图4所示。

上述挖掘系统及算法的应用场景二:

通过对某一区域的航迹数据分析,发掘出可能存在的新的航道。

“相似航迹挖掘”界面用户可以根据“查询时间”、“船舶类型”、“选择区域”、“窗口期”、“距离阈值”、“相似度阈值”采用dbscan算法进行数据筛选,查询出航迹的信息显示在地图上,由于航迹数量可能较多,所以在展示时绘制船舶航迹的最有代表性的航迹。点击航迹查看该航迹组的相似航迹数等相关信息,如图5所示。

上述挖掘系统及算法的应用场景三:

找出航道中异常航迹绘制在地图上。这种离群轨迹可能是船舶的恶意绕道或意外的航线变化(由于海面天气变化等)。它还能发现行驶在错误的航道上的船舶。

“航迹异常检测”界面用户可以根据“航道”、“异常度值”进行数据筛选,查询出异常航迹的信息显示在表格里。点击异常航迹在地图上面绘制出来,异常部分用红色绘制,正常部分用灰色绘制,如6所示。

本发明挖掘系统的实现:

ais数据挖掘是本系统的核心任务。如轨迹模式挖掘,轨迹不确定性,异常值检测、停留点、分类。如异常值检测可以帮助发现“异常行为船舶”;分类帮助分析不同类型的船舶的航行情况等共同特征;停留点检测可以帮我们确定热点港口并侧面了解该港口的进出口贸易指标。

1、停留点

空间点在轨迹中不是同等重要的,有些点表示人们在那里停留了一段时间的位置,我们称之为“停留点”(staypoint)。轨迹中存在两种类型的停留点;一个是单点位置,例如图2中的staypoint1,用户静止一段时间;这种情况非常罕见,因为即使在相同的位置,用户的定位设备通常也会产生不同的读数。第二种类型,如图2中所示的staypoint2,通常在轨迹中被观察到,代表人们四处移动的地方或者保持静止,定位读数转换。

通过这样的停留点,我们可以将一系列带时间戳的空间点p的轨迹转变成一系列有意义的地点s,

停留点检测算法识别移动物体在特定距离阈值内滞留一段时间的位置。一个停留点可以代表船舶停靠的港口等,比其他轨迹上的点承载更多的语义。如图2所示,停留点检测算法首先检查轨迹中锚点(例如,p5)与其后继者之间的距离是否在大于给定阈值(例如,100m)。然后,它测量锚点与距离阈值内的最后的后继者(即,p8)之间的时间跨度。如果时间间隔大于给定阈值,则检测到停留点(由p5,p6,p7和p8表征);该算法开始检测从p9开始的下一个停留点。我们基于密度聚类思想改进了这种停留点检测算法。在发现p5到p8是候选停留点(使用p5作为锚点)之后,算法进一步检查自p6开始的后继点。例如,如果从p9到p6的距离小于阈值,则将p9添加到停留点。

2、相似性

在解决ais轨迹数据的分类、聚类、异常发现等诸多数据挖掘问题时,需要计算轨迹和几个点之间的距离(或者可以说相似性)或两个轨迹之间的距离。假设给定两ais轨迹数据t1和t2,一个相似性度量函数dist(t1,t2)。如果轨迹数据t1和t2满足dist(t1,t2)≤ε,则称ais轨迹数据t1和t2是相似的。

2.1、点和ais轨迹数据之间的距离

点q和轨迹a之间的距离通常用从q到a中的最近点地距离来衡量,表示为

d(q,a)=minpead(p,q);将距离从单个点q扩展到多个查询点的方法是或者使用指数函数是给一个更接近匹配的点对分配一个更大的价值,同时给远离匹配的点对更低的价值。

2.2、两条ais轨迹数据之间的距离

两个轨迹之间的距离通常通过轨迹点之间的某种距离的聚合来测量。最近点对距离(closest-pairdistance)使用两个轨迹(a,b)中的点之间的最小距离来表示轨迹的相似性,也就是cpd(a,b)=minpeapeetd(p,p’)。假设两个轨迹具有相同的长度,那么点对的和距离使用来自两个轨迹的对应点的和来表示距离,也就是由于假设在现实中可能不成立,动态时间扭曲(dynamictimewrapping,dtw)距离允许根据需要多次重复某些点以获得最佳对准。由于轨迹中的某些噪声点可能会在轨迹之间产生很大的距离,所以采用最长公共子序列(lcss)的概念来解决这个问题。基于lcss的距离允许在计算轨迹距离时跳过一些噪声点,使用阈值δ来控制我们可以走多远以便匹配从轨迹到另一轨迹中的一个点。另一个阈值ε被用来确定是否两个点(来自两个不同的轨迹)是否相匹配。chen和ng提出了edr(editdistanceonrealsequence)距离,这与使用阈值ε来确定匹配的lcss类似,同时给两个匹配的子轨迹之间的间隔分配惩罚。为了结合dtw和edr的优点,还提出了erp(editdistancewithrealpenalty)距离,通过使用恒定的参考点来计算距离。dtw不是度量标准,因为它不满足三角不等式。edr是度量标准,因此可以用来修剪不必要的ais轨迹。基本上,lcss和ed距离是为匹配字符串而提出来的。当用来匹配两条ais轨迹时,需要设置一个阈值ε;这并不容易。k-bct是轨迹数据的无参数相似性度量方法,并结合了dtw和lcss的优点。在匹配过程中,k-bct可以重复一些轨迹点并跳过包括异常值在内的不匹配的轨迹点。

2.3、两条ais轨迹段之间的距离

轨迹段的距离度量基于段的最小边界矩形(mbr)。两个段(l1,l2)的mbr是(b1,b2),每个段由低界点(xi,yl)和上界点(xu,yu)。基于mbr的距离dmin(b1,b2)被定义为(b1,b2)中任意两点之间的最小距离,计算如下:

其中,两个区间之间的距离定义为

其中,l1和l2之间的距离分别是0和y′l-yu。

另外,我们提出了一个距离函数,叫trajectory-hausdorff距离(dhaus),它是三个项的加权和:(1)测量两条轨迹之间间隔的总垂直距离(d⊥),(2)平行距离(dii)即两个轨迹之间的长度差,以及(3)反映两个轨迹之间方位差的角距离(dθ)。公式为:

dhaus=w1d⊥+w2d||+w3dθ,

其中v=dmin(d||,α,d||,b),dθ=||l2||,w1,w2和w3是取决于应用程序的权重。

2.4、基于相似性的航道挖掘

有了上面的相似性定义之后,不同船只的轨迹就可以被视为空间中的一个点,而且不同点之间,我们还定义了点与点之间的距离。那么针对轨迹数据,就可以使用相应的聚类算法来对轨迹数据进行聚类。

具体来讲,典型的聚类算法又如下几种:

a、k-means;这个算法将轨迹数据按距离的远近聚类为k类。一个类别,可以用相应的聚类中心来表示。

b、gmm;这个算法将假设轨迹数据分布的密度。然后根据条件分布概率来倒推出聚类的中心。

c、hierarchicalclustering;这个算法将从原始的轨迹数据出发,通过不断的两两聚类融合,得到最终的轨迹聚类结果。

这些聚类算法,有各自的优缺点,但它们都面临着同一个问题,就是无法直接对聚类结果赋予物理意义。也就是说,需要进一步地在聚类模型的结果上,对轨迹数据进行挖掘。通常来说有如下几种方法:

a、使用量化的方法,自动或者半自动地选择聚类个数,然后由业务人员在这些聚类中心的基础上(通常来说,聚类中心的数量并不会很多),确定各个聚类中心的物理意义,比如说对应的航道,以及是否为远离航道的异常运行轨迹。

b、将已知的航道作为“标签变量”使用,计算实际的轨迹数据与这些已知航道之间的距离。在这些距离结果的基础上,可以进行如下的航道数据挖掘。

b1、将轨迹数据归类到某个航道。对于这一功能的实现,我们会设置一个阈值,当一条轨迹数据到某个航道的距离小于这个阈值时,就将相应的轨迹归类到这个航道。

b2、轨迹数据偏离航道检测。当轨迹数据到所有已知航道的距离都大于阈值时,就可以将这条轨迹数据归类为异常数据。

b3、未知新航道检测。对于异常数据,可以使用非监督的聚类算法,再次重复上面的算法得到相应的航道发现结果。

3、异常检测

ais异常点检测可以是在某些相似性度量方面与其他项显著不同的项(轨迹或轨迹段)。它也可以是不符合预期模式的事件或观察(由轨迹集合表示)。

3.1、异常轨迹检测

一个离群轨迹是在一个距离度量,例如形状和旅行时间上与语料库中其他的轨迹有明显不同的一个轨迹,或者是轨迹的一部分。这种离群轨迹可能是船舶的恶意绕道或意外的航线变化(由于海面天气变化等)。它还能提醒行驶在错误的道路上的船舶。一般的想法是利用现有的轨迹聚类或频繁模式挖掘方法。如果一个轨迹(或一个部分)不能在任何(基于密度的)聚类中被容纳,或者不频繁,它可能是一个异常值。我们提出了一个分区检测框架,从轨迹数据集中发现了轨迹的异常段。该方法可作为我们提出的轨迹聚类的扩展。

3.2、异常事件检测

另一个方向是通过使用许多轨迹来检测航线行驶异常(而不是轨迹本身)。航线行驶异常可能是由事故、控制、抗议和其他事件引起的。可以将一个航道划分为有主要道路的不连贯区域,并根据两个区域之间行驶的船舶的轨迹,收集两个区域之间的异常联系。将一天划分为时间仓,并确定轨迹的三个特征:轨迹里移动的船舶的数量,进入目的地区域的占所有船舶之间的比例,以及离开原区域的船舶的比例。将时间仓的三个特征分别与前几天的等效时间仓进行比较,计算每个特征的最小变形量。然后,基于时间仓的轨迹可以在一个三维空间中表示,每个维度表示一个特征的最小扭曲。后来,mahalanobis距离用来测量极值点(在三维空间中),被认为是离群值。在上述研究之后,我们提出了一个两步挖掘和优化框架,以检测两个区域之间的交通异常,并通过两个区域的交通流解释异常。

4、航区流量的时间序列分析

对于一个给定的航区,利用这个航区的历史数据,可以通过时间序列分析模型预测这个区域内船舶随时间的分布情况。这样的预测功能对于航区区域管理和管控,以及船舶航路规划有着重要作用。

对于这种航区流量的时间序列分析有两类经典且实用的方案:

4.1、利用历史数据,进行统计分析。得到中长期较稳定环境下,交通流量的变化情况。

4.2、利用经典的时间序列分析模型,比如统计模型中的arima模型,对历史交通流量数据进行建模。这样的模型既可以综合地考虑中长期的变化趋势,也可以反映短时间的突发性事件对交流流量的影响。

对于第一种实现方案,我们用统计分析系统来实现。这种方案的优点在于计算起来比较简单,所用的统计指标也容易理解,但缺点是需要较多的人为干预。

第二种实现方案常用的模型有两种:

统计分析里的arima模型和神经网络里的lstm模型。

下面将叙述这些模型的细节以及在ais数据挖掘系统里的应用。

4.2.1、arima模型

arima模型的英文名字是autoregressiveintegratedmovingaveragemodel,中文名是差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),时间序列预测分析方法之一。

这个模型其实是有三个模型组合而成,通常记为arima(p,d,q)

a、ar(p)模型:ar(p)模型也称为自回归模型。它的建模思路是,对于一个航行流量的时间序列{xt},当前的航行流量xt与时间序列里前几个时间点的航行流量xt-1,...,xt-p有关。

b、ma(q)模型:ma(q)模型也称为滑动平均模型。它的建模思路是,对于一个航行流量的时间序列{xt},当前的航行流量xt与时间序列里前几个随机扰动项at-1,...,εt-q有关。

c、差分(d)模型:差分模型是整个arima模型中很重要的一步,因为时间序列模型假设研究的时间序列是平稳的。但是对于现实的ais数据,它所对应的时间序列并不总是平稳的,因此需要对原始序列做差分计算,得到转换后的平稳的序列。

将上面讨论的三种模型综合在一起就有了arima模型。具体地模型模型如下:

其中l为滞后算子(lagoperator)

根据arima模型对航区的交通流量进行时间序列建模,可以有效地捕捉如下四种航区交通流量变化规律

a、交通流量的周期性变化

b、交通流量的长期变化趋势

c、交通流量受短期因素的影响变化

d、交通流量的随机扰动项

4.2.2、lstm模型

lstm模型的英文名字是longshort-termmemory,中文名字是长短期记忆。它属于深度学习里的递归神经网络。这个模型能有效地处理时间序列数据,对于ais交通流量数据的建模效果较好。而且相比于arima模型,lstm模型的建模过程更加简单,能够做到高度的自动话。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1