基于导航数据的城市社区结构挖掘方法与装置与流程

文档序号:17398973发布日期:2019-04-13 01:02阅读:435来源:国知局
基于导航数据的城市社区结构挖掘方法与装置与流程

本发明属于数据处理技术领域,具体涉及基于导航数据的城市社区结构挖掘方法与装置。



背景技术:

社区是指一个由节点和边构成的复杂网络系统中的子区域,社区内部的节点之间具有紧密的联系,而属于不同社区的节点之间联系则较弱。社区发现便是指通过特定算法来挖掘复杂网络结构中具备以上性质的子区域,如社交网络,城市交通网以及食物网等。

城市中的社区指居民频繁开展日常活动,承载大量居民出行往返行程的空间区域。挖掘城市中的此类结构,获取具有紧密联系的社区的分布,将为优化道路交通建设,减少拥堵,以及更合理的城市功能区域规划,智慧城市建设等提供帮助。

目前,针对城市的区域结构挖掘如社区结构和功能区划的方法主要是利用相关的地理信息和专家知识。如公布号为cn106503714a的中国专利申请提供了“一种基于兴趣点数据识别城市功能区的方法”,该方法的过程为:在将城市进行栅格化后,计算各区域兴趣点分布特征,并对其进行模糊聚类,在此基础上计算带有类别特征的兴趣点和不同聚类结果在地图上的分布重叠率,对城市功能区进行识别。但是该方法仅仅得到城市基础设施规划的静态结构,忽略了城市居民活动的影响,无法挖掘社区结构中存在的居民活动即城市动态特征。

随着导航定位设备以及社交网络等应用的兴起,大量的导航数据和位置信息在城市建设和居民活动中产生。因此出现了利用车辆轨迹信息来挖掘城市社区结构的方法。公布号为cn106886607a的中国专利申请提出了一种“城市区域划分方法、装置和终端设备”,对城市中划分的每个单元格进行标注,每个单元格的标注信息包括通过每个单元格的车辆的信息;通过聚类方法,将相邻相近的、并且车辆运动规律相似的单元格聚集在一起,以完成城市区域的划分。该方法虽然考虑到了居民活动的影响,但依然依赖于人工标注信息,需要大量的前提知识,且仅考虑了运动规律的相似性,忽略了社区结构中节点之间紧密的关联性。因此,现有的社区结构挖掘方法所划分出的社区不够准确。



技术实现要素:

本发明的目的是提供基于导航数据的城市社区结构挖掘方法与装置,用于解决目前所划分出的社区不够准确、合理的问题。

为解决上述技术问题,本发明提出一种基于导航数据的城市社区结构挖掘方法,包括以下步骤:

1)对出租车导航数据提供的城市上、下客点数据进行聚类,并确定每个聚类的中心点;

2)以中心点为参照点,对城市区域进行泰森多边形划分,实现城市区域的划分,使得多边形内的所有样本点离该多边形内的参照点的距离比到其他任何一个参照点距离更短;

3)将划分后的城市区域抽象成图,图的节点为城市区域的各划分区域,连接节点的边由往返于各划分区域之间的行程表示,根据各划分区域之间的行程数通过聚类算法对各划分区域进行聚类,聚类结果为确定的城市社区。

为解决上述技术问题,本发明还提出一种基于导航数据的城市社区结构挖掘装置,包括存储器和处理器,以及存储在存储器上并在处理器上运行的计算机程序,处理器与存储器相耦合,处理器执行计算机程序时实现以上步骤1)、步骤2)和步骤3)。

本发明根据出租车导航数据提供的上、下客点进行聚类,并确定每个聚类的中心点,以中心点为参照点,对热点区域进行泰森多边形划分,实现城市区域的划分,使得多边形内的所有样本点离该多边形内的参照点的距离比到其他任何一个参照点距离更短;然后将离散后的热点区域抽象成图,通过聚类算法将联系较强的划分区域聚集在一起形成社区,将联系较弱的区域划分到不同的社区。本发明充分利用了出租车运营行为对居民出行活动和城市动态特征良好的感知性,能够在无专家知识的前提下,以无监督的方式从原始数据中挖掘出城市社区结构特征,能够为合理的城市功能区域规划和土地资源利用,以及道路交通的建设提供有效的决策手段和参考信息。

步骤1)中聚类的上、下客点数据为城市热点区域中的数据,在步骤1)之前,先对出租车的上、下客点数据进行聚类,确定出居民出行访问的城市热点区域,该城市热点区域为聚类结果中包含上、下客点数据最多的区域。仅对热点区域进行城市社区的划分,而无需考虑偏僻区域,提高了城市社区的划分效率,减轻了社区划分的工作负担。

城市热点区域为采用dbscan聚类算法或optics聚类算法对出租车上、下客点数据进行空间聚类得到。该聚类算法的好处在于,无需事先知道聚类个数就能进行聚类。

为确定上述聚类中心,采用k-means算法对出租车的上、下客点数据进行聚类进而确定城市热点区域。

附图说明

图1是本发明的城市社区结构挖掘方法流程图;

图2是本发明的泰森多边形区域划分示意图;

图3是本发明的一种社区结构示意图;

图4是本发明的城市社区结构挖掘方法效果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明。

方法实施例一:

本实施例的城市社区结构挖掘方法,基于全天候遍布城市全域的出租车产生的导航数据,首先通过空间聚类挖掘城市热点区域,并根据聚类特征对城市进行网格划分,在此基础上利用谱聚类算法挖掘出具有紧密关联性的区域,使其构成城市中的社区结构。如图1所示,具体步骤如下:

步骤一:根据出租车导航数据中的载客状态,从出租车导航数据中提取出上、下客点,采用dbscan(density-basedspatialclusteringofapplicationswithnoise)聚类算法对上、下客点进行空间聚类,挖掘居民出行时频繁访问的热点区域,dbscan聚类算法在不用事先确定聚类个数的情况下能够较好地处理全城分布不均匀、不规则的出租车上、下客点的坐标数据。上述dbscan聚类算法还可以采用基于密度的聚类算法例如optics(orderingpointstoidentifytheclusteringstructure)聚类算法进行代替。

步骤二:在挖掘出热点区域的基础上对城市热点区域进行离散化,利用基于距离的k-means算法对热点区域内的上、下客点再次进行聚类,确定每个聚类的中心点。以每个中心点为参照点,对市中心区域进行泰森多边形(也称voronoi多边形)划分,使划分得到的各多边形内的所有样本点离该多边形内的参照点的距离比到其他任何一个参照点距离更短。这种城市区域离散化方法相比其他方法,能准确识别出租车上、下客点密集的热点区域,同时基于上、下客点之间距离的划分策略也使得每个区域很好地保留了出租车轨迹分布的特性,如图2所示。

步骤三:将离散化之后的城市区域抽象成图,如图3所示的社区1、社区2和社区3,图的节点由划分的区域表示,图中连接节点的边由往返于区域之间的出租车行程来表示。将往返于不同区域之间的出租车行程数作为边的权重,行程越多,边的权重越大,边两端节点之间的联系就越紧密。按照上述原则,采用谱聚类算法将具有紧密联系的区域聚集在一起形成社区,而联系较弱的区域则划分到不同的社区。

以上步骤三在城市区域离散化的基础上采用谱聚类算法挖掘社区结构的具体方法如下:

离散化后的城市区域可抽象为由节点和带权重的边所构成的图g(v,e),v表示节点,即出租车上、下客点所在区域,e表示带权重的边,两个区域之间出租车载客行程数作为边的权重。定义区域i和区域j之间的行程数nij:

nij=n{o∈i∩d∈j}+n{o∈j∩d∈i}(1)

其中,o表示上客点,d表示下客点,nij表示区域i,j之间的行程数,即图g中边e的权重。设总共划分的区域数为m,则可以构造一个由nij(i,j=1,2…m)构成的m×m区域之间互相访问频数矩阵v:

其中,i,j=1,2,…m表示各区域编号,由定义可知nij=nji,矩阵v是对称矩阵,该矩阵作为图g(v,e)的表示形式,也称为相邻矩阵,描述了区域之间互相访问的频繁程度,nij越大,对应的区域之间的关联性越强。

将矩阵v通过极差变换进行标准化得到由n′ij(i,j=1,2…m)构成的相邻矩阵v′:

其中,min表示取最小值,max表示取最大值。

利用谱图理论来研究上述相邻矩阵v′,完成以目标函数ncut为准则的划分,即使得目标函数ncut最小化:

其中,a1,a2,…,ak为图中的所有节点,ai为属于特定社区内部的节点,为特定社区之外的节点,为社区内节点与社区外节点之间的权重,为,vol(ai)为同一社区内部节点之间的权重。

图g(v,e)的laplacian矩阵表示为:

l=d-v′(5)

其中,l为laplacian矩阵,d为对角阵,对角元素dii=∑jn′ij。将laplacian矩阵进行标准化后:

l(norm)=d-1ld-1(6)

求取矩阵l(norm)的特征值和对应特征向量,选取最小的k个特征值对应的特征向量构成m×k维的空间,并在此空间中对m个区域节点进行传统的k-means聚类,便可得到由紧密关联的区域构成的k个不同社区。

本发明利用城市中出租车产生的海量导航数据,通过空间聚类挖掘出了城市中居民出行频繁的热点区域,充分利用了出租车运营行为对居民出行活动和城市动态特征良好的感知性,能够在无专家知识的前提下,以无监督的方式自动获取城市社区结构特征,能够为合理的城市功能区域规划和土地资源利用,以及道路交通的建设提供有效的决策手段和参考信息,如图4所示。

方法实施例二:

上述方法实施例一是先从整个城市区域中找到热点区域(市中心区域),只针对热点区域进行社区划分。城市中一般包括市中心区域、郊区,郊区的数据比较分散,无需对其进行社区划分,因此,实施例一只针对热点区域即市中心区域。

与方法实施例一不同,本实施例的城市社区结构挖掘方法,不用划分热点区域,对城市中存在有上、下客点数据的进行社区划分,实现对整个城市社区的划分。包括以下步骤:

1)对出租车导航数据提供的城市上、下客点数据进行聚类,并确定每个聚类的中心点;

2)以中心点为参照点,对城市区域进行泰森多边形划分,实现城市区域的划分,使得多边形内的所有样本点离该多边形内的参照点的距离比到其他任何一个参照点距离更短;

3)将划分后的城市区域抽象成图,图的节点为城市区域的各划分区域,连接节点的边由往返于各划分区域之间的行程表示,根据各划分区域之间的行程数通过聚类算法对各划分区域进行聚类,聚类结果为确定的城市社区。

以上方法实施例一和方法实施例二中提到的城市社区结构挖掘方法,所挖掘出的社区结构,均较为直观的反映居民日常活动的规律以及城市基础设施规划的特点,将城市的动态信息与静态信息综合,为更合理的城市建设,土地资源利用以及准确的居民活动监测提供支持。

对应上述城市社区结构挖掘方法,还提出了基于导航数据的城市社区结构挖掘装置,包括存储器和处理器,以及存储在存储器上并在处理器上运行的计算机程序,处理器与存储器相耦合,处理器执行计算机程序时实现以上方法实施例一或方法实施例二中的步骤。

由于该基于导航数据的城市社区结构挖掘装置,实际上是基于本发明方法流程的一种计算机解决方案,即一种软件构架,可以应用到计算机中,上述装置即为与方法流程相对应的处理进程。由于对上述方法的介绍已经足够清楚完整,故不再详细进行描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1