一种基于doc2vec的地铁站点功能挖掘方法与流程

文档序号:13704462阅读:358来源:国知局

本发明属于机器学习领域,特别涉及基于doc2vec算法及affinitypropagation算法的聚类研究方法,涉及一种基于doc2vec的地铁站点功能挖掘方法。



背景技术:

地铁站点已经是现代化城市重要和不可或缺的部分,它极大地丰富和方便了人们的出行。在一个多元化的城市中,存在着越来越多不同的功能区域,比如商业区、教育区、生活区。而地铁站的建设其目的就是极大限度地连接着这些功能区域。人们每天频繁往返于地铁站点间去参加不同的社交活动,比如工作、购物、上学等等。地铁站的功能发现对城市的建设有着很重要的意义。最初的地铁线路规划通常是以人口流动现状为依据,而后地铁站又进一步改变了人口流动和分布,并促进了各种新的功能区域的形成。

随着机器学习算法的不断发展,研究者们可以处理越来越多复杂的数据和信息,比如现如今扮演重要角色的文本信息挖掘分析和处理,在以前的研究中,最常用的机器学习的聚类算法就是k-means及其衍生算法,但这类机器学习算法都需要实验者输入固定长度的向量集合,doc2vec算法的提出就是为了解决固定向量输入所造成的问题。doc2vec的输入向量可以是不定长的文本,例如可以是一个句子,一个段落等等。这些不定长的文本将组成向量作为输入,用于预测段落中的一个赋有代表性的词。显然doc2vec不同于其他的文本挖掘算法,它不需要像以前的算法为每个词加上权重来表示重要性,也不依赖于语义树的建立。在某些领域,doc2vec的实验效果要比传统的分类挖掘算法的效果好很多。

affinitypropagation聚类所得到的相似度可以是对称的也可以是不对称的。比如根据n个数据点之间的相似度进行聚类,即两个数据点之间的相似度一样,比如欧氏距离。这些相似度组成n*n的相似度矩阵。ap聚类算法不同于经典的k-means聚类算法,其不需要事先指定聚类数目,相反,它通过不断的循环遍历多有的数据点,将每个数据点都看作是潜在的聚类中心,以n*n矩阵的对角线上的数值(x,x)作为x点能否成为聚类中心的评判标准,也就是说,如果这个值越大,则这个点成为聚类中心的可能性也越大,ap聚类中将这个值称为参考度p(preference)。聚类数量受到参考度p的影响,一般来说,p的绝对值越大,则聚类数量越少。



技术实现要素:

本发明的目的是基于目前较新的文本相似度挖掘算法doc2vec对地铁站点数据集进行相似度挖掘,之后使用相对较为稳定的affinitypropagation聚类算法进行聚类以挖掘地铁站点功能。

本发明的技术方案:

一种基于doc2vec的地铁站点功能挖掘方法,步骤如下:

(1)收集地铁站往返客流数据与poi数据;

(2)对步骤(1)收集到的数据进行预处理

a)提取站点唯一名称、每条客流信息往返站点名称及时间、地铁站点经纬信息;

b)合并重复站点名称的往返客流量;

c)将步骤b)整理后的数据按照工作日和节假日两种形式分别存储;

d)再将每日的数据按照客流量划分出几个客流量高峰段分别存储;

(3)进一步处理步骤(2)所得数据集,得到doc2vec算法输入数据

a)将m个工作日数据划分为一类、n个节假日数据划分为另一类,简化输入数据;

b)将数据集中的站点名称用矩阵下标的形式代替,将w个独立站点分别编号,用于作为矩阵下标的依据;

c)针对地铁站点总数量n,构造n*n矩阵pi,并将步骤(2)所得数据集表示在矩阵pi中,其中下标i代表工作日与节假日的总和;某日的某时刻有m个乘客从a站点到达b站点,那么表示在矩阵pi中就是pi(a,b)=m;

d)将工作日的k个时刻点的矩阵分别以列交叉的形式合并,节假日的矩阵采取同样操作;即合并后的矩阵的第一列为第一个矩阵的第一列,第二列为第二个矩阵的第一列,以简化迭代次数和增大doc2vec算法效果;

e)将数据以平均数形式表示,以简化运算量;

f)将地铁站点的poi数据集也加入到矩阵后,作为整体向量输入,以综合考量地理环境因素;

g)将数据分为整体数据、7点到9点早高峰数据、11点到13点中午高峰数据和17点到19点晚高峰四个部分;

(4)基于doc2vec算法进行地铁站相似度挖掘

调用doc2vec算法中的most_similar(n)方法计算站点间的相似度,其中n代表站点数目;分别计算不同条件下站点间相似度结果矩阵,具体包括:

a)未加入poi数据集时,节假日与工作日不同站点间的相似度;

b)加入poi数据集以后,节假日与工作日不同站点间的相似度;

c)早中晚高峰时段加入poi数据集以后,不同站点间的相似度;

(5)基于步骤(4)所得结果进行affinitypropagation聚类并挖掘站点功能

a)根据步骤(4)所得的相似度分析结果,确定聚类数量,其中相似度高的站点归为一类;

b)将地铁站客流数据生成的相似度矩阵和加入地铁站poi数据集以后生成的相似度矩阵分别进行ap聚类;

c)将数据集按照早中晚不同高峰时段分别进行聚类对比;

d)综合考虑上述对比实验结果,挖掘并总结出不同地铁站点的功能。

本发明的有益效果:

(1)将文本挖掘算法doc2vec应用于贴近于实际生活的数据集中,并取得了很好的效果。为之后关于这方面的研究和实验提供了借鉴之道。

(2)将地铁站点按照相似度聚类,并根据实际情况划分得到不同的功能集合。一方面给城市建设者提供一些依据,另一方面人们可以更直观了解各个地铁站以及周边的生活环境,同时也给旅游者提供很多便利。

(3)时间片划分的对比试验发现同一个地铁站可能在不同时段表现出不同的功能性特质,这个结论可以为一些会议,展会,演出的安排者们提供场地区域以及时间安排上的建议。

附图说明

图1是本发明的整体流程图。

图2是本发明所用doc2vec算法dm模型图。

图3是本发明所用doc2vec算法dbow模型图。

图4是本发明实例中上海地铁站点poi热力图。

图5是本发明实例中上海地铁站点节假日客流图。

图6是本发明实例中上海地铁站点工作日客流图。

图7是本发明实例中上海地铁3个站点各个时间点的客流量。

具体实施方式

下面结合上海地铁站点聚类研究实例对本发明进行进一步描述。

本实例中的地铁站点功能挖掘方法整体框架如图1所示,具体包括以下步骤:

(1)收集上海地铁站某个月30天内的往返客流数据集,以及包含地铁站周围环境信息的poi数据集组成初始数据

(2)从初始的两个数据集中筛选出有价值并有利于实验的信息组成输入向量,具体包括如下步骤:

1).提取关键信息,主要包括:

①站点的唯一中英文名称;

②每条客流信息的往返站点名称和时间;

③地铁站点的经纬度信息。

2).合并重复站点往返客流量,重复名称站点大致分为两种情况:

①乘客往返站点相同。

②站点名称相同但所属线路不同。

3).将数据按照工作日和节假日的形式分别存储:

工作日和节假日的往返客流量数据总数相差较大,可能导致同一站点在工作日和节假日表现出不同的功能性。

4).将每日的客流量数据分为整体和几个客流量高峰段分别存储:

工作日存在上班早高峰和晚高峰时段,此时的客流总量要比其他时间段的客流总量高出不少,同样可能导致同一站点在不同时间段表现出不同的功能性。

(3)将处理过的地铁站poi数据和客流数据合并,将总体作为输入数据,例如第n个工作日的i时刻有x个乘客从a站点乘地铁到达b站点,同样的在第m个工作日的i时刻有y个乘客从a站点乘地铁到达b站点,那么我们将工作日日期数据省略,只其合并乘客数量数据,合并结果为在工作日的i时刻有(x+y)个乘客从a站点到达b站点。相似的,我们将节假日的数据也做同样的处理。具体过程如下:

1).将每一个独立站点分别编号,用于作为矩阵下标的依据;

2).针对地铁站点数量构造n*n矩阵p;

3).将工作日的38个时刻点的矩阵分别以列交叉的形式合并,节假日的矩阵采取同样操作;

4).将数据以平均数形式表示,以简化统计和可视化作图工作;

5).将地铁站点的poi数据集也加入到矩阵后,作为整体向量输入;

6).将数据分为整体数据、7点到9点早高峰数据、11点到13点中午高峰数据和17点到19点晚高峰四个部分;

(4)使用doc2vec算法进行地铁站点相似度挖掘,相似度挖掘实验部分主要对比两个方面:一是加入地铁站点poi数据集后是否比只考虑地铁客流量数据集的相似度挖掘结果更加优异;二是早中晚客流高峰和整体客流数据在相似度挖掘结果方面的差异。具体过程如下:

1).poi相似度对比:

实验将分为工作日和节假日单独的客流量数据集和加入地铁站poi的客流量数据集进行挖掘,生成四个d2v文件,其中包含训练结果集合。再分别通过doc2vec算法找到每个站点和其他288个站点(包括它自己本身)的相似度。

2).早中晚客流高峰时段实验对比:

分别提取工作日和节假日的早中晚客流高峰时段(7~9点,11~13点,17~19点)的数据并和加入地铁站poi的数据进行对比。

(5)基于相似度结果,使用affinitypropagation进行聚类分析。将地铁站点的相似度矩阵输入聚类算法中,可以将表现相近的站点聚为一类,这样可以更加直观地对比它们之间的客流量情况,地理位置等客观因素情况来挖掘各部分的独特功能。

具体过程如下:

1).聚类设置:设定实验对工作日和节假日的整体相似度矩阵,分时段的相似度矩阵分别进行分6~10类的ap聚类,并将分类结果汇总进行对比;

2).poi聚类对比:将单独地铁站客流生成的相似度矩阵和加入地铁站poi生成的相似度矩阵分别进行ap聚类,将得到的聚类类别可视化,;

3).早中晚客流高峰时段相似度对比:将早中晚单独的地铁站客流和加入地铁站poi数据集的相似度矩阵分别聚类比较,最后再将其和总体的聚类情况相比较;

4).地铁站功能主题挖掘;本实例中对地铁站的功能主题定义如下:

(1)餐饮服务和住宅区:这是聚类中占有地铁站数量最多的分类,包含餐饮,购物,生活服务,普通住宅,体育中心,医院等一系列关于生活方面的服务。

(2)交通枢纽区:这一类主题所关联的地铁站有个最大的特点就是其占有的各方面poi数值都比较大,即通过这类站点处于各大主题的交汇处,在现实生活中,这类地铁站都处于交通枢纽和平时客流量集中的区域。比如“大世界”,“世纪大道”,“五洲大道”等等。这些地铁站显然在城市中处于中心地位。

(3)工作办公区:顾名思义,这类地铁站周围的公司,政府性机构,公共机构,金融类机构都比较多。在数据集中相关的poi值也呈现较高的状态。这类地铁站包含“浦三路”,“武威路”等等。

(4)地名地址信息:这类主题的地铁站周围都包含着很多有名的地址和区域,比如飞机场,火车站,图书馆,港口,动物园等等。比如“浦东国际机场”,“虹桥火车站”等等就包含在内。

(5)功能服务区:这类地铁站周围包含很多和机动车相关的服务区域,比如摩托车服务站点,汽车销售商店,汽车维修服务,有名的汽车4s店等等。这类站点包括“联航路”和“石龙路”等。

(6)商务住宿区:这类地铁站包含商务性的住宅,酒店,休息区等等。其中包含“云锦路”,“上海大学站”等等。

(7)科教文化区:这类聚类区域包含拥有最大的教育和科学文化研究poi的地铁站点,比如“东川路”和“唐镇”地铁站。

(8)风景名胜区:风景名胜区包含公园,风景区,历史名胜等区域,这些区域拥有相对最大的poi值,比如“世纪公园”地铁站。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1