一种基于多源城市数据的出行共现现象可视化分析方法与流程

文档序号:13513100阅读:757来源:国知局
一种基于多源城市数据的出行共现现象可视化分析方法与流程
本发明属于城市移动数据分析
技术领域
,尤其涉及一种基于多源城市数据的出行共现现象可视化分析方法。
背景技术
:随着城市交通的快速发展,随之产生了大量的移动数据,这些移动数据具有丰富的时间属性、空间属性,通过这些属性能够真实的反应城市人类移动状况。出租车作为城市移动交通的重要组成部分,为城市居民出行提供极大便利。根据出租车轨迹数据可以发现城市中具有某种规律的出行模式,这种发现对了解城市结构有着极为重要的意义。我们将共现现象定义为:如果来自区域a和区域b的人在同一时间间隔内访问区域c,我们称“区域a和区域b在区域c共现”。我们可以说区域a和区域b参与了一个共现事件。一个城市中发生的所有共现事件的规律就是我们的分析主题-共现现象。基于共现现象的分析,我们可以获取到城市规划,商业策略制定,接触性传染病传播等方面的有价值的信息。路网数据是城市研究中最常用的地理数据,通常通过图的方式呈现。图中节点表示交叉路口,具有唯一的地理坐标;边表示路段,连接两个节点;其他属性,如长度、速度限制、道路类型、车道数等,都与边相关。兴趣点(pointofinterest,poi)数据(例如餐厅、商场)通常由名称、地址、类别和地理坐标所组成,概括地介绍了各地理单元的基本属性,该类数据主要通过地图数据提供商通过人工进行标识或者网民在开源在线地图网站自由编辑得到。然而出租车轨迹数据的庞杂和抽象造成从这些数据中挖掘信息并不容易,而可视化技术结合可视图表的展示形式和人机交互,操作简化分析过程,用户通过交互修改分析模型的参数,从而生成新的可视化结果,经过可视化分析,能够从出租车轨迹数据中挖掘更多有价值的信息。本方法采用了城市出租车轨迹数据,路网数据和poi数据,旨在利用多源城市数据从多方面来共同探索出行共现现象,挖掘该现象所隐藏的价值。技术实现要素:本发明的目的主要针对上述数据分析的不便之处,提出一种基于多源城市数据的出行共现现象可视化分析方法。基于路网数据对区域进行划分,通过对出租车轨迹数据处理,提取出能够反映区域间联系的共现数据;结合城市poi数据挖掘区域功能,并最终对共现结果和区域功能挖掘进行可视化展示。为了解城市结构提供有效信息。本发明的技术方案:一种基于多源城市数据的出行共现现象可视化分析方法,步骤如下:s1:对原始数据进行预处理s1.1:出租车运营轨迹数据的清洗以及出租车基础数据的规范化处理;s1.2:原始poi数据的清洗以及对poi数据规范化处理;s2:对步骤s1预处理得到的数据进行时间,区域划分s2.1:时间划分:根据行车规律特征,将一天划分为t个时段;s2.2:区域划分:根据城市道路路网,将城市空间划分为r个区域;s3:对步骤s2划分后的数据进行区域功能挖掘s3.1:区域功能划分,将城市区域功能归类为f类s3.2:计算每个区域中各类poi出现的频率,使用符号tfi,j表示在区域ri中第j类poi数据出现的频率,计算公式如下所示:其中,ni,j代表区域ri中第j类poi的数量,f表示poi的类别数;s3.3:计算第j类poi数据的逆文档频率,使用idfj来表示,其中r表示区域总数量,计算公式如下:s3.4:tfi,j与idfj相乘即是区域ri对第j类poi的tf-idf值,表示区域的静态功能分布状况,计算公式如下:tf-idfi,j=tfi,j×idfjs3.5:运用lda主题模型算法对步骤s2中的od数据进行主题挖掘,最终结果使用进行表示,它表示区域ri的动态功能分布,其中zi,k表示第k类区域功能在区域ri的占比;s3.6:计算区域ri和区域rm之间的动态功能相似度,记为λi,m,cos表示向量间余弦值,计算公式如下:s3.7:定义如下的代价函数j,也即目标函数,表示区域真实执行的功能状况与其表现在静态和动态两方面现象的偏差,并计算出代价函数的最小值,代价函数公式如下:其中,r代表区域总数量,代表区域ri的真实功能分布,也是最终所求,代表区域rj的poi分布状况;s4:对步骤s2划分后的数据通过关联规则挖掘算法挖掘共现事件s4.1:对步骤s2所述的数据进行共现事务提取;s4.2:对s4.1提取到的数据通过关联规则apriori算法挖掘频繁项集;s4.3:对步骤s4.2得到的数据进行相关性统计量计算,区域a和区域b之间的各相关性统计量支持度support,置信度confidence,全置信度all_confidence,最大置信度max_confidence,提升度lift,kulczynski度量kulc,不平衡比ir,以及余弦cosine计算公式如下,其中p表示概率:support=p(a∪b)s5:可视化展示共现结果s5.1:根据s3.7中计算得到的区域功能图,使用不同的颜色在地图上标识不同的区域功能;s5.2:根据s4.2中挖掘到的频繁项集绘制全局共现现象地图,地图基于共现关系和共现参与度两个方面进行绘制;s5.3:根据s4.2中挖掘到的频繁项集绘制区域共现环形热图,环形热图着力于分析区域和区域之间的共现规律;s5.4:根据s4.3中计算得到的统计量数据绘制平行坐标图,平行坐标图以指标来衡量两个区域之间的相关性。本发明的有益效果:本发明能够利用多源城市数据:出租车轨迹数据,城市路网数据,poi数据,对区域共现现象及城市区域功能进行全方面多角度地可视化分析探索,为城市交通规划提供有效信息,具有便于分析数据内在关联、可操作性强等特点。附图说明图1为本方法的结构图;图2为一种基于多源城市数据的出行共现现象可视化分析方法的数据处理流程图;图3为一种基于多源城市数据的出行共现现象可视化分析方法的区域划分图;图4为本发明实施案例利用上海2015年4月的出租车数据进行共现挖掘后的共现事件全局可视化效果;图5为本发明实施案例利用上海2015年4月的出租车数据进行共现挖掘后的共现热度全局可视化效果;图6为本发明实施案例利用上海2015年4月的出租车数据进行共现挖掘后的区域共现热度局部可视化效果;图7为本发明实施案例利用上海poi数据和2015年4月的出租车数据进行区域功能挖掘的可视化效果;图8为本发明实施案例利用上海市2015年4月的出租车数据进行共现挖掘后的区域相似性统计量分析可视化效果。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式作进一步的详细描述。本发明实施例提供了一种基于多源城市数据的出行共现现象可视化分析方法,系统流程如图1所示,数据处理流程如图2所示,该方法包括:s1:在原始数据集的基础上提取出有用的数据,步骤如下:s1.1:其中出租车运营轨迹数据的清洗针对的是2015年4月1日至2015年4月30日共30天的上海出租车轨迹数据。基于对共现现象的研究,很明显,我们需要载客出租车的od数据,因此需要从原始数据集中提取出载客的出租车上下车时间,上下车地点经纬度,od数据所拥有的属性包括,如表1:表1由于原始数据集中使用的距离为直线距离,但城市的道路基本是规整的,经过对城市中距离的进一步分析比较,我们抛弃原始的距离,并根据原始的经纬度计算两点的曼哈顿距离。出租车在不载客时会放慢速度来寻找乘客,对城市移动规律影响很小,因此我们选择筛掉空载的行车轨迹,显著地减小数据量,方便后续分析计算。提取后的数据属性如下表:表2数据提取之后发现其中有一些轨迹其所用时间很长,但路程很短,这种数据我们判定为异常数据,清洗办法是计算平均速度,将速度过小的删除掉。平均速度的计算方法为曼哈顿距离/行驶时长;其中行驶时长由乘客上下车时间计算,曼哈顿距离由经纬度计算,之后数据集中增加了以下属性:表3编号名称注释9interval行驶时长10speed平均速度s1.2:原始poi数据的清洗主要是从原始数据中提取有用信息,并纠正一些分类错误的数据,同时要保证记录的完整性,提取信息如表3所示。表4编号名称注释1编号取值为0-110769,唯一标识一条poi数据2名字poi数据的名字3纬度poi的gps纬度4经度poi的gps经度5三级目录poi类别的三级目录s2:针对s1所得的数据,需要对数据进行时间划分和区域划分,步骤如下:s2.1对数据进行时间划分步骤如下:通过统计每个od的行驶时长,通过统计规律来确定划分时间的时长。为此我们统计了4月4日至4月10日共一周的行驶时长,通过统计可以发现大约85%的od其行驶时长在30分钟以内,因此我们选取30分钟为时间划分的长度,这样将一天划分为48个时区,并设0:00到0:30的编号为0,以此类推,23:30到0:00的编号为47。每个od以乘客上车时间计算其所属时间片。此时在数据集中增加属性label_time[0-47]表示该od所属时间片。表5编号名称注释11label_timeod所属时间段编号s2.2对数据进行区域划分步骤如下:区域划分即将整个研究区域划分为不同的区域,这样可通过出租车od映射到城市区域之间的od,能直观的呈现出共现现象在城市空间上的分布规律。为达到以上目的,我们的算法必须有两个功能:1)对城市空间进行平面上的区域划分,并对每一个区域进行编号;2)能通过给定一个经纬度将其映射到所划分的区域中。我们知道,城市道路是城市规划建设的,其将城市划分为规整的区块,并且这些区块往往会呈现出城市功能上的偏向,也就是区块聚集着相似的功能点。因此通过城市道路对城市进行空间上的区域划分是合理的。我们选取上海市n31.15-n31.37,e121.31-e121.84范围的城市二级及以上城市道路用于对以上范围进行区域划分。具体步骤如下所示:1)对图片进行膨胀处理,将道路交叉之间的细小间隙除去;2)对膨胀后的图片进行细化处理,将道路的宽度细化为一个像素;3)对细化的图像进行编号,算法对每一个像素进行编号,处于同一个区域的像素具有相同的编号;4)对编号的图像将代表道路的像素去掉,处理方法是将其编入相邻的区域中;通过以上的处理,我们获得了上海市的区域划分数据,此次划分共将上海市划分为541个区域。划分效果如图3所示。之后我们要为s1中的初始od数据添加起始和终止区域编号两个属性,为每一条poi添加区域编号属性。表6编号名称注释12label_startod起始区域编号13label_endod终止区域编号s3:针对s2所得到的数据,完成区域功能的挖掘,步骤如下:s3.1:区域功能划分,将区域功能归类为6类(住宅、工作、教育、商业、公共、服务和景点),每一条poi数据根据三级目录会归类到某一类别中。s3.2:计算每个区域中各类poi出现的频率,使用符号tfi,j表示在区域ri中第j类poi数据出现的频率,计算公式如下所示(ni,j代表区域ri中第j类poi的数量,f表示poi的类别数):s3.3:计算第j类poi数据的逆文档频率,使用idfj来表示,其中r表示区域总数量,计算公式如下:s3.4:tfi,j与idfj相乘即是区域ri对第j类poi的tf-idf值,表示区域的静态功能分布状况,计算公式如下:tf-idfi,j=tfi,j×idfjs3.5:区域od数据的整合,相比于以半小时作为时间片信息,根据行车规律以不定时间整合od数据更加符合真实情况。表7展示的是工作日的时间划分,表8展示的是休息日的时间划分。表7峰段起始时间终止时间102:30:0004:29:59204:30:0007:29:59307:30:0010:29:59410:30:0014:59:59515:00:0016:59:59619:30:0002:29:59表8以某一区域为基准,时间为列(共有18个时间段,区分od流入流出),其他541区域为行,得到一个541*18的矩阵,可以得到541个这样的矩阵。之后合并这541个矩阵得到一个541*9738(541*18)的矩阵,记做矩阵d;s3.6:运用lda主题模型算法对s3.5中得到的矩阵d进行主题挖掘,最终结果使用进行表示,它表示区域ri的动态功能分布,其中zi,k表示第k类区域功能在区域ri的占比;s3.7:计算区域ri和区域rm之间的动态功能相似度,记为λi,m,cos表示向量间余弦值,计算公式如下:s3.8::定义如下的代价函数j,也即目标函数,表示区域真实执行的功能状况与其表现在静态和动态两方面现象的偏差,并计算出代价函数的最小值,代价函数公式如下(r代表区域总数量,代表区域ri的真实功能分布,也是最终所求,代表区域rj的poi分布状况):s4:针对s2所得的数据,通过关联规则挖掘算法完成共现事件的挖掘,步骤如下:s4.1:提取事务。根据数据集中的label_start,label_end,label_time提取事务,此时的事务表示在同一时间段之内达到同一区域的区域编号,即:selectlabel_startwherelabel_time=0andlabel_start=1上面的语句提取出一个事务,这样每个时间段内将有541条事务;s4.2:对s4.1提取到的数据通过关联规则apriori算法挖掘频繁项集,具体步骤如下所示:1)给定支持度阈值q。支持度阈值是告诉算法什么项集记为频繁项集,凡支持度计数不小于支持度阈值的项集为频繁项集;其中支持度是项集中的项同时出现在一个事务中的事务数。而频繁项集即为挖掘的共现事件。2)挖掘出频繁1项集。频繁1项集是项为1的频繁项集。方法是遍历所有事务,统计所有项出现在事务中的事务数,将计数>=q的1项集标记为频繁1项集。3)挖掘频繁n项集。通过频繁n-1项集两两合并得出候选项集,在扫描事务,检查候选项集的支持度是否>=q,是则标记为频繁n项集。4)循环挖掘频繁n项集,直到n项集没有频繁项集结束循环。5)将挖掘到的共现事件按日期存入文件,并通过时间标记,存入频繁项集及其支持度计数。s4.3:相关统计量的计算,代表含义及计算公式如下所示:支持度,表示区域a与区域b发生共现的次数在总事务中的占比,其中p表示概率。即support=p(a∪b)2)置信度,表示区域b与区域a发生的共现事件与区域a参与的共现事件的占比,此时称为a->b的置信度。即3)全置信度,置信度与置信度的较小值。即4)最大置信度,置信度与置信度的较大值。即5)提升度lift,提升度表示含有a的条件下,同时含有b的概率,与不含a的条件下却含b的概率之比。表示区域a与区域b之间的相关性,当提升度lift大于1,表示两个区域正相关,若小与1,表示两个区域负相关,若等于1,则表示两个区域不相关,独立。即6)kulc,置信度与置信度的平均值。即7)ir,置信度与置信度的比值。即8)cosine,表示区域a与区域b发生共现的概率与a,b发生的概率的几何平均值的值。即s5:针对s3,s4挖掘所得的数据,进行可视化展示,步骤如下:s5.1:根据s3.7中计算得到的区域功能图,使用不同的颜色在地图上标识不同的区域功能,如图4和图7;s5.2:根据s4.2中挖掘到的频繁项集绘制全局共现现象地图,地图基于共现关系,如图4,和共现参与度,如图5,两个方面进行绘;s5.3:根据s4.2中挖掘到的频繁项集绘制区域共现环形热图,环形热图着力于分析区域和区域之间的共现规律,如图6;s5.4:根据s4.3中计算得到的统计量数据绘制平行坐标图,平行坐标图以指标来衡量两个区域之间的相关性,如图8。以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1