一种基于交通出行数据的人类出行选择信息挖掘方法与流程

文档序号:20017992发布日期:2020-02-25 10:58阅读:325来源:国知局
一种基于交通出行数据的人类出行选择信息挖掘方法与流程

本发明属于数学建模与信息挖掘,从部分容易获得的某类出行的数据挖掘出人类出行整体需求和出行选择的一些特征。具体方法上涉及数据库技术、参数估计、非线性拟合等。



背景技术:

对人类行为规律的探索长久以来一直是自然、经济、社会等各个学科领域的学者关注的研究方向。人类在现实世界中的活动是以一定的空间为基础的,这种空间的移动我们称为出行。人类出行是人类诸多行为中的一种,与人类的社会、经济、政治的各方面息息相关。了解人类出行的规律和特征,有助于了解人类活动模式,规划城市结构及发展,探索无人驾驶车交互设计方法,研究人类健康问题,开发道路选择及规划软件,进行公共安全管理,探寻信息和传染病的传播方式等。

随着科学技术的发展,学者得以从定量角度分析人类行为的时空规律及其动力学机制,并由此改变了很多对人类行为的传统认识。例如,在时间规律上,过去人们假设人类行为的产生是具有均匀特性的泊松过程,而近年来大量实证结果显示人类行为在很多方面具有明显的阵发和重尾特征,即表现为长时间静默和短时间爆发交织,且时间间隔服从重尾分布。研究人类行为的空间规律在疾病传播、交通流控制、异常行为监测、人口迁移等方面具有重大的理论和应用价值。我们的生活总是处于不断的移动当中。那些我们去过的地方一定程度上可以折射出我们的生活方式和人际关系网络。人类空间移动模式分析及相关预测是移动位置信息研究的一个热点问题。基于移动位置信息的研究将有效地帮助我们进行城市交通规划、预测交通的拥挤程度、控制疾病传播、提高lbs推荐的准确度、有效定点投放广告等。例如,利用用户移动行为数据可以进一步分析用户的个人属性特征、对地点的偏好类型、日常爱好,甚至推断出好友关系,那么就可以进一步提前预测用户可能的轨迹,在目的地点投放可能感兴趣的广告,这样便可以实现精准化的广告营销,提高广告的目标人群覆盖率。进一步利用大量用户的轨迹信息,还可以帮助我们了解城市的交通现状,进行交通拥堵的预先判断,便可提前进行拥堵疏导,避免类似上海外滩践踏事故的发生。有研究还表明,通过研究用户的跳转距离分布,可从新的角度来观察城市的发展,即用户的出行跳转距离可以在一定程度上反映城市的发展情况。

这些研究的基础在于大规模精确数据的获得,以前常用的基于调查问卷的分析研究因为数据获取成本高、数据量少而受到质疑和批判,人们寻找另外的方式来获得出行数据。早在2006年,dbrockmann等人发表文章,他们用美钞流通轨迹近似替代人类移动轨迹,通过对美钞轨迹的统计分析,发现人的旅行距离接近幂律分布,说明人类移动具有类似列维飞行(levyflight)的特征,表示大部分人的日常活动空间范围有限,偶尔去较远的地方旅行,也有少数人在世界各地穿梭游走。近年来,随着信息技术的发展,越来越多的人类行为的数据资料被精确记录,后来通过手机通讯、微博报到的数据都验证了这一点。虽然很多证据表明在很多地方人类的出行分布服从幂律分布,但各个地区的幂律指数并不相同。

关于人类出行的第二个重要问题是交通工具的选择。人类出行的工具并不单一,而是可以有多种选择,例如在较短的距离下选择步行或者汽车(包含公共交通),对于较长的距离则可以选择火车、飞机等。分析研究人类对于交通工具的选择服从什么样的规律也是有意义的,例如指导城市建设,以及为更好地设置公共交通设施等提供现实数据支持。也可以用于在多个城市和地区之间进行比较,引导人们采用更好的交通出行方式。

讨论问题的难点在于获得足够充分有效的数据。传统的方式是采用调查问卷来进行,但这种方式存在着一些显著的缺点,一是成本高,进行访谈和要求受访者填写调查问卷会消耗很多的人力物力;二是耗时多,调查问卷的发放和回收往往具有效率低下的特点;三是可靠程度低,因为记忆的不精确和个人有意无意的瞒报,个人出行信息的收集很难做到精确和准确。

基于部分有效的出行数据来获得人类出行和交通工具的选择是当前研究的一个重要领域。我们设想可以通过比较容易获得的汽车出行数据来分析出行分布和出行选择。由于gps和北斗技术的广泛应用,汽车出行数据非常容易获得,并且具有规模大、客观、精准的特点。本发明将采用数学建模和参数估计和分析的方法来挖掘出行分布和出行选择方面的信息。

主要技术部分分点如下:

数学建模,就是根据实际问题来建立数学模型,对数学模型来进行求解,然后根据结果去解决实际问题。当需要从定量的角度分析和研究一个实际问题时,人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用数学的符号和语言作表述来建立数学模型。数学是研究现实世界数量关系和空间形式的科学,在它产生和发展的历史长河中,一直是和各种各样的应用问题紧密相关的。数学的特点不仅在于概念的抽象性,逻辑的严密性,结论的明确性和体系的完整性,而且在于它应用的广泛性。自从20世纪以来,随着科学技术的迅速发展和计算机的日益普及,人们对各种问题的要求越来越精确,使得数学的应用越来越广泛和深入,特别是在21世纪这个知识经济时代,数学科学的地位会发生巨大的变化,它正在从国家经济和科技的后备走到了前沿。经济发展的全球化、计算机的迅猛发展、数学理论与方法的不断扩充,使得数学已经成为一种能够普遍实施的技术。将实际问题抽象为数学模型需要研究者具有很强的系统抽象能力。

参数估计,统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。我们需要考虑如何根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等做出合理的推断。基于最小二乘的非线性拟合是参数估计方法的一种。具体过程就是寻找到合适的参数,让模型得到的结果和真实的数据结果具有非常高的一致性。最小二乘指的是让真实数据和一定参数情况下模型产生的理论数据之间的差异的平方和最小。这个差异通常称为残差。

参数分析和应用,数学建模和参数估计只是手段,其目的在于将获得的结果应用到现实世界,这方面需要对于现实有敏锐的洞察力,能够对参数的含义进行实际背景的阐释。在一些情况下,还可以设定不同参数观察模型的模拟结果,并进行仿真实验,讨论一些政策的实施会在系统中产生什么效果。



技术实现要素:

本发明基于数学建模和参数估计方法,通过汽车出行数据来挖掘获知人类出行和出行选择方面的信息。主要包括提出一个通用的考虑个体效用优化的交通选择模型,以及和模型对应的参数估计和分析方法。基于交通选择模型,利用容易获得的汽车等交通出行数据,采用非线性拟合的方法,估计人类的总出行需求的分布形式以及在步行、汽车和飞机等交通工具中进行选择的选择特征,分析结果具有较大的实际应用价值。

本发明基于数学建模和参数估计和分析进行数据挖掘,包括以下步骤:

步骤1.建立通用的交通选择模型;

步骤2.收集数据,进行参数估计;

步骤3.参数分析、比较和应用。

步骤1.建立通用的交通选择模型

1-1)假设人类出行距离分布,一般用幂律分布,或其他合适的分布;

1-2)设定不同距离下不同交通工具的效用函数;

1-3)根据效用函数确定不同交通工具的选择概率;

1-4)将出行距离分布和交通交通工具选择概率结合起来,得到交通选择模型;

步骤2.收集数据,进行参数估计

2-1)收集整理数据;

2-2)将数据和模型结合起来,利用非线性拟合的方式获得模型中的各个参数;

2-3)有多套数据的时候,重复上面的操作;

步骤3.参数分析、比较和应用

3-1)根据参数,解释出行分布特征和出行方式的选择;

3-2)根据参数和解释,协助制定更好的交通设施建设规划;

3-3)当有多套数据时,进行比较。

有益效果

1、相较于以往采用调查问卷的方法,本方法具有获得数据成本低、时效快、精准度高的特点。

2、基于可靠的模型,可以挖掘出隐藏的总的出行和出行选择信息。这部分信息难以直接获取,但是在城市规划管理等方面具有重要意义和价值。

3、这个模型和方法具有一般性,可以应用于不同城市和地区,也可以容易扩展到其他交通方式,甚至其他的人类选择行为研究中去。

附图说明

图1基于汽车出行数据的人类出行选择信息挖掘技术流程图;

图2交通选择模型框架图;

图3基于估计得到的参数得到的模型数据与真实数据的对比。

具体实施方式

下面结合附图具体说明本发明技术方案,以步行、汽车和飞机三种交通方式及某个城市的汽车出行数据为例对本发明的技术方案进行详细说明:

本发明思路是基于个体效用和选择优化理论建立多交通工具的选择模型,然后结合具体的一个城市、地区或者国家的汽车出行数据,用非线性拟合的方式获得模型的参数估计结果。最终还要对参数的实际含义做出解释和应用。

本发明方法的基本流程如图1所示,具体包括以下步骤:

步骤1.建立一个通用的交通选择模型

基于在一定路程下不同交通工具对个体的效用以及个体的优化选择建立交通选择模型。具体过程如下:

假设个体出行仅有三种交通方式供选择:步行、开车和乘飞机,出行效用ui由观测效用项vi和随机效用项εi组成,vi包括交通费用,花费时间,也包含舒适的行程体验等相对稳定可预测因素,而其他随机效用项εi包括天气等随机不可观测或者预测的因素,将其统一约化为时间;

一种交通方式的行程时间越长,其产生的效用就越低,因此出行效用与时间呈负相关关系;假设每种交通方式的时间成本由两部分组成,固定成本ci与实际行程的时间成本,因此效用函数表示为:

其中,

x表示出行距离,vi表示该种交通方式的速度,其概率分布函数和概率密度函数如下所示:

其中γ在本模型中表示出行者的理性指数,γ趋于0时出行者对与交通工具的选择更加随机;

根据消费者效用最大化理论,出行者会选择具有最大效用的交通方式,因此选择某种交通方式出行的概率,即为该交通方式有最大出行效用的概率;在3种交通方式中,出行者选择第2种交通方式出行,是因为这种方式的收益最大,其概率为:

因为选择不同交通方式的不确定效用是随机因素导致的,假设ε1和ε3独立,结合前述ε的分布函数,得出行者选择第2种交通方式的概率为:

假设整体出行的分布服从幂律分布p(x)=ax,出行需求与出行交通方式选择独立,则汽车出行的距离分布表达式:

其中,此式剔除了选择步行和乘飞机出行的情况,仅代表汽车出行条件下的出行距离分布。

模型构建大致过程如图2所示。

步骤2.收集数据,进行参数估计;

通过不同手段收集汽车出行数据,包括出租车数据、汽车出行数据等。

以意大利城市都灵的数据为例,与幂律分布相比较,概率密度在短距离和长距离出行时小于理论值,中等距离时拟合较好.实际生活中,在出行距离较短时,考虑到停车等所需要的固定时间成本,人们大概率选择步行前往目的地;在出行距离较长时考虑到出行时间过长的问题,人们倾向于选择飞机等更高速的交通方式,反映在概率密度分布图像中就表现为曲线两端向内弯折.

基于模型(6),对数据采用最小二乘法非线性拟合获得参数。

其中,d(x)为真实获得的汽车出行分布数据,寻找一组参数a,α,γ,c21,η21,c23,η23,使得上式最小。

实际数据及模型的拟合数据如图3所示。

步骤3.参数分析、比较和应用

α表示人类出行距离分布的幂律指数,这个数值通常范围在2左右。这个值越大说明人类出行距离比较一致,越小说明出行距离非常不一致,大部分出行需求集中在小距离范围,很大距离的出行需求概率很低。

c21表示开车与步行的固定成本之差,这个值越大,说明开车相对步行越不值得,人们更愿意采用步行的方式,相反若这个值越小,说明大家不愿意步行,而更愿意开车,对于停车场更多、交通更加便利的城市这个值将会更小一些。

开车与乘飞机的固定成本之差c23,这个值越大说明大家更加愿意坐飞机,越小说明大家更愿意开车出行,当机场设施建设好的时候这个值将会变大。若这个值较小,说明需要加强机场建设。

开车与步行的速度倒数之差η21,开车与飞机的速度倒数之差η23。这个值可以反映出城市的交通情况,若总是堵车,则这两个值会变大。

如果收集到多个城市的数据,就可以比较不同城市的交通情况和人们出行需求的差异。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1