基于D-error有效设计的多模式交通出行问卷调查设计方法与流程

文档序号:15493734发布日期:2018-09-21 21:11阅读:1137来源:国知局

本发明涉及问卷调查设计方法,尤其是涉及基于d-error有效设计的多模式交通出行问卷调查设计方法。



背景技术:

居民出行行为分析及需求预测是进行交通系统规划和交通系统管理的基础。出行方式选择是出行行为中最基本的选择行为,出行方式选择的分析和预测是交通规划的主要内容之一。

出行行为分析的基本理论有消费者行为理论、随机效用理论以及前景理论。logit模型是最早的离散行为选择模型,也是目前应用最广的模型。

有效的出行行为数据是分析出行者选择行为与特性的基础。数据收集的调查方法、设计方法对最终收集数据的有效性有着重要的影响。sp(statedpreference)和rp(revealedpreference)调查通常被用来收集关于交通出行行为的影响因素以及每种因素的影响程度大小等相关行为数据。sp调查,又称为意愿调查,其原理是预先确定各属性参数及其水平,通过一定的设计方法将这些参数和水平组合成不同的情境,再由情境构成备选方案提供给被调查者,通过他们的选择数据来了解其对各方案的偏好情况。rp调查方法则是对已执行的实际出行数据进行调查,具有很高的现实性。但实际操作过程中,研究者希望得到的多种因素并不能通过实际测量得到,因此适用性较低。涉及到多模式交通网络和组合出行的复杂场景调查场景,rp并不适用。采用sp调查方法,需要进行问卷设计,其设计步骤主要包括以下:

(1)确定研究问题及调查目的

出行行为sp调查的目的是为了获得出行者行为选择数据,从而帮助理解特定的交通行为特征,因此调查内容、调查手段等各方面内容都直接受研究目的影响,确定研究问题和调查目的是调查设计的第一步。

(2)确定影响因素

交通行为相关的问卷设计第二步是确定主要的研究影响因素,剔除影响不显著的因素,并结合实际情况和调查目的、调查原则确定相关属性的水平数和水平值。

多模式交通网络是指存在多种交通方式,且交通方式之间存在相互联系的交通网络。已有研究表明除了行程时间和出行费用,行程时间可靠度(traveltimereliability,ttr)和车内拥挤度(crowding)是影响公共交通服务水平的两大主要因素。出行者对这两个因素的评估主要依赖于主观感受,而容易产生主观感知的差别。例如,出行者会高估在火车站的等待时间而低估相同的小汽车延误。在多模式出行方式选择模型有必要考虑多种影响因素,以精确描述多模式交通网络中出行者方式选择行为,避免交通规划中需求预测失准和公共交通设施运营先天不足等问题。

(3)确定试验设计方法

sp调查的问卷设计对结果有效性有重要影响,尤其当涉及到不易表达的影响因素时。试验设计方法的优劣会影响场景组合设计的数量和组合效率,也会影响最后调查数据的有效性。试验设计方法可分为两大类:全因子试验设计和部分因子试验设计方法,全因子试验设计需要罗列所有的属性及其水平值的组合配对情况,虽然能够覆盖所有的信息,但对于属性和属性水平较多的情况,这种方法对于复杂场景的调查实际操作性很差,场景数可达几十万个。为了减少试验量,可以采用部分因子试验设计方法,即以一定的原则挑选水平组合场景,常用的部分因子试验设计方法有正交设计、均匀设计、有效(efficient)设计、随机试验设计。

传统的设计方法主要包括全因子设计和部分因子设计,但这些设计方法没有考虑属性间的相关性问题,由此会带来多重线性问题,导致模型精度的降低,甚至是产生错误的结果,之后兴起的正交设计能够有效规避属性间相关性问题,并有效减少问卷组合数据,因此正交设计得到了较为广泛的应用,但是其在统计上并不是最有效的设计。

从出行行为模型的标定过程以及统计学角度出发,sp调查的试验场景应该要使每个选择项的属性参数信息最大化,并保证场景设计在最后数学模型中的统计有效性最高。传统的正交设计并不能保证以上效果。

(4)形成完整的sp调查问卷

在确定选择肢属性和水平组合情境后,以被调查者容易理解的方式表现问卷设计内容,也可增加其他调查内容,例如个人属性信息等。形成完整的问卷设计内容后,为确认该调查的适用性可先进行预调查,根据调查结果进行修改,最后进行更大规模的调查。

多模式交通网络是指存在多种交通方式,且交通方式之间存在相互联系的交通网络。影响多模式交通系统中居民出行的主要因素一般有:出行者性别、年龄、职业、家庭属性、出行属性、出行费用、时间以及可靠度等。由于现有设计方法均存在一定的统计学缺陷,且大多数研究未将多模式交通系统考虑在内。同时由于城市多模式交通的发展,出行选择行为的复杂性提升,随之带来sp场景设计组合数量的巨大增加,因而提高筛选组合的效率十分必要。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于d-error有效设计的多模式交通出行问卷调查设计方法,融合多种交通方式和多影响因素,以行为模型中参数估计的误差最小为最优化目标,效用均衡原则为约束条件,同时考虑问卷设计的正交性、水平均衡性和最小重叠性,从而能得到综合考虑复杂场景和具有较高统计有效性的设计结果。

本发明的目的可以通过以下技术方案来实现:

一种基于d-error有效设计的多模式交通出行问卷调查设计方法,包括以下步骤:

1)预调查收集出行行为信息及开展预处理分析;

2)设定多模式交通出行选择行为模型假设、影响因素与参数水平值;

3)基于d-error有效设计和平面设计原则的出行选择交通场景构建;

4)出行选择行为调查问卷形式及内容设计。

所述的步骤1)中,需要通过进行预调查收集正式设计中需要的诸多信息,例如问卷应当包含哪些交通出行模式(选择项),各个选择项应当包含哪些属性,以及属性参考值和表现形式等。预调查可采取网络问卷调查平台和现场一对一调查两种方式。根据研究目的确定调查对象人群(例如通勤、娱乐等)。对回收的有效问卷进行简单分析,并结合实际情况确定问卷的表达形式(图形或文字描述等)。

所述的步骤2)具体包括以下步骤:

21)依据城市综合调查数据结合实际访谈与预调查结果,确定主要的研究影响因素,剔除影响不显著的因素,并对各种属性的水平值进行确定。参数水平数以及相应的水平值设定应该符合实际,以确保所设计的实验场景不脱离实际情况。为解析多模式交通网络环境下出行者的方式选择行为,在场景中应囊括常用的多模式系统下交通方式(如小汽车、地铁、公交和停车换乘等);且每种交通方式考虑相应的主要影响因素(出行时间、行程时间可靠度、车内拥挤度和出行费用等)。

22)对所研究的行为模型进行设定,确定模型假设条件。选择适合的行为模型(例如多项logit模型(multinomiallogitmodel,mnl),巢式logit模型(nestedlogitmodel,nl),或是混合logit模型(mixedlogitmodel,ml))以及假设相应的效用方程(例如属性的线性组合等,或是否含有交叉影响因子)。

23)计算最小实验场景个数。基于d-error有效设计理论的基础数学模型,设计场景数只要不少于(参数个数/(属性值-1)),可以得到较为合理的设计结果。具体设计场景数需要根据实际研究目的与调研情况而定。

24)确定模型的先验参数值

在基于d-error有效设计的实验设计中,要求有相对准确的先验参数值估计值β~,即对模型中参数的初始设定。获得先验参数值β~可以通过参考国内外的相似研究,也可以进行一次小规模调查来对各个属性的参数进行初始估计。先验参数的假设可以不必特别准确(例如价格参数设为-0.4),也可以利用贝叶斯方法假设参数服从一定的分布(例如价格参数可以假设为以-0.4为均值,0.2为标准差的正态分布形式)。

所述步骤3)中主要解决对于多模式交通系统,在多影响因素、多属性水平情景下,从组合得到的大量场景筛选出最有意义的实验场景的问题。主要分为水平均衡、正交设计、最小重叠设计以及满足效用平衡原则的基于d-error的有效(efficient)设计的内容。

具体包括以下步骤:

31)生成初始设计矩阵,满足水平均衡、正交性和最小重叠性要求

生成初始的设计矩阵,满足水平均衡、正交性和最小重叠性要求。水平均衡要求数据集中所有的属性水平出现机会均等,正交性则要求属性水平组合存在特定的相关模式,最小的水平重叠追求在同一组试验场景中属性水平重复概率尽可能小,避免通常属性水平值出现在对比的选项中以保证场景对该属性重要性估计的有效性。我们可以利用水平平衡、正交性和最小重叠性三个准则来生成最小化d-error的选择设计方案。

32)满足效用平衡原则的基于d-error的有效(efficient)设计

d-error是衡量efficient设计的有效性指标,d-error越小,模型参数估计的误差越小,随之精度越高,意味着场景设计更有效。d-error可表示为实验设计矩阵和所需标定的参数的函数,计算式如下:

ω=-h-1

其中,k为试验设计中需要标定的参数水平的数量,ω为渐近协方差矩阵,h为行为模型的对数似然函数l的hessian矩阵。以multinomiallogit模型为例,对数似然函数l、hessian矩阵h中的元素计算公式如下:

式中,为受访者n在选择i1方式的k1属性的水平,为i1方式的k1属性的参数,为受访者n选择i1方式的概率,jn为n个选择肢的集合,当选择肢j被选择时,yni为1,否则为0,pni为选择概率,按照如下方法求得:

多项logit模型(multinomiallogitmodel,mnl)是以效用最大化理论为基础,在所有选择肢中出行者总是选择效用最大的方式,出行者n选择第i种方式的概率为:

式中,cn为所有出行方式选择的集合;xni为出行方式i所有的属性;θ为属性所对应的估计参数,属性为效用函数中存在的影响因素,vni为出行方式i的效用函数。

通过下式计算实验场景的效用平衡指标bs。考虑一个实验场景s有j个选择肢。pjs为场景s中选择肢j被选择的概率。如果所有的j个选择肢被选择的概率都完全相同,那么pjs=1/j:

然后计算总体效用平衡指标b,计算公式为:

其中,s为场景数,bs为第s个场景的效用平衡指标,j为场景中的选择肢个数,pjs为第s个场景中选择肢j被选择的概率。

以有效性指标d-error最小为目标,满足效用平衡原则条件(效用平衡指标值在范围在70-90%之间)为约束,利用合理的算法结合31)中初始设计筛选出满足效用平衡原则的基于d-error有效设计的场景。

求解方法可以通过改变属性水平的组合得到efficient最优设计。一般来说,分为基于行的算法和基于列的算法。其中modifiedfederovalgorithm算法是被最广泛使用的基于行的算法。rsc(relabeling,swapping&cycling)算法是经典的基于列的算法。利用ngene软件也可以帮助算法实施。

所述步骤4)中,具体包括以下步骤:

41)展现一张包含多模式交通系统中可选交通方式的通勤方式示意图,对影响因素进行解释。

42)利用平面设计原则可视化选择场景:

平面设计原则是指透过多种方式来创造和结合符号、图片和文字,由此用来传达讯息的视觉表现方法。以被调查者易于理解的方式展示各个场景中的内容确保被调查者不会遗漏交通方式或关键影响因素信息,例如可考虑减少文字信息,图示属性的分布减少被调查者阅读与思考时间。

43)设计基本信息调查项:通勤信息包括通勤距离,通勤常用交通方式,出发和到达时间限制,常用费用等;社会经济属性包括年龄,性别,收入,工作,教育程度,是否拥有私家车等。

与现有技术相比,本发明具有以下优点:

1、原创性:多模式交通网络涉及到多种交通方式与多种影响因素,分析其中出行选择行为尤其复杂。众多研究表明d-error有效设计理论能够有效的提高sp调查场景的获取信息效率,能够在较小的试验量下获得较大的调查信息,对于复杂场景的sp调查设计均有巨大应用优势,因此利用d-error有效设计设计理论研究多模式交通网络行为具有较强可行性。本发明创新性地提出了一种基于d-error有效设计的多模式交通行为调查设计方法。

2、科学性:本发明提出的基于d-error有效设计的设计方法具有“水平均衡(levelbalance)、正交性(orthogonality)、最小的重叠性(minimumoverlap)和效用平衡(utilitybalance)”特性,能够科学地解析多模式交通出行行为机理,对于提高问卷设计效率与模型统计有效性、减少样本量与实验误差具有重要意义。

3、实用性:本发明基于d-error有效设计理论提出的多模式交通出行行为调查设计方法,适用于各种类型城市多模式交通系统,且设计方法具有普适性,应对多模式交通系统中大规模复杂场景具有较高的计算效率,使得设计方法的实用性增加。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

实施例

本实施例研究设计了上海市通勤出行行为调查,结合上海市多模式交通发展现状,以停车换乘(parkingandride,p&r)、地面公交、地铁、私人汽车四种主要通勤交通方式对出行者出行行为进行解析。

步骤一:预调查收集出行行为信息及开展预处理分析;

预调查采取了网络问卷调查平台和现场一对一调查两种方式。对回收的有效问卷进行了简单分析,并结合实地一对一调查的交流发现以图形的形式表示行程时间可靠度更易被理解。实际调查显示过多的数字与文字描述会让被访者忽略众多信息。由此,本项目最后决定以图形代替文字的形式,在场景中直接将行程时间分布呈现给被调查者,即以6~7个柱形图来反映行程时间分布并描绘分布的轮廓。该表现形式既可以从定性角度让被调查者直观了解方式的行程时间可靠度,也可以让被调查者具体了解到行程时间的具体波动情况,根据实际调查反映,该种表现形式效果较好。

同时预调查也显示调查方式对数据有效性的影响。调查结果显示面对面的实地调查数据完整性、有效性等均远远高于网络调查。诸多网络调查结果均为无效数据而无法被使用。

步骤二:设定多模式交通出行选择行为模型假设、影响因素与参数水平值;

具体包括以下步骤:

1)依据城市综合调查数据,并结合实际访谈与预调查结果对各种属性的水平值进行了确定。本调查中涉及到四种交通方式和四种影响因素,具体的水平值设计过程如下:

对于公共交通出行,根据公交车和地铁出行时耗的波动范围设定四个水平值,分别为30、40、50、60分钟。公交车市区票价单次2元,郊区的与出行距离有关,地铁票价3元起,与出行距离相关,结合设定的出行时间(一定程度上与出行距离是正相关)水平,确定公交车票价三个水平为1、2、3元,地铁票价三个水平为3、4、5元。

对于私人小汽车出行,设定出行时间四个水平为15、25、35、40分钟,小汽车出行费用包括燃油费、停车费和过路费,按平均速度20~30km/h,根据小汽车出行时间预估出行距离,再以燃油价0.7~0.8元/km计算得到小汽车燃油费,计算停车费时,按包月计算,每天的停车费在10~30元。至此设定四个出行费用水平为20、25、35、40元。

对于停车换乘出行,根据上海停车换乘使用情况现状及调查,通常出行时间,确定四个出行时间水平为25、35、45、55分钟。出行费用方面,同样按照小汽车燃油费计算方法,停车场停车费用有5,10元两种,开车者也可能停在其他地方,地铁票价为3、4、5元,设计费用四个水平为8、12、16、20元。

行程时间可靠度设计时,采用行程时间标准差来表征时间可靠性。在设计行程时间可靠度水平值时,其设计原则是:一是确保行程时间可靠度水平值能体现可靠性低、中、高的特点;二是保证在行程时间可靠度水平值下,行程时间的波动范围是可能出现的符合实际的,即以对数正态分布描述出行时间波动时,设定的时间标准差(行程时间可靠度)下所呈现的时间分布是合理的。根据已经设定好的行程时间,设定小汽车、地铁、停车换乘、公交车的行程时间标准差(行程时间可靠度)四个水平分别为(4,8,12,18)分钟、(2,4,6,8)分钟、(2,6,8,10)分钟、(4,8,14,20)分钟。

调查均采用定性指标作为衡量车内拥挤度的水平,车内拥挤程度采用常见的三级分级,分别定义为为舒适有座位、无座位不拥挤、无座位很拥挤,而根据项目的相关研究得到以上三级分级下的实际立席密度。根据已有研究成果,以上三级水平值分别采用0,3人/m2,6人/m2

最终确定多模式交通出行sp调查的水平设计表,见表1。

表1多模式交通出行调查的影响因素和水平汇总

注:地铁的票价在设计时与行程时间存在相关性,当行程时间为30、40、50、60分钟时对应票价分别为3、4、5元;车内拥挤程度三等级对应的立席密度为0、3人/m2、6人/m2

2)预设模型为multinomiallogit,假设效用方程为属性的线性组合。

3)计算最小实验场景个数。理论上设计场景数越多,属性水平组合越全面与合理,但这也意味着增加了调查工作量和难度。基于d-error有效设计理论的基础数学模型,设计场景数只要不少于(参数个数/(属性值-1)),可以得到较为合理的设计结果。具体设计场景数需要根据实际研究目的与调研情况而定。项目共选用了总体d-error有效设计最好的18个场景数,但由于实验场景较为复杂,一个被访者完成18个场景需要较长时间。因此在设计中将所有场景分到三个部分中,每个部分均包含6个sp场景。每一调查者只需完成某一部分即可。

4)本次调查通过一次小规模调查来对multinomiallogit模型各个属性的参数进行初始估计。同时参考了国内外相关研究,保证先验参数的误差在合理范围内。

步骤三:基于d-error有效设计和平面设计原则的出行选择交通场景构建;

采用专业选择行为软件ngene来完成实验场景的内容设计。基于d-error有效设计理论原理,来组合不同属性的不同水平值,并按照一定原则的构成相应的调查场景。ngene软件工具具有特定编程语言,依据上一小节确定的各个属性的水平数以及水平值,根据其规则相应的程序段即可执行相应的设计过程。采用目标函数为d-error的设计选项。

为考虑实际调查中一个调查者实际连续填写了6个场景而不是一个调查者填写一个场景,在ngene设计中考虑了面板数据的影响。此外,ngene在设计时还能加入相关限制条件,例如出行费用和出行时间(出行距离)存在一定的相关性,在ngene设计时,可以设计这两个参数间的相关关系,保证时间在某一范围内时,对应的费用值是合理的。

步骤四:出行选择行为调查问卷形式及内容设计。

具体包括以下步骤:

1)展现一张包含多模式交通系统中可选交通方式的通勤方式示意图,对影响因素进行解释:行程时间可靠度含义;行程时间包含所有时间;费用包含所有费用;拥挤程度为车内拥挤度。

2)为了确保被调查者不会遗漏交通方式或关键影响因素信息,参考平面设计原则采用图形代替文字的方式来有效减少阅读难度和时间。平面设计原则是指透过多种方式来创造和结合符号、图片和文字,由此用来传达讯息的视觉表现方法。场景中直接将行程时间分布呈现给被调查者来减少其将文字转化为行程时间分布的阅读与思考时间,并描绘出分布的轮廓,告知被调查者曲线越陡则此出行可靠性越高,反之越低,以便被调查者能够很快的理解选项之间不同交通方式的可靠性相对大小关系。假设行程时间服从对数正态分布,由包含7个部分的柱形图来表示。采用平均行程时间作为期望行程时间,柱形图的每部分可通过积分转化为一定概率的计划延误,从而可将行程时间标准方差转化为计划延误指标来度量行程时间可靠度。

3)设计基本信息调查项:通勤信息包括通勤距离,通勤常用交通方式,出发和到达时间限制,常用费用等;社会经济属性包括年龄,性别,收入,工作,教育程度,是否拥有私家车等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1