一种基于高斯混合模型的地铁票务清分方法与流程

文档序号:12306276阅读:283来源:国知局
一种基于高斯混合模型的地铁票务清分方法与流程
本发明涉及高斯混合模型和em算法以及地铁票务清分领域,特别涉及一种基于高斯混合模型的地铁票务清分方法。
背景技术
:随着地铁线路的不断发展,线网规模不断扩大、结构越来越复杂;同时地铁的运营商也慢慢的从多线路单运营商模式变成多线路多运营商模式,运营商之间利益的分配也显得越来越重要。所谓清分,就是把服务接受者(包括乘客、票卡等运营对象和收益,是利益的贡献者,即系统的清分对象)所上缴的全部收益,按照各服务提供者(包括车、站、线、运营分部等运营实体,是利益的分配者,即利益的分配主体)的贡献进行有效的利益分配。简而言之,轨道交通票务清分的实质就是:依据一定的原则,计算并分配轨道线网中各运营实体的经济贡献。对于多运营商运营的复杂线网,传统清分方法中使用比较普遍的是多路径选择概率算法,这里面又分为两种,一种是基于logit模型的多路径选择概率模型,另一种是基于正态分布的多路径选择概率模型。两种方法的大体思路是相同的,都是以每条可达路径的路径阻抗作为输入参数,输出即为每条路径上的客流分配比例,只是计算的公式稍有不同。下面就以logit模型为例来介绍传统清分方法的步骤。传统清分方法主要分为以下几步:第一步,构建线网图,搜索可达路径。对于线网图中的每一对顶点,都要通过图的深度遍历算法得出其所有可达路径。第二步,根据清分规则筛选出每对顶点间的有效路径。在轨道交通的出行中,当起点与终点有多条路径可选的情况下,乘客不会在所有的路径中选择,一些不是很合理的路径,如路线虽然可达,但是出行时间远远超过最短的路径,这一类路径为无效路径,另外,乘客根据自己的出行需求,列入出行选择的路径为有效路径。由于无法获取每一位乘客的出行需求,所以只能通过对乘客的一般需求进行调研分析,并在此基础上对大部分乘客的需求进行预估,从而得到od间的有效路径集。不同城市不同线网清分规则可能稍有不同,但是筛选的目标都是要剔除那些明显不可能的路径或者很少有人选择的路径。第三步,计算各有效路径的阻抗值。首先要构建路径阻抗函数。路径阻抗是交通流分配中一项衡量指标,通常情况下,乘客会选择路径阻抗最小的路径,但是,随着选择某条路径上的乘客的增加,其拥挤程度也会随之而增加,这就会导致这条路径的路径阻抗值上升,这就又会影响乘客的选择,最终达到一种平衡。路径阻抗是通过构建路径阻抗函数来计算得出的。在计算的过程中会考虑换乘次数、拥挤度等各种因素,并对换乘时间、候车时间加以惩罚,从而体现出各种因素对于路径阻抗的影响,最终影响到每条路径上客流分配的比例。第四步,计算可达路径上的客流分配比例。通过构建基于logit模型的多路径选择概率模型,将同一od间的客流分配到各有效路径上。由于影响有效路径选择的因素较多,并带有一定的随机性。因此设定路径阻抗的随机项相互独立,且服从相同干贝尔gambel变量分布(又叫二重指数分布),那么起始站为r终点站为s的od对上第k条有效路径被选择的概率如下式所示:满足:即每一od对的所有路径被选择的概率之和为1。——起点站为r,终点站为s的od对上的最小路径阻抗;θ是指与相关的一个参数,可看作是度量出行者对路网熟悉程度的指标;当θ→∞时,表示乘客对线网十分熟悉,此时乘客会选择路径阻抗最小的那条路径,当θ→0时,表示乘客对线网十分陌生,此时乘客选择每条路径的概率都相同,若总共有n条路径,则每条路径被选择的概率均为1/n。第五步,计算各条线路的实际清分比例。由于线网是确定的,也即是在每条可达路径中,不同运营商的运营里程比例是确定的,再结合上一步计算出的每条可达路径的客流分配比例则可以计算出每个运营商的最终票款清分比例。可以看到,整个模型有以下几个不足:1)整个建模过程十分复杂,尤其是第三步,计算有效路径的阻抗值,虽然整个公式的设定看起来是比较合理的,但是实施起来其实是有难度的,比如说,每个放大系数到底设定为多少才是合理的,因为毕竟每条有效路径上的实际客流是未知的,无法验证这个结果的准确性。同时,在公式中还涉及到一些比较模糊的概念,比如拥挤度,这个很难去量化。2)目前的清分模型和清分方法几乎都是静态的,清分模型一旦确定,整个清分比例也就确定了,一般情况下是不会随便去改动其中的参数的值,除非是线网的结构发生了变化才会去改动。但是地铁的客流是随着时间的变化有较大的波动的,比如上下班高峰、节假日等等。传统的清分方法所做的比较难以让人信服。3)难以考虑所有影响因素。在乘客出行的过程中,影响乘客选择出行路径的因素有很多,比如出行时间、换乘次数、拥挤度等等,但是当前清分模型并不能考虑到所有影响因素,一般情况下都只能考虑其中两到三个影响因素,这就忽略了其他因素对乘客选择出行路径的影响。同时,有些因素是很难通过参数来量化的,比如拥挤度、换乘方式。技术实现要素:本发明的目的在于克服现有技术的缺点与不足,提供一种基于高斯混合模型的地铁票务清分方法,能够适应不同线网各种时期的乘客出行时间记录,所得的结果更能令人信服。本发明的目的通过以下的技术方案实现:一种基于高斯混合模型的地铁票务清分方法,包括以下步骤:1、构建地铁线网的无向图,得出图中任意两个顶点之间的所有可达路径;2、对于图中任意始末站点对(od对),结合地铁的实际运行时间数据以及换乘站所需的换乘时间,得出每一条可达路径的路径阻抗;3、设定路径阻抗的阈值,筛选出每对顶点之间的k条有效路径;4、对于每一对顶点,结合高斯混合模型,对所有满足条件的乘客出行记录进行处理;利用混合高斯模型对其中的旅行时间数据进行聚类,聚类个数为k,聚类中心为上一步中计算得到的k条有效路径的路径阻抗值,得到每个类别的均值与包含的出行记录的个数,得出每一条有效路径上的客流分配比例;5、对于每一条有效路径,结合客流分配比例与不同运营商的实际运营里程比例得出每个运营商所应得到的票款分配比例。优选的,路径阻抗的计算公式为:路径阻抗=乘车时间+放大系数×换乘时间其中乘车时间包括列车运行时间和各站停站时间,该时间可以通过列车的运营时刻表获取;换乘时间包括换乘所需的步行时间以及换乘后的候车时间。具体的,由于换乘时间没有精确的记录的,所以采用实际的实践,在不同的时间记录不同人的耗时,取最终的平均值作为标准。具体的,放大系数≥1。优选的,通过设定路径阻抗的阈值和/或换乘次数的阈值来筛选得到有效路径。优选的,如果步骤3得出有效路径数等于1,则这条有效路径上的客流分配比例为1,直接跳到步骤5。优选的,步骤1中利用深度遍历算法得出图中任意两个顶点之间的所有可达路径。本发明与现有技术相比,具有如下优点和有益效果:本发明结合机器学习算法,针对地铁系统中记录的每一对站点上乘客的出行时间记录,利用高斯混合模型对乘客出行的时间记录进行分类,以有效路径的数目作为聚类个数,每条有效路径的路径阻抗作为聚类中心,进而得出每条有效路径的客流分配比例,最后结合客流分配比例与运营商的运营里程比得出每个运营商最终的票款分配比例。本方法能够适应不同线网各种时期的乘客出行时间记录,并且计算的过程中主要依赖的都是乘客的出行时间记录,所得的结果更能令人信服。附图说明图1是实施例方法的流程图;图2是地铁线网图。具体实施方式下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。一种基于高斯混合模型的地铁票务清分方法,是对之前多路径轨道清分模方法的改进,本方法的思想不同于传统的清分方法,其主要思路是对乘客出行的旅行时间数据进行聚类。本方法主要针对的是乘客的出行时间,而乘客的出行时间都是有详细的记录的。基于可靠的理论分析,结合合适的数据处理方法,对乘客的出行时间数据进行分析处理,进而预测出每条乘客出行记录所对应的出行路径。对于任意一对顶点,如果它们之间只有一条可供选择的出行路径,则乘客的出行时间服从单一高斯分布,也即是服从正态分布;如果它们之间可供选择的路径有多条,则乘客的出行时间记录是服从高斯混合分布的,于是针对这个特点,提出基于混合高斯模型的地铁票务清分方法。1、乘客旅行时间的特征对于乘客的每一次出行,其旅行时间主要由三部分组成:乘车时间,步行时间(包括进站步行时间、换乘步行时间和出站步行时间)、候车时间,这个时间也就是自动售检票(afc)系统记录的出站入站之间的时间差。乘车时间包括站间运行时间和站停时间,所谓站间运行时间,顾名思义是指列车在两个站点之间的运行时间,一般情况下是稳定不变的,站停时间是指列车到站之后留给乘客上下车的时间,这个时间在不同的站点可能存在差异,但是每个站点的站停时间是比较固定的,综上所述,乘车时间是基本稳定的,可以看作是一个常数。对于步行时间,则与个人的步行速率是有关系的,而候车时间,则是与列车发车间隔相关联,一般情况下,将待换乘线路发车间隔的一半作为当前候车的候车时间。结合大量的始末站点对(后文简称od对)间乘客旅行时间分布图,发现高斯分布可以很好地拟合乘客出行的旅行时间数据。当od对之间的路径只有一条的时候,乘客的旅行时间是服从单高斯分布的;而当od对之间的路径存在多条的时候,乘客的旅行时间是服从混合高斯分布的。当数据量足够大的时候,每对od对之间所有乘客旅行时间的分布规律是趋于稳定状态的。2、路径阻抗2.1路径阻抗的作用计算每条可达路径的路径阻抗有两点作用,一是路径阻抗值将作为高斯混合模型的聚类中心,二是确定聚类的类别数目。高斯混合模型(gmm)的求解是基于最大期望算法(em)的,因而并不能保证总是能取到全局最优,如果运气比较差,取到不好的初始值,就有可能得到很差的结果,因此得到一个合理的聚类中心是十分重要的。由于本模型是根据乘客出行的时间来进行聚类的,因而采用时间作为路径阻抗。计算出每条可达路径的路径阻抗之后,会根据路径阻抗的阈值从可达路径中筛选出所有有效路径,而有效路径的个数即是聚类的类别数目。2.2路径阻抗函数定义如下阻抗函数:路径阻抗=乘车时间+放大系数×换乘时间,其中,乘车时间=区间运行时间+列车停站时间。——起点站为r,终点站为s的od对上第k条路径的阻抗;——起点站为r,终点站为s的od对上第k条路径的总乘车时间;——起点站为r,终点站为s的od对上第k条路径的总换乘时间;路径阻抗最终形式为综上所述。1)乘车时间乘车时间包括列车运行时间和各站停站时间。——起点站为r,终点站为s的od对上第k条路径的总乘车时间;——列车经过第k条路径上第w段的运行时间,由于现在的列车在多数情况下都是非人工操作的,运行时间相对较稳定,因而运行时间可以从列车运行时刻表获取;——列车经过第k条路径上第m个站点的站停时间,站停时间一般分为两种情况,一种是普通车站,停车时间比较固定,另一种是换乘站,站停时间可能会存在几个,但是相差无几,本方法取其平均值作为换乘站的站停时间。站停时间可以根据站停时间表获取。2)换乘时间换乘时间包括换乘步行时间和换乘候车时间(本方法中将进出站步行时间和进站候车时间算在换乘时间内),公式表达如下:换乘候车时间换乘候车时间与不同线路的列车发车频率有关。根据排队论模型,乘客的平均等车时间可以取列车发车间隔的一半,发车时间间隔可以从列车运行时刻表获取。换乘步行时间包括通道步行、楼梯步行、乘坐及等待电梯时间等等。取多人实际换乘时间的平均值(需测量换乘站点各方向的所有换乘路线)。换乘时间放大系数α:在城市轨道交通线网中,对于乘客来说,同样的乘车时间和换乘时间,其理解费用是不同的,因此在路径的阻抗中,应对换乘时间加以惩罚。用换乘时间乘以一个换乘放大系数α(α≥1)表示由乘客的换乘心理感觉时间,换乘时间包括进出站时间。3、主要步骤一种基于混合高斯模型的地铁票务清分方法,包括如下步骤:(1)搜索可达路径:构建地铁线网图,以o为起点,d为终点,利用深度遍历算法(bfs)搜索所有可达路径;(2)计算路径阻抗:根据确定好的路径阻抗函数,结合线网图中的数据计算出每条可达路径的路径阻抗和换乘次数;(3)筛选有效路径:结合路径阻抗和换乘次数的阈值对可达路径进行筛选,得到k条有效路径,如果k=1,则这条有效路径上的客流分配比例为1,直接跳到第(5)步;如果k>1,则继续执行下一步;(4)利用混合高斯模型处理数据,得出每条有效路径客流比:筛选出所有以o为起始站点,d为终点站点的乘客出行数据,利用混合高斯模型对其中的旅行时间数据进行聚类,聚类个数为k,聚类中心为上一步中计算得到的k条有效路径的路径阻抗值,得到每个类别的均值与包含的出行记录的个数,即可算出每条有效路径的客流分配比例;(5)计算各运营商的清分比例:先根据每条有效路径上各运营商的运营里程计算出每个运营商在各条有效路径上的运营里程比,然后结合每条有效路径上的客流分配比例计算得到每个运营商应占有的清分比例。具体的,如图2所示,起始站点为original站(地图右下角),终点站为destination站(地图左侧)。第一步搜索可达路径。根据图的深度遍历算法,可以遍历到6条可达路径,具体路径信息如下表所示。表1可达路径表路径路径描述路径阻抗/秒路径1original-->b-->destination2269路径2original-->a-->f-->e-->destination2404路径3original-->a-->d-->destination2554路径4original-->b-->d-->f-->e-->destination4223路径5original-->c-->d-->destination4020路径6original-->c-->f-->e-->destination4972第二步、计算每条路径上的路径阻抗值。路径阻抗1=original站进站时间+original站到b的时间+b站换乘时间+b站到destination站的时间+destination站的出站时间=2269s;其他路径也可类似计算,路径阻抗的计算结果如上表所示。第三步、设定路径阻抗的阈值,筛选出有效路径,并根据路径阻抗进行排序。路径阻抗的阈值设定如下表所示,路径阻抗的阈值=可达路径中最小路径阻抗+增加阈值。表2路径阻抗阈值表以最短路径阻抗作为参考,本例中最短路径阻抗为路径1的2269秒,查阅表2可知,2269秒处于中时间的范围,因而该例中的增加阈值为12分钟,则路径阻抗的阈值=最小路径阻抗2269秒+增加阈值12分钟,小于路径阻抗阈值的路径被选为有效路径,于是可以得到路径1、路径2、路径3为有效路径,其路径阻抗的排序(由小到大)为:路径1;路径2;路径3。第四步以路径1、路径2、路径3的路径阻抗值作为聚类中心,以k=3作为聚类个数,在matlab中利用混合高斯算法对乘客出行时间记录进行聚类,然后得到每条路径上的客流分配比例,如下表:表3有效路径客流分配比例聚类结果时间期望值(μ/分钟)客流分配比例路径137.0864.09%路径239.8622.65%路径344.5613.26%第五步计算线路的清分比例。根据每条有效路径上各线路的里程比例以及第四步得出的每条有效路径的客流分配比例计算出每条线路的清分比例。如下表:表4线路清分比例其中客流分配比例是根据第四步的计算结果得出的,线路里程比例是各条有效路径上每条线路的里程比例。1号线路分配比例=路径1客流分配比例×路径1上1号线里程比例+路径2客流分配比例×路径2上1号线里程比例+路径3客流分配比例×路径3上1号线里程比例=64.09%×56.65%+22.65%×7.74%+13.26%×5.67%=38.81%。同理:2号线线路分配比例=64.09%×0%+22.65%×39.69%+13.26%×60.12%=16.96%3号线线路分配比例=64.09%×43.35%+22.65%×18.50%+13.26%×34.21%=36.51%4号线线路分配比例==64.09%×0%+22.65%×34.07%+13.26%×0%=7.72%上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1