基于旅客出行多元数据分析的空铁联程中转地点确定方法与流程

文档序号:20082337发布日期:2020-03-13 05:48阅读:320来源:国知局
基于旅客出行多元数据分析的空铁联程中转地点确定方法与流程

本发明涉及交通出行与数据挖掘领域,特别是涉及基于旅客出行多元数据分析的空铁联程中转地点确定方法。



背景技术:

随着我国高速铁路的快速发展,各条高铁线路的相继开通对于民航的分流产生了一定的影响,尤其是中短途的出行,高铁凭借其网络可达性以及准时性使其具有较大的竞争优势,航空公司因此减少或是修改了许多中短途出行的线路。但是,对于中长距离的出行,民航的优势有了明显的提升,对于长距离的出行,高铁对于航空几乎造不成影响。

然而,高铁与民航之间并非只存在着竞争的关系。面对着与高铁的激烈竞争,航空公司除了调整既有线路之外,还可以考虑与高铁进行合作;除此之外,对于那些飞机无法直达的城市,旅客还需通过空铁联程的形式进行出行。因此,“空铁联程”为航空与高铁带来了合作的机会,为旅客的出行提供了除了高铁直达或航空直达外的新的出行方案。

对于国内高铁城际出行网络较为发达的京津冀、长三角、珠三角地区,可以优先考虑空铁联程方案的实行。由于以上三个地区的高铁网络较为发达,因此对于空铁联程中转站可以有很多地点的选择。不同地点的选择会造成旅客空铁联程出行中的航空和高铁的在途时间以及票价的不同;同时不同地点的联程方案也会带来航空和高铁的到发时刻表的衔接有所差异。这些不同与差异针对旅客个人出行属性的差异会造成不同乘客同一次空铁联程出行中选择的中转换乘地点有所不同,因此对于旅客出行的推荐方案也就不尽相同。

在目前的旅客空铁联程出行中,存在着一些可以提升的地方:1)运营商只是为旅客的出行提供了最简单的飞机与高铁的衔接,对于不同的旅客提供的都是同样的联程出行方案,并未考虑到不同旅客之间的个体差异和选择偏好的不同;2)目前空铁联程出行的中转地点选择大多单一固定,可供中转选择的城市很少,因此所能提供给旅客出行的选择方案数量并不理想。



技术实现要素:

为了解决上述存在的问题,本发明提供基于旅客出行多元数据分析的空铁联程中转地点确定方法,为解决传统空铁联程出行方案中未考虑旅客个人选择和偏好的差异,且可供中转的地点较为单一的实际问题,发明目的在于提供一种基于多元数据分析的空铁联程用户中转地点确定方法,通过对旅客一年中的出行频率、旅客一年中出行的主要目的、旅客一年中一次出行的平均距离、旅客一年中一次出行的平均花费、旅客出行方式选择时影响最大的因素等多源数据的采集、分类,预测出不同旅客在旅客出行方式选择时影响最大的因素,并基于航班和高铁的信息数据,对不同的旅客匹配筛选出符合旅客个人选择偏好的出行方案,确定空铁联程的中转地点,为达此目的,本发明提供基于旅客出行多元数据分析的空铁联程中转地点确定方法,该方法包括如下步骤:

(1)分类预测模型多源数据采集,包括:采集n名旅客的多元数据,用于分类预测模型的构建,所述第i名旅客的多源数据xi,i=1,2,3…,n包括旅客一年中的出行频率ai、旅客一年中出行的主要目的bi、旅客一年中一次出行的平均距离ci、旅客一年中一次出行的平均花费di、旅客出行方式选择时影响最大的因素ei;所述第i名旅客一年中的出行频率ai的取值范围是1至5的五个自然数,其中ai=1表示出行频率小于3次,ai=2表示出行频率3-6次,ai=3表示出行频率7-10次,ai=4表示出行频率11-14次,ai=5表示出行频率15次以上;所述旅客一年中出行的主要目的bi的取值范围是1至5的五个自然数,其中bi=1表示出行目的为公务出行,bi=2表示出行目的为探亲访友,bi=3表示出行目的为回家,bi=4表示出行目的为旅游,bi=5表示出行目的为上学;所述旅客一年中一次出行的平均距离ci的取值范围是1至4的四个自然数,其中ci=1表示平均出行距离小于500公里,ci=2表示平均出行距离500-1000公里,ci=3表示平均出行距离1000-1500公里,ci=4表示平均出行距离大于1500公里;所述旅客一年中一次出行的平均花费di的取值范围是1至4的四个自然数,其中di=1表示平均花费小于500元,di=2表示平均花费500-800元,di=3表示平均花费800-1100元,di=4表示平均花费大于1100元;所述旅客出行方式选择时影响最大的因素ei的取值范围是集合{f,t,s}中的一个元素,其中ei=f表示因素为出行费用的高低,ei=t表示因素为出行时间的长短,ei=s表示因素为出发时刻表;

(2)多元数据分类,包括:创建分类模型,将所述步骤(1)中的n名旅客多源数据xi,i=1,2,3…,n划分成训练旅客数据和检验旅客数据两类,训练旅客数据的个数为n1,其取值是n1=0.8×n取整后的数值,检验旅客数据的个数为n2,其取值是n2=n-n1;对于任意一个训练旅客数据utrain=1,2,3,4,…,n1包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为对于任意一个检验旅客数据vtest=1,2,3,4,…,n2包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为

采用knn算法对数据进行分类,将旅客的一年中的出行频率ai、旅客一年中出行的主要目的bi、旅客一年中一次出行的平均距离ci、旅客一年中一次出行的平均花费di这四项作为模型的自变量,分别以向量的形式表示;将旅客出行方式选择时影响最大的因素ei作为模型的因变量,以向量的形式表示,通过寻找因变量与自变量的关系从而构建分类模型,寻找过程包括:

首先进行外部循环,设定一个数值k,k的初始值为1,进行下一次外部循环时k的数值增加1,k的上限为对每一个检验旅客数据vtest=1,2,3,4,…,n2进行内部的嵌套循环,内部循环中依次计算检验数据与所有的训练数据之间的距离d,

按照距离d的递增关系进行排序,找出与该检验数据距离d最小的k个训练数据,确定k个数据中各个因变量e的出现次数,将出现次数最高的因变量e作为检验数据的分类,从而找到;对于所有的检验数据判断分类模型预测得到的旅客因变量e与该名旅客实际出行方式选择时影响最大的因素e是否一致,一致的因变量个数记为m,准确率若准确率δ高于90%,,则认为分类效果较好,跳出内部循环和外部循环,整个循环结束,输出此时的k的数值;若测试的准确率δ低于90%时,则认为分类效果不理想,跳出内部循环进行下一次的外部循环,直至准确率δ高于90%为止;

循环结束后,将输出的k值作为knn算法用于分类类别预测的k值,对于任意一个新的数据,输入其四个自变量a、b、c、d的数值,计算其与各个训练数据之间的距离d,按照距离d的递增关系进行排序,找出距离d最小的k个训练数据确定k个数据中各个因变量e的出现次数,将出现次数最高的因变量e作为该新数据的预测分类值;

(3)旅客出行方式选择时最大影响因素的预测,包括:对于任意一名需要分类预测的旅客l,获得其历史信息中一年中的出行频率al、旅客一年中出行的主要目的bl、旅客一年中一次出行的平均距离cl、旅客一年中一次出行的平均花费dl四个自变量数据,通过步骤(2)中的分类模型预测其因变量旅客出行方式选择时影响最大的因素el;

(4)空铁联程出行信息采集,包括:设置旅客l的出发城市为p,目的地城市为q,其他同时具有高铁站和机场的城市为oi,i依次为各个满足要求的城市;获取p-oi和oi-q的机票价格、高铁价格、航空的飞行时长、高铁的时长、航班到发时刻表、高铁到发时刻表;

(5)出行方案排序及生成,包括:若旅客出行是飞机换乘高铁,则p-q的出行费用为p-oi的机票价格和oi-q的高铁价格的求和,p-q的出行时长为p-oi的航空飞行时长和oi-q的高铁时长的求和,p-q的出发时间是p-oi的航班和与之衔接的oi-q的高铁班次;按照p-q出行费用从低到高、出行时长从低到高、出发时刻从早到晚三种方法将p-q进行排序,形成按照费用、出行时长以及出发时刻三种形式划分的行方案;

(6)中转地点的确定,包括:根据所预测得到的旅客出行方式选择时考虑的最大因素el在步骤(5)中的空铁联程信息寻找对应的出行方案,选出旅客出行p-q路线上最符合旅客在出行方式选择时考虑的最大因素e的出行方案,从而确定空铁联程中转地点oi。

本发明的进一步改进,所述步骤(2)中,抽取旅客数据作为训练数据的方式采用计算机生成随机数的形式,将旅客依次编号为1,2,3,,,n,采用random函数生成取值范围在1~n中0.8×n个不重复的随机数值,选出这些数值对应的旅客作为训练数据。

本发明的进一步改进,所述步骤(4)中采用现有api接口,在配套网页采集高铁价格、高铁的时长、高铁到发时刻表。

本发明的进一步改进,所述步骤(4)中采用现有api接口,在配套网页采集机票价格、航空的飞行时长、航班到发时刻表。

本发明提出的基于多元数据分析的空铁联程用户中转地点确定方法,该方法充分考虑了旅客出行时由于个体社会经济以及出行目的等属性的不同会导致出行选择偏好有所差异,不同的出行需求需要被不同的供给所满足,通过本方法获得的空铁联程用户中转地点的选择,一方面增加了用户的出行方案可选择性,更重要的是更加符合用户的个人选择偏好,更能满足个性化出行的需求。

附图说明

图1为本发明的流程框图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述:

本发明提供基于旅客出行多元数据分析的空铁联程中转地点确定方法,为解决传统空铁联程出行方案中未考虑旅客个人选择和偏好的差异,且可供中转的地点较为单一的实际问题,发明目的在于提供一种基于多元数据分析的空铁联程用户中转地点确定方法,通过对旅客一年中的出行频率、旅客一年中出行的主要目的、旅客一年中一次出行的平均距离、旅客一年中一次出行的平均花费、旅客出行方式选择时影响最大的因素等多源数据的采集、分类,预测出不同旅客在旅客出行方式选择时影响最大的因素,并基于航班和高铁的信息数据,对不同的旅客匹配筛选出符合旅客个人选择偏好的出行方案,确定空铁联程的中转地点。

如图1所示,本发明实施例公开的一种基于多元数据分析的空铁联程用户中转地点确定方法,通过过对旅客一年中的出行频率、旅客一年中出行的主要目的、旅客一年中一次出行的平均距离、旅客一年中一次出行的平均花费等数据的分类预测出不同旅客出行方式选择时影响最大的因素,为旅客的空铁联程出行提供最符合个人偏好的中转地点选择以及出行方案推荐。该方法主要包含以下步骤:

步骤s1:分类预测模型多源数据采集。采集n名旅客的多元数据,用于分类预测模型的构建。所述第i名旅客的多源数据xi(i=1,2,3…,n)具体包括如下方面数据的采集:

步骤1a)旅客一年中的出行频率ai的数据采集。在石家庄正定机场和正定机场高铁站对于使用空铁联程出行的用户采用sp进行调查。所述旅客一年中的出行频率ai的取值范围是1至5的五个自然数,其中ai=1表示出行频率小于3次,ai=2表示出行频率3-6次,ai=3表示出行频率7-10次,ai=4表示出行频率11-14次,ai=5表示出行频率15次以上;

步骤1b)旅客一年中出行的主要目的bi的数据采集。在石家庄正定机场和正定机场高铁站对于使用空铁联程出行的用户采用sp进行调查。所述旅客一年中出行的主要目的bi的取值范围是1至5的五个自然数,其中bi=1表示出行目的为公务出行,bi=2表示出行目的为探亲访友,bi=3表示出行目的为回家,bi=4表示出行目的为旅游,bi=5表示出行目的为上学;

步骤1c)旅客一年中一次出行的平均距离ci的数据采集。在石家庄正定机场和正定机场高铁站对于使用空铁联程出行的用户采用sp进行调查。所述旅客一年中一次出行的平均距离ci的取值范围是1至4的四个自然数,其中ci=1表示平均出行距离小于500公里,ci=2表示平均出行距离500-1000公里,ci=3表示平均出行距离1000-1500公里,ci=4表示平均出行距离大于1500公里;

步骤1d)旅客一年中一次出行的平均花费di的数据采集。在石家庄正定机场和正定机场高铁站对于使用空铁联程出行的用户采用sp进行调查。所述旅客一年中一次出行的平均花费di的取值范围是1至4的四个自然数,其中di=1表示平均花费小于500元,di=2表示平均花费500-800元,di=3表示平均花费800-1100元,di=4表示平均花费大于1100元;

步骤1e)旅客出行方式选择时影响最大的因素ei。在石家庄正定机场和正定机场高铁站对于使用空铁联程出行的用户采用rp进行调查。所述旅客出行方式选择时影响最大的因素ei的取值范围是集合{f,t,s}中的一个元素,其中ei=f表示因素为出行费用的高低,ei=t表示因素为出行时间的长短,ei=s表示因素为出发时刻表;

步骤s2:多源数据分类,包含如下步骤:

步骤2a)训练数据和检验数据的划分。将s1步骤中采集的n名旅客多源数据xi(i=1,2,3…,n)划分成训练旅客数据和检验旅客数据两类,训练旅客数据的个数为n1,其取值是n1=0.8×n取整后的数值,检验旅客数据的个数为n2,其取值是n2=n-n1;对于任意一个训练旅客数据(utrain=1,2,3,4,…,n1)包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为对于任意一个检验旅客数据(vtest=1,2,3,4,…,n2)包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为

步骤2b)自变量和因变量的划分。将旅客的一年中的出行频率ai、旅客一年中出行的主要目的bi、旅客一年中一次出行的平均距离ci、旅客一年中一次出行的平均花费di这四项作为模型的自变量,分别以向量的形式表示;将旅客出行方式选择时影响最大的因素ei作为模型的因变量,以向量的形式表示,通过寻找因变量与自变量的关系从而构建分类模型;

步骤2c)分类模型的建立。采用knn算法对数据进行分类,首先进行外部循环,设定一个数值k,k的初始值为1,进行下一次外部循环时k的数值增加1(k的上限为);对每一个检验旅客数据(vtest=1,2,3,4,…,n2)进行内部的嵌套循环,内部循环中依次计算检验数据与所有的训练数据之间的距离d,

按照距离d的递增关系进行排序,找出与该检验数据距离d最小的k个训练数据,确定k个数据中各个因变量e的出现次数,将出现次数最高的因变量e作为检验数据的分类,从而找到;对于所有的检验数据判断分类模型预测得到的旅客因变量e与该名旅客实际出行方式选择时影响最大的因素e是否一致,一致的因变量个数记为m,准确率若准确率δ高于90%,,则认为分类效果较好,跳出内部循环和外部循环,整个循环结束,输出此时的k的数值;若测试的准确率δ低于90%时,则认为分类效果不理想,跳出内部循环进行下一次的外部循环,直至准确率δ高于90%为止;

循环结束后,将输出的k值作为knn算法用于分类类别预测的k值,对于任意一个新的数据,输入其四个自变量a、b、c、d的数值,计算其与各个训练数据之间的距离d,按照距离d的递增关系进行排序,找出距离d最小的k个训练数据确定k个数据中各个因变量e的出现次数,将出现次数最高的因变量e作为该新数据的预测分类值;

步骤s3:旅客出行方式选择时最大影响因素的预测,包含如下步骤:

步骤3a)旅客出行数据的获取。对于任意一名需要分类预测的旅客l,获得其历史信息中一年中的出行频率al、旅客一年中出行的主要目的bl、旅客一年中一次出行的平均距离cl、旅客一年中一次出行的平均花费dl四个自变量数据,通过步骤(2)中的分类模型预测其因变量旅客出行方式选择时影响最大的因素el;

步骤3b)通过步骤2c中的knn算法对该名旅客的因变量旅客出行方式选择时影响最大的因素el进行分类预测;

步骤s4:空铁联程出行信息采集。具体包括如下方面数据的采集:

步骤4a)高铁数据的采集。采用12306api(https://www.12306.cn/index/),选择同时具有高铁站和机场的城市作为oi,在12306网页采集出发城市p到中转城市oi的高铁价格gpi1、高铁的时长gti1、高铁的到发时刻表gsi1以及在12306网页采集中转城市oi到目的地城市q的高铁价格gpi2、高铁的时长gti2、高铁的到发时刻表gsi2,将结果按照每个oi对应的gpi1、gti1、gsi1、gpi2、gti2、gsi2进行保存;

步骤4b)航空数据的采集。采用携程api(https://flights.ctrip.com/),同样选择同时具有高铁站和机场的城市作为oi,在携程机票查询网页采集出发城市p到中转城市oi的航班价格fpi1、航班的时长fti1、航班的到发时刻表fsi1以及在携程机票查询网页采集中转城市oi到目的地城市q的航班价格fpi2、航班的时长fti2、航班的到发时刻表fsi2,将结果按照每个oi对应的fpi1、fti1、fsi1、fpi2、fti2、fsi2进行保存;

步骤s5:出行方案排序及生成。具体如下:

对oi进行循环,在每一次循环中:若旅客从p到q选择是先乘坐飞机再换乘高铁,则计算最低总费用计算最短总时长找出最早出发时间由最早的fsi1和与之能接续上的最早的gsi2构成;若旅客从p到q选择是先乘坐高铁再换乘飞机,则计算最低总费用计算最短总时长找出最早出发时间由最早的gsi1和与之能接续上的最早的fsi2构成;对比两种方案,找出最低费用最短总时长最早的出发时间循环得到了所有oi对应的pricei、timei、schedulei,最后找出所有oi中对应的这三项最低的oi;

步骤s6:中转地点的确定。包括:

根据所预测得到的旅客出行方式选择时考虑的最大因素el在步骤s5中的空铁联程信息寻找对应的出行方案,选出旅客出行p-q路线上最符合旅客在出行方式选择时考虑的最大因素e的出行方案,从而确定空铁联程中转地点oi。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1