一种基于社交网络的互联网班车线路优化方法与流程

文档序号:11143620阅读:250来源:国知局
一种基于社交网络的互联网班车线路优化方法与制造工艺

本发明涉及交通领域。具体而言涉及一种基于社交网络的互联网班车线路优化设计方法。



背景技术:

伴随着信息技术尤其是互联网的飞速普及和发展,公共交通服务也上升到一个新的水平。以优步(UBER)、滴滴为代表的O2O打车软件的出现极大地方便了人们的工作和生活。在北京、上海等一线城市,由于日常出行路途遥远、公共交通拥挤不堪,人们更期待比打车更便宜,比公交、地铁更舒适的班车服务,于是滴滴巴士、哈罗同行、考拉班车等一大批互联网班车应运而生。但是,现有技术中的互联网班车由于线路重复、空座率高、长期稳定的客源寥寥无几,造成了运营成本居高不下,很多运营商难以为继。此外,骤然出现的各路班车还造成了很多热点路段的严重拥堵,违背了其倡导的绿色出行的初衷。

造成互联网班车与用户需求之间匹配困难的原因可以归结为以下几点:

(1)未能充分挖掘用户需求,掌握用户的出行规律是最关键的原因。互联网班车对城市居民的工作、生活情况缺乏必要的统计,一般只根据常识与经验定性设计班车运行线路,对用户出行的个性化需求考虑不足,造成了很多“小众需求”无法覆盖。其实,在城市人口不断膨胀的今天,即使是“小众需求”在绝对数量上也并非小众。而满足“小众需求”的能力,恰恰是班车服务水平的标志。另外,互联网班车在运行时间往往严格的遵守“朝九晚五”,未考虑某些用户经常加班的情况,因此也会流失一部分潜在客户。

(2)线路站点设计粒度太大,没有提供精细点对点服务。很多互联网班车在设计线路时粒度过粗,起点和终点覆盖的范围太大,造成了用户乘车的不便,因此流失了部分用户。例如北京热门班车线路回龙观到上地,众所周知回龙观和上地是北京两个大型的社区,覆盖面积很广,很多用户虽然属于这一区域,但距离班车点很远,自然不会选择这一线路。只有做到班车点离用户的上下班地点都很近,这样的线路才能受到欢迎。

(3)宣传效果不理想,用户参与度很低。互联网班车虽然依靠互联网进行日常宣传和运营,但还是没有充分发挥互联网的传播优势。班车运营商制定好线路后,通过手机APP发布路线让用户报名,根据用户的报名情况决定是否开通线路。但由于APP的人群覆盖率不高,因此这也流失一大部分潜在用户。而且这些APP大都没有社交功能,也没有同主流的社交软件进行有效整合,因此即使有好的线路,其社交传播效率也大大降低。

综述,互联网班车目前未能有效解决用户乘车痛点的原因,不在于需求不足,而在于缺乏有效的渠道挖掘需求,匹配需求,满足需求。互联网班车要想有效解决用户的乘车痛点,就必须找到一种办法,准确地捕获用户需求,根据用户需求来个性化制定合理路线,进一步提高服务的水平,这就是本专利的背景所在。



技术实现要素:

本专利正是基于现有技术的上述情况而提出的,本专利要解决的技术问题是提供一种基于社交网络的互联网班车路线优化方法,以便于准确发现和定位互联网班车潜在的用户需求。

为了解决上述问题,本专利提供了:

一种互联网班车路线优化方法,所述方法包括:

步骤一,社交软件数据采集步骤,所述社交软件数据采集包括获取社交软件的信息数据,并从中采集到与班车线路有关的信息。在本步骤中,通过设置抓取条件的方式从获取所述社交软件提供的开放接口,抓取发布的微博中的相关信息数据;所述条件包括地理位置信息、时间信息、朋友关联关系。比如,在地理位置信息中,可以设置北京;抓取的数据的时间信息中,抓取的数据量至少为一个月,并可以不断地实时抓取并更新。

步骤二、对所述数据采集步骤采集到的数据进行挖掘,得到用户不同出行时段的OD点(起终点)。在本步骤中,利用K-means聚类算法对所述采集到的所述相关信息数据进行挖掘;在本步骤中将采集到所述数据中的的第i个数据定义为向量:xi=(xi1,xi2,xi3),其中xi表示向量,xi1表示第i个点的经度,xi2表示第i个点的纬度,xi3表示第i个点的时间;在计算地点聚类中心之前先利用时间进行分类,根据所述社交软件的发布时间xi3将数据集分割为上班集与下班集;当xi3∈(5,9)时,将xi点放进上班集进行地点聚类,当xi3∈(16,20)时,将xi点放进下班集中进行地点聚类,其余数据点视为无效点被过滤掉;这一步实现了初步的数据过滤与分类,有利于后续步骤的聚类;然后进行第一次地点聚类,分别在上班集和下班集中各选出3个点作为备选点,即确定聚类中心数k=3;先定义上班集的第k个地点聚类中心为:

其中,分配系数该公式的意义是将参与了第k个上班集地点聚类的点的经纬度计算平均值,计算出的经纬度作为第k个上班集的聚类中心的坐标;所述n为所采集的有效数据点的个数;

定义第i个点xi与第k个聚类中心μk之间的距离为:

Dik=(xik)T(xik)

则所述第一次地点聚类的计算步骤包括上班集聚类和下班集聚类,所述上上班集聚类包括:(1)先随机初始化聚类均值μ1、μ2、μ3;(2)对每个点xi都找到使Dik最小的k,将i点聚到该中心,并设置该分配系数zik=1:(3)如果所有的zik与上一次迭代没有变化,则停止聚类,输出μ1、μ2、μ3;(4)否则按照①式更新μ1、μ2、μ3;用与所述上班集聚类同样的办法可以得到下班集的三个聚类中心ρ1、ρ2、ρ3

步骤三、目标用户关系挖掘,在找到目标用户之后,根据其微博的朋友关系,寻找与其出行规律相似的用户,从而进一步扩大目标用户的范围。遍历目标用户的朋友圈关系,找出满足预定条件的所有重点朋友,然后计算出每一个朋友s的上班集聚类中心μs=(μ1、μ2、μ3)和下班集聚类中心ρs=(ρ1、ρ2、ρ3);然后余弦相似度可以定义上班集线路相似度计算每一个重点朋友s与目标用户d(μd、ρd)的线路相似度:

所述cosθ为阈值,如果cosθ大于预定的数值,则认为朋友s和目标用户d的线路相似,将所有相似的朋友放进一个新的集合中,进行第四步的二次聚类;

步骤四、对目标用户群体进行聚类,得到用户群最终的聚类中心(μk,ρk),此值即可作为互联网班车线路的OD点。在本步骤中,利用K-means聚类算法对所述采集到的所述相关信息数据进行挖掘;将步骤三得到的用户群的(μ、ρ)按照上班集与下班集分为两个集合,分别计算两个聚类点;由于经过步骤三的相似度判断,所以在本步骤中设定聚类中心数为1,设μ=(μ1,μ2,...,μ3n),当k=1时,根据步骤二的公式可以推出最终的上班集聚类中心为:

同理可以算出下班集聚类中心为:

最终得到第k个用户群的OD点为(μk,ρk),以根据这个点来增设互联网班车线路。

本发明的优点在于:

1、本发明基于社交网络,利用社交网络中的海量数据挖掘潜在的目标用户,寻找符合用户需求的班车路线并推送给用户,这种主动贴近用户的行为,比单纯依靠乘客报名的被动方法,能够更有效地挖掘潜在用户以及解决用户乘车痛点,同时用户体验更好。

2、社交网络可以提供丰富的用户背景信息:如用户工作、生活的地点,上下班的时间,甚至包括用户的喜好等等。根据这些信息,我们可以帮助用户订制更符合用户实际需求的个性化出行方案,易于被用户接受。

附图说明

图1为本发明具体实施方式中一种基于社交网络的互联网班车线路优化方法的原理图;

图2为本发明所述的基于社交网络的互联网班车线路优选方法的流程图。

具体实施方式

下面结合附图对本专利的具体实施方式进行详细说明。需要指出的是,该具体实施方式仅仅是对本专利优选技术方案的举例。并不能理解为对本专利保护范围的限制。其目的在于对本发明做进一步的详细说明,以令本领域技术人员参照说明书能够据以实施。

如图1、图2所示。本具体实施方式提供了一种基于社交网络的互联网班车线路优化方法,所述方法包括如下步骤:

步骤一,社交软件数据采集步骤,所述社交软件数据采集包括获取社交软件的信息数据,并从中采集到与班车线路有关的信息。

在本步骤中,以微博数据为例,可以利用微博提供的开放接口抓取发布的微博中的相关信息数据。可以通过设置抓取条件的方式来获取上述数据,所述条件包括地理位置信息、时间信息、朋友关联关系等。

比如,在地理位置信息中,可以设置北京;抓取的数据的时间信息中,抓取的数据量至少为一个月,并可以不断地实时抓取并更新。

步骤二、对所述数据采集步骤采集到的数据进行挖掘,得到用户不同出行时段的OD点(起终点)。

在本步骤中,利用K-means聚类算法对所述采集到的数据进行挖掘。所述K-means聚类算法包括:K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,距离的值没有发生变化,说明算法已经收敛。

在本例中,采集到的第i个数据可以定义为向量:xi=(xi1,xi2,xi3)(粗体字母代表向量,下同),其中xi1表示第i个点的经度,xi2表示第i个点的纬度,xi3表示第i个点的时间。在计算地点聚类中心之前可以先利用时间进行分类,根据xi3即微博的发布时间将数据集分割为上班集与下班集。考虑到大部分人的上班时间集中在5:00~9:00,下班时间集中在16:00~20:00,所以当xi3∈(5,9)时,将xi点放进上班集进行地点聚类,当xi3∈(16,20)时,将xi点放进下班集中进行地点聚类,其余数据点视为无效点被过滤掉。这一步实现了初步的数据过滤与分类,有利于后续步骤的聚类。

接下来进行第一次地点聚类,分别在上班集和下班集中各选出3个点作为备选点,即确定聚类中心数k=3。先定义上班集的第k个地点聚类中心为:

其中,分配系数该公式的意义是将参与了第k个上班集地点聚类的点的经纬度计算平均值,计算出的经纬度作为第k个上班集的聚类中心的坐标。

然后定义第i个点xi与第k个聚类中心μk之间的距离为:

Dik=(xik)T(xik)

计算步骤:

(1)先随机初始化聚类均值μ1、μ2、μ3

(2)对每个点xi都找到使Dik最小的k,将i点聚到该中心,并设置该分配系数zik=1;

(3)如果所有的zik与上一次迭代没有变化,则停止聚类,输出μ1、μ2、μ3

(4)否则按照①式更新μ1、μ2、μ3

用同样的办法可以得到下班集的三个聚类中心ρ1、ρ2、ρ3

用上述k-means聚类算法既可以实现数据筛选的功能,也可以实现数据聚类的功能,将聚类中心数k设置为3可以避免离散点对聚类中心的影响,例如,由于手机定位精度限制或者如果用户在逛街时也发了几个微博,这时坐标就有可能会极大偏离居住地,所以有必要将聚类中心数设置为大于1,而如果k设置过大则会产生过多的聚类中心,不利于下一步的二次聚类。经过多次试验发现k取3时在本专利中比较有效,基于上述第一次聚类的方法有利于挖掘出用户真正的居住地点与工作地点,为下一步的第二次聚类做好了数据准备。

步骤三、目标用户关系挖掘,在找到目标用户之后,根据其微博的朋友关系,寻找与其出行规律相似的用户,从而进一步扩大目标用户的范围。

由于社交软件是一个大的社交媒体,例如微博,本实施例目标用户在其微博上的朋友,很可能就是他在现实生活中的亲人、朋友、同事,很可能和目标用户具有相似的出行规律,有条件成为新的目标用户。通过挖掘目标用户的方式能够较为快速地确定多个目标用户,这样相对于进行海量的计算来说能够节省效率和提高识别的准确性。

进一步地,由于本实施例中的目标用户在微博中可能有很多朋友,如果针对其朋友逐个分析其出行规律,同样会带来大量计算。因此所以在遍历其朋友圈时,本实施例中优选地,重点选择符合如下条件的“重点朋友用户”的社交软件数据进行分析,以提高找到其他目标用户的运算效率:条件1,和目标用户是互相关注关系;条件2,和目标用户在微博中频繁互动;条件3,和目标用户有共同的朋友。以上条件1、条件2、条件3之间可以是和的关系,也可以是或的关系,也可以在三个条件中选择部分或全部进行组合。

遍历目标用户的朋友圈关系,找出满足上述条件的所有重点朋友,然后计算出每一个朋友s的上班集聚类中心μs=(μ1、μ2、μ3)和下班集聚类中心ρs=(ρ1、ρ2、ρ3)。然后计算每一个重点朋友s与目标用户d(μd、ρd)的线路相似度。由于余弦相似度在分类算法具有运算方便、效果明显的特点,所以根据余弦相似度可以定义上班集线路相似度:

如果cosθ大于某个阈值(此值可由实验得到),则认为朋友s和目标用户d的线路相似,将所有相似的朋友放进一个新的集合中,进行第四步的二次聚类。

步骤四、对目标用户群体进行聚类,得到用户群最终的聚类中心(μk,ρk),此值即可作为互联网班车线路的OD点。

将步骤三得到的用户群的(μ、ρ)按照上班集与下班集分为两个集合,分别计算两个聚类点。由于经过步骤三的相似度判断,所以该步骤中的数据会较为集中,异常点较少,所以可以降低聚类中心数为1,从而降低企业的决策成本。设μ=(μ1,μ2,...,μ3n),当k=1时,根据步骤二的公式可以推出最终的上班集聚类中心为:

同理可以算出下班集聚类中心为:

最终得到第k个用户群的OD点为(μk,ρk),企业可以根据这个点来增设互联网班车线路。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1