一种基于大数据的旅游客流预测方法与流程

文档序号:14951176发布日期:2018-07-17 22:35阅读:722来源:国知局

本发明涉及一种客流预测方法,特别是一种基于大数据的旅游客流预测方法。



背景技术:

传统的客流统计方式有这么几种:人工客流统计、红外线感应客流统计、三辊闸客流统计、重力感应客流统计等。

人工统计方式:由人工来统计客流量,这种方法存在很大弊端。

缺点:首先,统计人员的注意力不可能长时间的保持高度集中,极易在疲倦的时候漏数顾客人数。其二,是时间方面,统计员不可能长时间的、不间断的工作,对于商场一般12个小时以上的营业时间来说,很难做到全面统计。其三,是成本方面,采用人工的方式统计客流所产生的人力薪资成本毫无疑问要比采用设备统计的成本要高出许多,而且设备属于一次性投入,而人力成本属于持续性投入。因此,人为客流统计方式只能作为某时间段的概数统计,缺乏全面性和有效性。

红外线感应统计方式:红外感应客流统计设备可以分为:红外对射方式、红外反射方式等设备,其主要的实现方式是对从红外感应区域经过的人体,切断或阻挡红外线使其产生电阻变化、或是通过检测人体发出的10um左右的特定红外线来判断人体数量。此方式成本比较适中,可以在人们自由进出门口时,系统自动获取客流数据,设备较小且安装美观。

缺点:其一,由于红外光极易受到外界因素干扰,使其统计数据产生较大误差;对于比较宽的门口,多人同时经过的时候也容易产生漏数现象;其二,由于其本身技术原因,红外方式无法很好的判断顾客是进入或是出去,只能统计到是有人经过,因此数据采集的单一性影响客流分析的结果。

三辊闸方式:三辊闸方式主要采用机械方式,顾客进入相关场所需要经过翻滚闸口,翻滚闸滚动一次,由此记录一个进、出人员。

缺点:三辊闸方式对于数据统计比较准确,但是由于需要在出入口处安装三辊闸机器,对于商场来说缺乏美观性,而且便利性不够,无法快速进出,因此并不适合于商场等场所应用。

重力感应方式:重力感应主要是在地板上安装重力感应装置,计算当人体踩踏过去的时候,计算客流人数。但由于安装相对要求较高、成本高、而且其稳定性方面的问题,很少被商业用户所使用。

综合以上几种传统的客流统计方式,都很难较好的满足商业用户的需求。



技术实现要素:

本发明所要解决的技术问题是提供一种基于大数据的旅游客流预测方法,借助手机大数据实现游客分布、客源分析、行为分析、预警监控功能。

为解决上述技术问题,本发明所采用的技术方案是:

一种基于大数据的旅游客流预测方法,其特征在于包含以下步骤:

步骤一:数据采集,采集用户位置信息;

步骤二:数据关联,将用户位置信息与用户位置状态进行关联;

步骤三:数据处理,通过特定的模型对特定区域的客流量,消除干扰数据,对统计数据进行校准;

步骤四:采用match算法对旅客数据客流进行统计和预测;

步骤五:基于统计分析与数据挖掘方法,建立反推模型,进而计算指定区域全量用户流量;

步骤六:基于客流的数据统计分析,统计历史数据客流数据,建立客流预测模型,根据景区游客特点,建立以周为单位的计算模型,并辅助以年的数据进行校正。

进一步地,所述步骤一具体为,

实时采集用户位置更新信息,以socket接口的方式与信令共享平台对接获取位置更新数据;

实时采集运营商通话信令数据,以socket接口的方式与信令共享平台对接获取运营商通话信令数据;

利用不同信令接口信令中的号码、产生时间及逻辑关系,建立imsi、tmsi和msisdn之间的对应关系,并记录所述对应关系的更新时间;

根据对应关系及其更新时间,对接收的信令消息进行imsi或msisdn的号码回填,保存所述号码回填之后的信令消息。

进一步地,所述步骤二具体为,

通过实时采集的数据,建立用户位置状态表,实时更新用户位置的最新状态,并为用户的来源打上标签,实时统计某一区域的客流量情况,及外地用户的来源分布情况;

通过对位置更新数据历史数据的统计分析,按天、周、月的方式统计地市维度或特定地域维度的、周期性的客流的变化情况。

进一步地,所述步骤三中,通过对运营商呼叫实时通话的采集与处理,实时统计重点基站的网络质量情况,同时与告警系统对接,当重点基站的网络质量出现问题时,即时预警并即时处理网络问题。

进一步地,所述步骤四的match算法具体为,

定义r表示游客数量,t表示预测时间,则根据历史数据计算同期数据加权取平均值,即:

采用周数据,月数据,年数据以及节假日数据多维度统计预测作为修正。相应地,不同维度的数据对应的权重不同。定义周、月、年和节假日的数据分别为rwrmryrh。通过历史实际数据与历史预测数据的偏移量的比较,调整权重参数的大小。

δr=|rr-rp|其中rr表示真实数据,rp表示预测数据

定义调整后的对应的权重参数为abcd,选取的作为预测的周、月和年数据个数分别是jkl。得到最终的预测方程为:

进一步地,所述步骤六中,根据历史数据,以周为周期进行叠加统计,排除节假日数据,如周一数据预测,则统计历史所有周一的数据趋势,进行叠加,并按时间顺序加权取中间值得到变化曲线趋势,再根据当前数值按变化曲线趋势计算增减度,以预测未来几小时的客流变化。

本发明与现有技术相比,具有以下优点和效果:

1、通过建设游客流量动态监测系统,实现对旅游单位游客流量的实时动态监测及游客来源分析;

2、实现各景区游客的预警监控管理功能;

3、提供各景区游客的多维度分析,实现对各景区的横向、环比分析;

4、帮助旅游单位进行针对性的营销和管理,为旅游管理部门的分析和决策提供准确的决策数据支持。

附图说明

图1是本发明的一种基于大数据的旅游客流预测方法的系统框架图。

图2是本发明的号码地理位置关联图。

图3是本发明的云计算共享平台示意图。

图4是本发明的运营商数据分析模型图。

图5是本发明的实施例的样本量和精准度关系图。

图6是本发明的实施例的预测准确率图。

图7是本发明的实施例的最终客流预测效果图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。

如图1所示,本发明的一种基于大数据的旅游客流预测方法,以信令共享平台的位置更新数据作为数据源,通过数据预处理阶段,将全量用户id,位置等标签信息保存在统一数据仓库中;基于数据仓库,作基于多种维度的人口流量分布等统计分析。以通话次数、掉线率等指标,统计相应位置网络质量情况,进行区域维度的网络质量运营情况可视化监控。包含以下步骤:

步骤一:数据采集,采集用户位置信息;

实时采集用户位置更新信息,以socket接口的方式与信令共享平台对接获取位置更新数据,数据接受在秒级内完成;

实时采集运营商通话信令数据,以socket接口的方式与信令共享平台对接获取运营商通话信令数据,数据接受在秒级内完成;

利用不同信令接口信令中的号码、产生时间及逻辑关系,建立imsi、tmsi和msisdn之间的对应关系,并记录所述对应关系的更新时间;

根据对应关系及其更新时间,对接收的信令消息进行imsi或msisdn的号码回填,保存所述号码回填之后的信令消息。

步骤二:数据关联,将用户位置信息与用户位置状态进行关联;

通过实时采集的数据,建立用户位置状态表,实时更新用户位置的最新状态,并为用户的来源打上标签,实时统计某一区域的客流量情况,及外地用户的来源分布情况;

通过对位置更新数据历史数据的统计分析,按天、周、月的方式统计地市维度或特定地域维度的、周期性的客流的变化情况。号码地理位置关联见图2。

步骤三:数据处理,通过特定的模型对特定区域的客流量,消除干扰数据,对统计数据进行校准,如:去除常住人口、去除过路人,去除常住的外来人员等;

通过对运营商呼叫实时通话的采集与处理,实时统计重点基站的网络质量情况,同时与告警系统对接,当重点基站的网络质量出现问题时,能即时预警并即时处理网络问题。云计算共享平台见图3。

步骤四:采用match算法对旅客数据客流进行统计和预测;

match算法具体为,

定义r表示游客数量,t表示预测时间,则根据历史数据计算同期数据加权取平均值,即:

采用周数据,月数据,年数据以及节假日数据多维度统计预测作为修正。相应地,不同维度的数据对应的权重不同。定义周、月、年和节假日的数据分别为rwrmryrh。通过历史实际数据与历史预测数据的偏移量的比较,调整权重参数的大小。

δr=|rr-rp|其中rr表示真实数据,rp表示预测数据

定义调整后的对应的权重参数为abcd,选取的作为预测的周、月和年数据个数分别是jkl。得到最终的预测方程为:

样本估计值的精确度,与样本量的绝对大小关系密切,与样本在总体中的比例关系不大,在实际抽样过程中,抽样的样本量是总体的25%(电信的市场占有量)抽样准确度达到99.9%。因此理论上,具备反推全量可行性。运营商数据分析模型见图4。

步骤五:基于统计分析与数据挖掘方法,建立反推模型,进而计算指定区域全量用户流量;样本量和精准度的关系见图5。

步骤六:基于客流的数据统计分析,统计历史数据客流数据,建立客流预测模型,根据景区游客特点,建立以周为单位的计算模型,并辅助以年的数据进行校正。

根据历史数据,以周为周期进行叠加统计,排除节假日数据,如周一数据预测,则统计历史所有周一的数据趋势,进行叠加,并按时间顺序加权取中间值得到变化曲线趋势,再根据当前数值按变化曲线趋势计算增减度,以预测未来几小时的客流变化。预测准确率见图6。

近期客流变化规律具有相似性,越近的时间的参考价值越大,所以根据时间先后顺序设置权重,以月为单位从近到远进行递减。而递减率的系数以上下浮动10%作为比较,计算三种情况下的准确率,选用最准确的系数。根据历史数据统计得出的客流变化模型,进行客流预测的数据平均准确率在85%左右。

下面以具体的案例进行说明。

案例1:长岛智慧旅游

图表化格式显示重要旅游统计数据,可调用历史数据进行对比分析。通过运营商处获取的客流、客源信息,可进行景区实时客流统计、景区游客接待排行统计、景区接待人数同比环比分析、首选景区排行统计、游客年龄层分析、游客景区驻留时长分析、游客游览线路排行统计。各类统计数据以列表方式进行存储和查询,以柱状图、折线图、饼图等方式进行效果演示。最终客流预测效果图见图7.

实时客流分析:该模块实时提供长岛及所有景点实时接待游客数量,数据更新频率:15分钟更新一次。

游客来源分析:该模块按天提供城市及景区到访游客的来源省份排名及各省份游客所占比例,以热图形式展示一周内游客在全国各省分布情况。以城市其景区的热度高低来辅助旅游营销部门制定相应的市场调剂政策,15分钟更新一次数据。

游客属性分析:该模块按天统计长岛及其所有景点景区游客性别及年龄层分布情况分析,将游客的年龄层次分为0-20岁、20-30岁、30-40岁、40-50岁、50-60岁、60岁及以上。数据以饼状图展示各年龄段游客占比,支撑旅游业个性化服务和精准营销,每天跟新一次数据统计。

停留时间统计:该模块按天统计游客在城市下辖景区的平均停留时长,展示近一周游客在景区的平均停留时长排名。

客流对比分析:该模块提供城市及景区节假日(最高人数)与正常客流量的对比分析,在数据积累的基础上实现游客数量的对比分析。

首访景区统计:该模块以景区维度分别统计外省游客和本省游客在该城市内首访景区排名及游客占比。

旅游线路分析:根据游客位置轨迹分析各城市热门旅游线路top10排名,展示各旅行线路排名及游客占比。

案例2:徐州智慧旅游

景区实时客流统计、景区游客接待排行统计、景区接待人数同比环比分析、首选景区排行统计、游客年龄层分析、游客景区驻留时长分析、游客游览线路排行统计。各类统计数据以列表方式进行存储和查询,以柱状图、折线图、饼图等方式进行效果演示。

系统需要处理超过1600万用户信令数据(含江苏本地客户和漫游客户),忙时信令流量超过800mbps。

实验证明,85%的人类轨迹可以利用该算法正确预测。在此基础上,提出历史数据反推的方法,进一步提高了预测的准确率,实现游客分布、客源分析、行为分析、预警监控功能,为旅游资源的管理与营销提供科学准确的决策依据。

本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1