一种面向超大城市的餐饮场馆热度分析方法与流程

文档序号:17861990发布日期:2019-06-11 22:55阅读:751来源:国知局

本发明涉及餐馆热度分析的技术领域,尤其涉及一种面向超大城市的餐饮场馆热度分析方法。



背景技术:

随着人口的快速迁移和经济优势富集效应,全球范围内,超大城市的形成趋势愈加明显。伴随持续的经济增长和人口迁移,全球的超大城市数量在逐步增多,其影响也涉及到城市的各个方面。由于餐饮消费是人类最为基础的消费行为之一,超大城市中人口规模、复杂流动性、交通状况、多样化消费能力等要素必将对消费模式和城市发展带来影响。

研究者们针对发展中以及发达国家和地区的餐饮行业已展开过一系列的探索。ip等人分析了澳门近年来关于餐饮业竞争的信息化发展态势,指出地理空间信息、社会数据以及数据挖掘的重要性。mattera等人关注西班牙国内的中小企业发展情况,研究哪些因素能够助力数据挖掘,从而帮助餐饮公司较快成长。评论被认为是消费者评价、判别餐厅优劣的一种重要方式,zhai等利用网上在线评价数据,包括评论长度、评论时间和评论可读性来研究评论对于餐饮消费的影响。同时,交通因素似乎也会对城区零售业价格形成产生影响,在大型城市中,便利的交通,例如地铁和公交线路很可能打造出新的餐饮消费商业走廊。

在人们越来越重视饮食文化的今天,消费者有时愿意等待数小时之久去品尝一餐美食,这种情况下,到底是何种因素引发了如此的热切追求?换言之,为什么有些餐厅受到越来越多的欢迎?现有技术还未给出具体的分析方法。



技术实现要素:

针对现有技术没有公开如何分析餐饮场馆热度的影响因素的技术问题,本发明提出一种面向超大城市的餐饮场馆热度分析方法,利用大众点评网和百度地图获取并计算得到餐厅消费数据样本,基于统计学方法建立线性回归模型,分析得到餐厅消费热度影响的主要因素。

为了达到上述目的,本发明的技术方案是这样实现的:一种面向超大城市的餐饮场馆热度分析方法,其步骤如下:

步骤一:选择目标超大城市:超大城市具有庞大的人口数量、较高程度的经济和文化水平以及完善的工作和生活配套设施;

步骤二:选择数据来源:初始定义目标超大城市中潜在影响餐饮场馆热度的多种类别因素,根据多种类别因素选择合适的数据来源,获取同多种类别因素相对应的样本数据;

步骤三:初始分析所有样本数据,在多种类别因素中选择主要类别因素,并选择能够表征餐厅热度的变量作为因变量,将潜在影响热度的多种类别因素作为自变量;

步骤四:对步骤三处理后的主要类别因素的原始数据进行数据检验和数据变换,使变换后的数据接近严格的正态分布;

步骤五:利用步骤四处理后的数据建立线性回归模型,对线性回归模型进行优化,获得调优后的回归模型;

步骤六:通过步骤四中数据变换的反变换将调优后的回归模型还原,得到自变量与因变量的关系,获取目标超大城市的餐饮场馆热度与多种类型因素间相互依赖的定量关系。

所述样本数据来源于互联网上公开的餐饮消费网站上的餐厅,待分析餐厅的相关数据完整,待分析餐厅位于超大城市的典型区位。例如,大众点评网上北京地区的美食板块上2016年始终有数据可循的餐厅的数据,餐厅的位置为北京较为繁华的二环沿线2公里范围内。

所述步骤二中多种类别因素充分考虑超大城市中可能影响餐饮场馆经营的各类要素,多种类别因素包括餐厅质量、就餐环境、交通状况、周边消费设施和\或人口群体效应,其中的地理位置、公共交通和地标建筑的信息均来源于百度地图;所述样本数据的获取方法包括网络爬取、公开api接口或第三方付费的方法。

所述样本数据的主要类别因素包括总评论数α、综合星级β、人均消费υ、最近地铁站距离τs、附近的公交线路数τb、周边大型商业中心的个数πc及大型住宅区和大学个数πr,其中,最近地铁站距离τs和附近的公交线路数τb是与公共交通便利性相关的类别因素,综合星级β是餐厅综合性体验的类别因素,周边大型商业中心的个数πc、大型住宅区和大学个数πr以及人均消费υ是与群体聚集效应相关的类别因素;所述总评论数α为因变量,综合星级β、人均消费υ、最近地铁站距离τs、附近的公交线路数τb、周边大型商业中心的个数πc及大型住宅区和大学个数πr为自变量。

所述数据检验利用shapiro-wilk正态性检验方法实现,shapiro-wilk正态性检验方法样本数据进行方差齐性检验,在95%置信水平下,检验结果若大于0.05则样本数据之间不存在明显差异,从而检验样本数据是否符合正态分布。

所述数据变换利用box-cox变换进行处理,使得变换后数据更接近严格的正态分布;所述box-cox变换的变换规则为:

其中,y表示box-cox变换前的原始数值,y(λ)表示原始数值经box-cox变换后的数值,λ代表样本数据的待定转换参数,使得因变量y(λ)满足:

其中,x表示自变量向量,β1为参数向量,x和β1均为待估计参数,ε表示随机误差向量的残差,σ为误差标准差,in为n*n的单位矩阵。

所述线性回归模型为多元线性回归模型或广义线性回归模型,利用多元线性回归模型得到的回归模型为:ylam=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6;

其中,ylam表示基于box-cox变换的餐厅受欢迎程度、来源于样本数据中的总评论数α;x1代表消费者融合了口味、环境与服务为餐厅打分的综合星级,来源于样本数据中的综合星级β;x2为餐厅的平均消费金额,来源于样本中的人均消费υ;x3为该餐厅与最近地铁站的距离、来源于样本数据中的最近地铁站距离τs;x4为餐厅1km范围内公交线路数目、来源于样本中的附近的公交线路数τb;x5表示餐厅1km范围毗邻的大型居住区和大学的数目、来源于样本数据中大型住宅区和大学个数πr;x6为市级商业服务中心的数目、来源于样本数据中周边大型商业中心的个数πc;同时,(β0,β1,β2,β3,β4,β5,β6)为未知参数。

所述步骤五中对线性回归模型进行优化的方法为:①利用spearman或pearson方法判断各个自变量是否同因变量存在显著的相关关系;②如果自变量与因变量存在共线性问题,则采用多元岭回归方法减少自变量与因变量的共线性;③采用逐步回归法对初始线性回归模型中各项参数的值进行计算和分析,对于影响餐饮场馆热度的强弱程度进行判断,将影响微弱的相应自变量予以剔除;④获得最终的分析模型。

本发明的有益效果:选取北京2环沿线1公里范围内的餐饮场所为研究目标,首先基于大众点评网和百度地图进行样本爬取与计算,通过分析餐厅的热度特性,建立了影响餐厅热度的因素体系,包括综合评分、平均价格、距最近地铁站最短距离、1公里内市级商业服务中心个数等多个要素;通过显著性检验、box-cox变换建立影响餐厅热度的多元回归分析模型,并利用逐步回归法优化模型;根据这200家餐厅有效样本进行运算分析。结果表明:(1)食客非常看重餐厅提供的包括口味、环境和服务在内的综合性感受,这些都属于餐饮业中最为核心的要素;(2)群体效应对于餐饮行业具有重要性,也从另一个角度说明餐厅选址地点对其热度具有正向的影响;(3)在超大城市中公共交通、用餐消费水平等因素对于餐厅热度并未有直接的影响。本发明验证了在超大城市中心区域范围内,餐厅综合体验以及群体效应对餐厅的热度影响最大,建议城市商业区整体规划要充分考虑餐饮消费能力的构成以及运营管理能力的提升。本发明对于超大城市中餐厅的选址、运营模式、消费升级等具有良好的参考意义,能够为城市区域发展规划和餐饮格局优化提供借鉴,从而促进超大城市餐饮行业的良性可持续发展。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明样本数据的来源区域的示意图。

图3为本发明自变量的分散图。

图4为本发明优化后的回归模型的残值直方图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种面向超大城市的餐饮场馆热度分析方法,其步骤如下:

步骤一:选择目标超大城市:超大城市具有庞大的人口数量、较高程度的经济和文化水平以及完善的工作和生活配套设施。

为了分析超大城市中的餐饮消费行为,尤其是获取关于影响餐厅受欢迎程度的因素,需要将所有的相关数据进行定义和描述。当前中国存在四个实际上的超大城市,涵盖北京、上海、广州和深圳,其中北京无可争议的具有综合性的领先优势,无论是政治、经济还是文化层面。根据北京统计局的数据,截至2017年,北京常住人口接近2170万,消费额达到912亿元(其中仅仅统计了年营业额超过200万的企业),逐年增长比率达到9.6%。由于具有总量巨大且丰富多样的餐饮消费现状,本发明以北京作为理想的研究对象。

步骤二:选择数据来源:初始定义目标超大城市中潜在影响餐饮场馆热度的多种类别因素,根据多种类别因素选择合适的数据来源,获取同多种类别因素相对应的样本数据。

所述样本数据来自于大众点评网上北京地区的美食板块上2016年始终有数据可循的餐厅的数据,餐厅的位置为北京较为繁华的二环沿线2公里范围内。

伴随因特网在社会各个领域重要性的不断提升,消费者的餐饮消费行为已经逐渐的体现于互联网之上,相关的评价已经成为非常有价值的数据分析依据。基于此,本发明将目前较为主流、具有影响力的消费类网站--大众点评网(http://www.dianping.com/)作为研究目标,获取相关的餐饮消费数据。

作为一个成熟的超大城市,北京市中最为活跃的商业活动和完善的基础设施都集中在中心城区,因此本文选择北京较为繁华的二环沿线2公里范围作为研究区域,如图2所示,以收集餐饮相关信息,考虑到我国饮食类型的多样化,样本数据中包括了尽可能多的餐食类型。通过大众点评北京地区的美食板块,获取到涵盖多种餐饮类型、共计200家餐厅的消费信息。需要指出,由于部分商家在网站上线时间过短,因此选择了从2016年1月开始直至2016年12月始终有数据可循的200家餐馆的相关信息。此外,关于地理位置、公共交通、地标建筑等信息均来源于百度地图,并加以计算得到。

步骤三:初始分析所有样本数据,在多种类别因素中选择主要类别因素,并选择能够表征餐厅热度的变量作为因变量,将潜在影响热度的多种类别因素作为自变量。

所述步骤二中多种类别因素充分考虑超大城市中可能影响餐饮场馆经营的各类要素,多种类别因素包括餐厅质量、就餐环境、交通状况、周边消费设施和\或人口群体效应,其中的地理位置、公共交通和地标建筑的信息均来源于百度地图;所述原始分析的方法包括网络爬取、公开api接口或第三方付费的方法。

所述样本数据的主要类别因素包括总评论数α、综合星级β、人均消费υ、最近地铁站距离τs、附近的公交线路数τb、周边大型商业中心的个数πc及大型住宅区和大学个数πr,最近地铁站距离τs和附近的公交线路数τb是与公共交通便利性相关的类别因素,综合星级β是餐厅综合性体验的类别因素,周边大型商业中心的个数πc、大型住宅区和大学个数πr以及人均消费υ是与群体聚集效应相关的类别因素;如表1所示,爬取和计算得到的所有样本数据包括7个类别,均与餐厅的热度分析具有直接联系。需要指出,评论数目α能够较为合适的反映一个餐厅的受关注程度。不可否认的是,即使一个看似不起眼的咖啡小馆,也可能吸引众多粉丝,无论消费层次如何。因此,总评论数α为因变量,综合星级β、人均消费υ、最近地铁站距离τs、附近的公交线路数τb、周边大型商业中心的个数πc及大型住宅区和大学个数πr为自变量。

表1.消费信息分类

步骤四:对步骤三处理后的主要类别因素的原始数据进行数据检验和数据变换,使变换后的数据接近严格的正态分布。

所述数据检验利用shapiro-wilk正态性检验方法实现,shapiro-wilk正态性检验方法为对样本数据进行方差齐性检验,在95%置信水平下,检验结果若大于0.05则样本数据之间不存在明显差异,从而检验样本数据是否符合正态分布。经过shapiro-wilk正态性检验,发现样本中的因变量数据为右偏态,为了满足正态分布要求,利用box-cox变换对其进行操作,使得变换后数据更接近严格的正态分布,从而作为后续分析的依据。

所述数据变换利用box-cox变换进行处理,使得变换后数据更接近严格的正态分布;所述box-cox变换的变换规则为:

其中,y(λ)表示转化后的因变量,y表示表示box-cox变换前因变量的原始数值,其中,y表示box-cox变换前的原始数值,y(λ)表示原始数值经box-cox变换后的数值,λ代表样本数据的待定转换参数,使得因变量y(λ)满足:

其中,x表示自变量向量,β1为参数向量,x和β1均为待估计参数,ε表示随机误差向量的残差,σ为误差标准差,in为n*n的单位矩阵。

针对含有200条样本数据的样本空间,利用最大似然估计法(mle)计算待定转换参数λ的值,结果如表2所示,可知待定转换参数λ较优取值范围在[0.0855,0.2597]之间,最优估计值为0.17。为了使计算简洁,本发明取0.2作为λ值。

表2.因变量box-cox变换系数

步骤五:利用步骤四处理后的数据建立线性回归模型,对线性回归模型进行优化,获得调优后的回归模型。

所述线性回归模型为多元线性回归模型或广义线性回归模型。经过试算,利用多元线性回归模型可以较好的解释各类因素对餐饮消费热度的影响。利用多元线性回归模型得到的回归模型为:ylam=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6,

其中,ylam表示基于box-cox变换的餐厅受欢迎程度、来源于样本数据中的总评论数α;x1代表消费者融合了口味、环境与服务为餐厅打分的综合星级,来源于样本数据中的综合星级β;x2为餐厅的平均消费金额,来源于样本中的人均消费υ;x3为该餐厅与最近地铁站的距离、来源于样本数据中的最近地铁站距离τs;x4为餐厅1km范围内公交线路数目、来源于样本中的附近的公交线路数τb;x5表示餐厅1km范围毗邻的大型居住区和大学的数目、来源于样本数据中大型住宅区和大学个数πr;x6为市级商业服务中心的数目、来源于样本数据中周边大型商业中心的个数πc;同时,(β0,β1,β2,β3,β4,β5,β6)为未知参数。

随后实施线性拟合和分析,得到的各个自变量系数。如表3所示,该线性拟合得到的可决系数为0.2171,p值为8.538e-10。可决系数和p值均是通过调用线性回归方法得到的,可决系数用于测度回归方程拟合中ylam对自变量x1-6的协变关系效果的量数;p值是体现显著性检验的标准,一般以p<0.05为显著,p<0.01为非常显著,因此本例非常显著。

表3.初始线性拟合系数

所述步骤五中对线性回归模型进行优化的方法为:①利用spearman或pearson方法判断各个自变量是否同因变量存在显著的相关关系;②如果自变量与因变量存在共线性问题,则采用多元岭回归方法减少自变量与因变量的共线性;③采用逐步回归法对初始线性回归模型中各项参数的值进行计算和分析,对于影响餐饮场馆热度的强弱程度进行判断,将影响微弱的相应自变量予以剔除;④获得最终的分析模型。

为了判断自变量之间是否存在多重共线性问题,本发明引入方差膨胀因子(vif)进行检测,调用r语言中的vif方法得到的数据如表4所示,结果显示所有因变量均满足0<vif<10。此外,通过构造变量之间的散点图进一步实施判断,参数为上述的几类自变量参数,调用plot方法如图3所示,从而表明该线性回归模型不存在多重共线性问题。

表4.vif检测结果

随后为了达到更优的拟合程度,进行自变量x1-x6与因变量ylam的相关分析,由表5可知,自变量x3和x4同因变量ylam之间不具备相关关系,因为二者的p值均显著大于0.05,即在置信度为95%的情况下,原始具有相关关系的假设无法成立。

表5.自变量相关性分析

基于此,采用逐步回归法(stepwiseregression)对初始的线性回归模型进行优化,其中采用比较梯度(bidirectionalelimination)方法从模型中消除不相关自变量。经过比较,获得ylam~x1+x5为最佳模型,此种情况下,对其进行拟合的结果如表6所示,其中可决系数为0.2248,p值为4.722e-12,均优于初始线性回归模型。

表6.优化后自变量系数

由此,通过优化后的自变量参数,本发明获得调优后的回归模型,如公式(4)所示,其残差满足平均值为0.00、标准差为3.7744的正态分布,残差直方图如图4所示。

ylam=-3.64965+3.38566x1+0.30572x5(4)

步骤六:通过步骤四中数据变换的反变换将调优后的回归模型还原,得到自变量与因变量的关系,获取目标超大城市的餐饮场馆热度与多种类型因素间相互依赖的定量关系。

由于回归前进行了box-cox变换,公式(4)不能直观的显示出商品住宅项目销售价格与各个因素之间的原始关系,因此根据box-cox变换方式将公式(4)还原,得到自变量与因变量的相关关系如下:

y=(0.27+0.677x1+0.0061x5)5(5)

box-cox变换还原后的线性拟合模型如公式(5)所示,由此可知,在影响餐饮评论数目的各项因素中,消费者为餐厅给出的综合星级x1对应的系数绝对值最大,表明某个餐厅赋予食客的综合享受最为重要,它融合了口味、环境和服务,能够最显著地影响该餐厅的热度。其次,影响较大的要素是大型住宅区和大学的数目,事实上,这也是餐厅位置属性的一个反映。该要素说明,群体效应对于餐饮行业的重要性,更多的人口流量很可能带来更多的食客进行消费。

同之前的预期假想相悖,公共交通因素x3和x4似乎对于餐厅消费评论总数没有影响,从结果来分析,是由于公共交通通常具有固定的运营时段,考虑到就餐时间不确定的因素,消费者未必会采用公共交通的方式就餐,因此公共交通条件的优劣对于餐厅热度没有显著影响。同时,人均消费情况也是意料之外,基本上未对因变量产生影响,考虑到北京较高的消费水平以及极为丰富的饮食资源,食客们很多时候会更加注重餐饮的质量,而非价格。

北京作为知名和典型的超大城市,其中心城区的餐饮业发展高度成熟,本发明利用大众点评网和百度地图获取并计算得到餐厅消费数据样本,基于统计学方法建立线性回归模型,对北京2环沿线的餐厅消费热度影响因素进行分析,得出以下结论:(1)分析结果表明食客非常看重餐厅提供的包括口味、环境和服务在内的综合性感受,这些都属于餐饮业中最为核心的要素;(2)分析结果阐释了群体效应对于餐饮行业的重要性,也从另一个角度说明餐厅选址地点对其热度具有正向的影响;(3)相对的,分析结果显示,在超大城市中公共交通、用餐消费水平等因素对于餐厅热度并未有直接的影响。综上,本发明对于超大城市中餐厅的选址、运营模式、消费升级等具有良好的参考意义,能够为城市区域发展规划和餐饮格局优化提供借鉴,从而促进超大城市餐饮行业的良性可持续发展。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1