一种区域旅游产业发展的分析方法与流程

文档序号：17842761发布日期：2019-06-11 21:24阅读：391来源：国知局

本发明涉及计算机数据处理与分析技术领域，具体地，涉及一种区域旅游产业发展的分析方法。

背景技术：

近年来，国内旅游市场保持火热发展，国民旅游消费需求旺盛。全域旅游已经成为国家战略，是未来旅游业发展大方向。全域旅游涉及区域各相关部门齐抓共建，所有居民共同参与，充分利用各要素，实现游客全过程、全时空的旅游体验。其中，旅游+互联网是实现全域旅游的关键一环，利用数据挖掘为政府、景区、企业和游客提供服务是未来旅游发展大趋势。

尽管旅游行业发展如此迅速，公众旅游消费热情高涨，但文化旅游监管部门对整个产业的发展缺乏完整的数据和较为专业的行业分析，对这个产业发展的分析大多局限于景区、酒店、旅行社等较小范围的发展分析。

综上所述，本申请发明人在实现本申请发明技术方案的过程中，发现上述技术至少存在如下技术问题：

在现有技术中，现有的旅游产业发展的分析方法存在分析全面性不足，分析准确性较差的技术问题。

技术实现要素：

本发明提供了一种区域旅游产业发展的分析方法，实现了能够全面准确的对区域旅游产业发展进行分析的技术效果。

本方法以某一区域为研究对象，对旅游产业发展相关数据进行抓取、整合和分析，通过对数据的多维度分析，基于深层次挖掘探索数据背后表现的深层次问题，实现以旅游产业发展监测为主，以服务游客为辅，为文化旅游监管部门掌握地区旅游产业发展提供可靠的参考依据，并为相关政策的制定提供数据支撑服务。

为实现上述发明目的，本申请提供了一种区域旅游产业发展的分析方法，包括如下步骤：

步骤一：确定旅游行业健康度的待分析区域；

步骤二：数据采集和预处理；

1、从ota网站爬取对应区域旅游行业数据，并进行存储；

数据爬取对象为途牛、同程、携程、马蜂窝、驴妈妈、艺龙、大众点评等ota网站，按照餐饮、住宿、交通、旅游、购物、娱乐6个类别，爬取数据字段为商品或服务列表、商品或服务详情、用户评论。

将爬取的数据，以文本形式分类存放在本地，当每次爬取任务完成，再将本地文件推送到指定hdfs服务器上，并保留备份。

2、对存储的数据进行预处理

(1)缺失数据处理

获取数据分为三类：商品或服务列表、商品或服务详情和用户评论，三者之间以商品或服务的id作为关联，若商品或服务无法关联到商家，则过滤此类数据。

数据最有价值字段为评论内容，若评论字段内容为空，则过滤该评论数据。

(2)异常数据处理

评论字段内容为“系统默认好评”、“此用户未填写评价内容”等，则删除该评论数据。

(3)数据标准化

数据来源于多个ota，且不同平台数据抓取标准不一致，需要对数据标准化。

步骤三：模型训练

1、构建训练集和测试集

(1)标注情感趋向

按照餐饮、住宿、交通、旅游、购物、娱乐6个类别，每个类别随机选择通过步骤二处理过的样本评论数据，对每条评论内容进行情感趋向标引，差评标注为-1，好评标注为1，并基于标引后的样本评论数据构造训练集和测试集。

(2)语料处理

采用分词工具对(1)的样本评论数据进行分词处理。

(3)构建样本评论数据的词向量

调用word2vec.word2vec方法来实现对每个词语的向量，形成词向量。

2、基于训练集词向量，训练支持向量机模型

3、通过在训练集适当增加差评评论，优化训练支持向量机模型。

步骤四：区域旅游行业健康度分析

对区域旅游数据进行分词、构建向量；将向量输入步骤三中的训练的模型，计算得到每条评论的情感倾向。

步骤五：区域旅游行业细分维度分析

1、构建旅游行业各类别题词库

(1)按照餐饮、住宿、交通、旅游、购物和娱乐6个类别，提取每一个类别下细分维度的情感词、被情感词修饰的词汇、修饰情感词的否定词等，构建旅游行业各类别下细分维度的题词库。

(2)题词整理

将餐饮、住宿、交通、旅游、购物和娱乐6个类别中每一个类别下细分维度同一维度情感词聚合去重；

聚合所有维度情感词，为情感词赋予情感色彩标记，约定积极：1，消极：-1，形成情感词库。

将餐饮、住宿、交通、旅游、购物和娱乐评论被修饰词聚合去重，给出维度标记，形成文档。

提出各维度专有情感词，标记相应维度，形成维度识别库。

将(1)中提取的否定词聚合去重，形成否定词库。

2、分词分句

对评论分词，给出分词结果和相应词性，对分词结果依据词性对评论进行断句，形成单条评论的多个子句。

3、对每个子句提取维度

对分句参照维度识别库提取评论评价维度，若分句中有词汇是维度识别库中词汇，则可直接参照维度识别库识别出子句包含维度，若无，则子句维度不在此处维度分析关注的维度中。

4、计算维度情感倾向

对于任意评论约定默认其每一个维度情感倾向值。

5、计算情感倾向

基于子句，查找子句分词词汇是否出现在情感词库中，若出现在情感词库中，结合情感词库可识别出情感词倾向，若没出现在情感词库中，可认为子句词汇没有此次维度分析关注的维度情感词。

对子句和情感词库求差集，对结果集与否定词库求交集，通过判断交集中元素个数，可以判定否定词出现次数，以此结合情感词倾向给出最终情感倾向。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

通过能够全面准确的对区域旅游产业发展进行分析，基于本方法涉及的数据分析方法和研发积累，可类似运用于全国各地文化、旅游产业发展的分析和展示。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本申请中区域旅游产业发展的分析方法的流程意图；

图2是本申请中区域旅游产业发展的分析系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

具体实施例一：

请参考图1，步骤一：确定待分析区域，在本实施例中以成都市区域旅游产业为研究对象；

步骤二：数据采集和预处理；

1、从ota网站爬取对应区域旅游行业数据，并进行存储；

爬取的具体流程为：

爬取ota网站城市列表；

根据城市列表构造url，爬取商品或服务列表；

根据商品或服务列表爬取商品或服务列表详情；

根据商品或服务列表爬取商品或服务评论。

将爬取的数据，以文本形式分类存放在本地，当爬取任务完成，再将本地文件推送到指定hdfs服务器上，并保留备份。

2、对存储的数据进行预处理

(1)缺失数据处理；

数据最有价值字段为评论内容，若评论字段内容为空，则过滤该评论数据。

(2)异常数据处理；

评论字段内容为“系统默认好评”、“此用户未填写评价内容”等，则删除该评论数据。

(3)数据标准化；

数据来源于多个ota，且不同平台数据抓取标准不一致，需要对数据标准化。

如：各ota餐饮商家分类不一致，统一整合为中餐馆、休闲简餐、异地风味、火锅、自助餐、饮品、美食街/夜市、海鲜和其他9大类，标准如下：

中餐馆——途牛：中餐馆同程：饭店酒楼，农家乐马蜂窝：川菜，州菜，湘菜，浙菜，云南菜，粤菜，新疆菜大众点评：川菜，粤菜，北京菜，东北菜，新疆菜，私房菜，农家菜，家常菜，兔头/兔丁，烤鱼，素菜去哪儿：自贡盐帮菜，东北菜，北京菜，新疆菜，湘菜，川菜，私房菜。

休闲简餐——途牛：快餐小吃同程：小吃快餐，面馆，面包甜点，茶餐厅马蜂窝：快餐，外卖/窗口，小吃,粥店面食大众点评：小吃快餐，粉面馆，面包甜点去哪儿：小吃快餐，抄手，肥肠粉，米线，包子，豆花，面包甜点。

异地风味——途牛：异地风味，西餐厅同程：西餐厅，料理马蜂窝：东南亚美食，西餐，日本料理，韩国料理大众点评：西餐，韩国料理，日本菜，东南亚菜去哪儿：西餐，韩国料理，日式料理。

火锅——途牛：火锅同程：火锅马蜂窝：火锅大众点评：火锅，串串香去哪儿：火锅，四川火锅，鱼火锅，冒菜。

自助餐——途牛：自助餐厅同程：自助餐大众点评：自助餐去哪儿：自助餐。

饮品——途牛：咖啡店，甜品/饮料同程：饮品，咖啡馆，茶馆，酒吧马蜂窝：咖啡饮品，酒吧，茶馆，下午茶大众点评：咖啡厅，茶馆，下午茶去哪儿：咖啡厅，茶馆。

美食街/夜市——途牛：美食街/夜市，烧烤/烤肉店同程：烧烤撸串，熟食卤菜马蜂窝：烧烤大众点评：烧烤去哪儿：美食街hot，烧烤。

海鲜——途牛：海鲜/河鲜店同程：海鲜马蜂窝：海鲜大众点评：小龙虾，海鲜去哪儿：海鲜。

其他——途牛：当地特色同程：其他美食，商圈，当地特色/特产马蜂窝：连锁/加盟，主题、食堂、小酒馆、特色、港式大众点评：其他美食，食品保健，人气餐厅，创意菜，水果生鲜去哪儿：干锅，清真菜。

如：各住宿商家房型类别不统一，统一整合为单人间、大床房、双床房、家庭房、套房、多人间、亲子房和特色房。

单人间——模糊匹配包含“单人间”和“单间”等字样的房型。

大床房——模糊匹配包含“大床”、“客房”、“豪华房”和“精品房”等字样的房型。

双床房——模糊匹配包含“双床”、“双人”、“标准间”和“标间”等字样的房型。

家庭房——模糊匹配包含“家庭”等字样的房型。

套房——模糊匹配包含“套房”等字样的房型。

多人间——模糊匹配包含“四人”、“4人”、“6人”、“六人”、“8人”、“十”和“多人”等字样的房型。

亲子房——模糊匹配包含“亲子”等字样的房型。

特色房——模糊匹配包含“风情”、“榻榻米”、“北欧”、“现代”、“特价”、“情侣”、“河景”、“星空”、“观景”、“阳光”、“花园”、“森林”、“海浪”、“梦”、“影视”、“投影”和“观山”等字样的房型。

如：各ota景区等级书写规范不一致，爬虫标准不一致，现统一整合为aaaaa级、aaaa级、aaa级、aa级、a级和无星六星级：

表一景区等级数据标准化

数据来源于不同平台，部分数据需要去重。

统计某行业商家数量，同一商家在不同平台发布商家信息，统计商家数量需要去重，针对评论数据则仅需聚合。

步骤三：模型训练

1、构建训练集和测试集

(1)人工标注情感趋向

按照餐饮、住宿、交通、旅游、购物、娱乐6个类别，每个类别随机选择通过步骤二处理过的样本评论数据，利用人工标引的方法，对每条评论内容进行情感趋向标引，差评标注为-1，好评标注为1，并基于标引后的样本评论数据构造训练集和测试集。

训练集记录数为10000条，测试集记录为5000条。

人工标引时，对评论中出现差评情感词，就断定评论为差评，否则为好评；评论无明显情感倾向则默认好评。

示例：

-1,说实在的，店的初衷是好的，然而种类太少，味道一般，份量较少，价格偏贵，一锤子买卖。忠言逆耳，但仍然希望店主努力改进！

-1,服务太差了，一份鹅肠被打翻在地，服务员直接抓了就扔垃圾桶，没有任何赔偿措施，再也不会去了；

1,好吃到爆～下次还会再来～五花肉好棒～完美；

1,环境优美，东西不错，重点是老板娘漂亮些啊；

(2)语料处理

采用jieba分词工具实现评论分词对(1)的样本评论数据进行分词处理。

(3)构建样本评论数据的词向量

调用word2vec.word2vec方法来实现对每个词语的向量，形成词向量。

经过处理后得到情感趋势训练集t＝{(x1,y1),(x2,y2),...,(xn,yn)}，yi∈{-1,+1}，i＝1,2,...,n；其中，x表示样本，y表示该样本的情感趋势，0代表消极、+1代表积极，n代表训练数据的数量。

2、基于训练集词向量，训练支持向量机模型：

f(x)＝sign(w^*·x+b^*)；其中，w^*和b^*的计算过程为：设w^*和b^*为满足yi(w^t·xi+b)≥1最优解且w^*·x+b^*＝0；w^*为权值向量，b^*为偏置,t为情感趋势训练集。

其中训练数据集t＝{(x1,y1),(x2,y2),...,(xn,yn)}，yi∈{-1,+1}，i＝1,2,...,n。

其中w^*和b^*的计算过程为：

设w^*和b^*为满足yi(w^t·xi+b)≥1最有解且w^*·x+b^*＝0。

将测试集进行5折交叉验证，结果示例k-fold＝5:[0.9640.9530.9650.9860.982]，meanofk-fold＝5:0.97，分类的准确率较高，证明该模型可以用本领域的分类。

3、通过在训练集适当增加差评评论，优化训练支持向量机模型。

参照模型内预测和外预测状况，适当增加训练集样本量，使预测更加精确。

查找误分类情况主要集中在差评评分类为好评，通过在训练集添加差评评论能很大程度提高分类准确率，故通过添加训练集使得差评评论占比增大，以此来优化训练模型。

步骤四：区域旅游行业健康度分析

对区域旅游数据进行分词、构建向量；将向量输入步骤三中的训练的模型，计算得到每条评论的情感倾向。

利用评论记录唯一标识(commentid)排序(升序)进行分页读取数据，每次保存上次读取数据唯一标志最大值，将此值作为下次读取数据下限(不包含)，针对每次读取数据进行以下流程分析。

以下步骤基于示例评论进行相应步骤示例展示，原评论为：

commentid＝1514907434899311616747074说实在的，店的初衷是好的，然而种类太少，味道一般，份量较少，价格偏贵，一锤子买卖。忠言逆耳，但仍然希望店主努力改进！

commentid＝1507795037609384448903723价格便宜，停车场车位多，东北口味，不错。

将原评论进行分词：

commentid＝1514907434899311616747074[[说,0,1],[实在,1,3],[的,3,4],[，,4,5],[店,5,6],[的,6,7],[初衷,7,9],[是,9,10],[好,10,11],[的,11,12],[，,12,13],[然而,13,15],[种类,15,17],[太少,17,19],[，,19,20],[味道,20,22],[一般,22,24],[，,24,25],[份量,25,27],[较少,27,29],[，,29,30],[价格,30,32],[偏贵,32,34],[，,34,35],[一锤,35,37],[锤子,36,38],[买卖,38,40],[一锤子买卖,35,40],[。,40,41],[忠言,41,43],[逆耳,43,45],[忠言逆耳,41,45],[，,45,46],[但,46,47],[仍然,47,49],[希望,49,51],[店主,51,53],[努力,53,55],[改进,55,57],[！,57,58]]

commentid＝1514907434899311616747074[[价格,0,2],[便宜,2,4],[价格便宜,0,4],[，,4,5],[停车,5,7],[车场,6,8],[停车场,5,8],[车位,8,10],[多,10,11],[，,11,12],[东北,12,14],[口味,14,16],[，,16,17],[不错,17,19],[。,19,20]]

评论分词结果查找词向量，计算句子向量，输入步骤三中的训练的模型，计算得到每条评论的情感倾向。

前述评论输入步骤三中训练模型的预测结果为：

{commentid＝'1514907434899311616747074',resourcename＝'娃姐特色小吃',classfy＝'吃',hcp＝-1.0}-1.0(表示差评)

{commentid＝'1507795037609384448903723',resourcename＝'福姐食尚粗粮(北一路万达店)',classfy＝'吃',hcp＝1.0}1.0(表示好评)

其中commentid表示评论记录唯一标识，resourcename表示评论记录对应的商家，classfy表示该评论记录的对应分类(吃住行游购娱中的一类)，hcp表示经过模型计算后该评论记录的情感倾向，-1.0表示差评，1.0表示好评。

具体实施例二：

为进一步提高区域旅游产业发展的分析方法准确性，本实施例提供了一种对区域旅游行业按照餐饮、住宿、交通、旅游、购物和娱乐6个类别(吃住行游购娱)进行细分维度分析的方法。

1、构建旅游行业各类别题词库

具体的，“吃住行游娱购”的下属分析维度可按下表2归纳：

表2

我们以餐饮类别中味道维度为例：

(1)情感词

不错，也好，很好，好，好吃，垃圾，差，硬，贵，差别，甜太多，good,，少，咸得发苦，一般，不好，实惠……；

(2)被修饰词——情感词修饰的名词、动名词；

烤肉，鱼头，菠萝，面条，烤糊，鸡爪，菜，口味，味道，章鱼寿司，抄手，早餐，可乐，鸳鸯锅，素椒面，茶点……

(3)否定词——对情感词进行修饰的副词和其他对情感倾向有反向作用的词汇。

没有，不，不是，未必，没，难以，很少，少，都不，缺乏，不如，没法，不够，无可，难，not，no，不敢，不够，不然，毫无……

(2)题词整理

将餐饮、住宿、交通、旅游、购物和娱乐6个类别中每一个类别下细分维度同一维度情感词聚合去重；

聚合所有维度情感词，为情感词赋予情感色彩标记，约定积极：1，消极：-1，形成情感词库，存入sentiment_dict。

将餐饮、住宿、交通、旅游、购物和娱乐评论被修饰词聚合去重，给出维度标记，形成文档。

提出各维度专有情感词，标记相应维度，与前述文档融合，形成维度识别库，存入dims_dict。

将餐饮、住宿、交通、旅游、购物和娱乐评论中提取的否定词聚合去重，形成否定词库，存入negative_word。

2、分词分句

对评论分词，给出分词结果和相应词性，对分词结果依据词性对评论进行断句，形成单条评论的多个子句。

分词分句采用的工具为ansj分词器，基于形容词进行断句。

分句原因：

①评论可能涉及多个维度，多个情感词，不分句无法精确匹配情感词和维度词；

②分句后对分句中否定词的定位更加容易；

③可以准确识别“环境服务不错”或“环境，服务不错”这类多个维度公用一个情感词的情形(相比以符号划分子句的优点)。

以下以两个句子进行举例：

原评论记录为：

commented＝1507795023668517632174915味道很好，菜量很大，服务一般。

commented＝1507795023675111936040195没以前好，菜量非常少。招待不及时；

采用ansj分词器进行分词：(补充词性表)

[味道/n,很/d,好/a,，/w,菜量/nw,很/d,大/a,，/w,服务/vn,一般/a,。/w]

[没/d,以前/f,好/a,，/w,菜量/nw,非常/d,少/a,。/w,招待/v,不/d,及时/ad]

采用ansj分词器进行分句：

[/味道/很/好,//菜量/很/大,//服务/一般]

[/没/以前/好,//菜量/非常/少,//招待/不/及时]

3、对每个子句提取维度

4、计算情感倾向

对于任意评论约定默认其每一个维度情感倾向值0。

只要某维度消极情感词出现，则判断这个维度情感倾向为消极，即维度差评。

前述例句进行维度情感计算后的结果为：

{id＝'1507795023676931072650665',taste(味道)＝1,weight(分量)＝1,dishes(装盘)＝0,price(价格)＝0,service(服务)＝1,hygiene(卫生)＝0,locates(位置)＝0,room(房间)＝0,safe(安全)＝0,facilities(设施)＝0,admin(管理)＝0,traffic(交通)＝0,tourist(人流量/客流量)＝0,scenic(风景)＝0,diet(菜品)＝0,commodity(商品)＝0,classfy＝'吃'}

{id＝'1507795023675111936040195',taste(味道)＝0,weight(分量)＝-1,dishes(装盘)＝0,price(价格)＝0,service(服务)＝-1,hygiene(卫生)＝0,locates(位置)＝0,room(房间)＝0,safe(安全)＝0,facilities(安全)＝0,admin(管理)＝0,traffic(交通)＝0,tourist(人流量/客流量)＝0,scenic(风景)＝0,diet(菜品)＝0,commodity(商品)＝0,classfy＝'吃'}

对应维度的情感倾向值为0，则表示该评论记录不涉及该维度；对应维度的情感倾向值为1，则表示该评论记录该维度的评价为好评；对应维度的情感倾向值为-1，则表示该评论记录该维度的评价为差评；classfy的值对应吃住行游购娱中的一个类别。

具体实施例三：

以具体实施例一、具体实施例二中的结果，可以一域旅游产业发展进行进一步的分析并进行可视化展示，请参考图2。

1、餐饮类别

(1)行业业态构成情况分析

行业业态构成情况分析

分析：各分类业态商家数量、占比，各等级业态商家数量和占比；

数据源：美团、大众点评、百度旅游、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮基础数据；

实现：分别按分类和等级统计餐饮商家数量，计算相应数量占总商家数量比例；

注：①分类：中餐馆、休闲简餐、快餐、小吃、西餐厅、日本菜、韩国菜、其他；

②等级：五星、四星半、四星、三星半、三星、二星半、二星、一星半、一星、半星、无星；

分析：各星级农家乐数量、占比；

数据源：成都市公共数据开放平台-星级农家乐情况汇总信息；

实现：分别按星级统计农家乐数量，计算相应数量占星级农家乐数量比例；

分析：各星级饭店数量、占比；

数据源：成都旅游政务网-行业管理-宾馆酒店-2018年度星级饭店名录；

实现：分别按星级统计饭店数量，计算相应数量占星级饭店数量比例；

注：①星级：五星、四星、三星、二星、一星；

(2)行业经济运行分析

商家数量

分析：餐饮商家数量

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮基础数据；

实现：餐饮商家数量求和(预处理同一商家不同平台店名不同的数据)；

价格区间分析等；

分析：商家人均消费位于各价格区间段数量；

数据源：美团、大众点评、百度旅游、去哪儿和同程美食基础数据；

实现：对人均消费按划分的价格区间对商家数量进行统计求和；

注：价格区间：20元以下、20-40元、40-60元、60-80元、80-100元、100-120元、120元以上；

热门菜品分析；

分析：评论多，推荐数大的部分菜品；

数据源：大众点评美食基础数据和评论数据；

实现：参照评论数和推荐数建模热门度，给菜品给出热门度排序；

热门商家分析；

分析：评论多的商家；

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：计算各商家在所有平台的评论数；

推荐度分析；

分析：味道鲜美、分量充足、装盘漂亮等维度比较优异的商家；

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：通过提取评论情感词和情感修饰的名词/代词，编写代码实现对味道、分量和装盘等维度进行好差评分析，计算各商家各维度好评率，根据各维度好评率建模，得出商家推荐度；

(3)行业健康度分析

总体健康度

分析：网评按味道、分量和装盘等维度建模结果——总体健康度评分；

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：通过提取评论情感词和情感词修饰的名词/代词，编写代码实现对健康、味道、分量和装盘等维度进行好差评分析，计算各维度好评率，根据各维度好评率建模，得出总体健康度评分；

各业态健康度

分析：分类相应评论按味道、分量和装盘等维度建模结果——分类健康度评分；

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：参照总体健康度方法，计算各分类健康度评分；

注：①分类：中餐馆、休闲简餐、快餐、小吃、西餐厅、日本菜、韩国菜、其他；

评价维度分析

分析：味道、分量和装盘等维度评价好评占比；

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：通过提取评论情感词和情感修饰的名词/代词，编写代码实现对味道、分量和装盘等维度进行好差评分析，计算各维度好评率；

好评企业排行

分析：好评企业排行top10

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：通过自然语言处理的方法实现对分词的衡量，结合分类方法实现好差评分类，得出各评论的好差评，计算企业评论数，好评率，好评数和好评率排行；

差评企业排行

分析：十个差评企业

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：类似好评企业排行实现过程

热评词

分析：好差评热词

数据源：美团、大众点评、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛美食、餐饮评论数据；

实现：对好差评中出现次数较多的名词和形容词等进行提取，计算出现频次。

2、住宿类别

(1)行业业态构成及增长情况分析

行业业态构成及增长情况分析

分析：各星级商家数量、占比，各等级商家数量、占比，各星级、等级商家逐年数量和占比变化；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店基础数据；

实现：分别按星级和等级逐年统计住宿商家数量，计算相应数量占总商家数量比例；

分析：乡村酒店各星级数量、占比；

数据源：成都市公共数据开放平台-星级乡村酒店情况汇总信息；

实现：分别按星级统计乡村酒店数量；

注：①星级：五星、四星、三星、二星、一星；

②等级：五星、四星半、四星、三星半、三星、二星半、二星、一星半、一星、半星、无星；

(2)行业经济运行分析

商家数量分析

分析：住宿商家数量

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店基础数据；

实现：住宿商家数量求和(预处理同一商家不同平台店名不同的数据)；

房间类型丰富程度分析

分析：提供各房型的商家数量；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店基础数据；

实现：统计计算提供各房型的商家数量；

注：房型：大床房、双床房、套房等；

基础服务设施分析；

分析：提供各基础服务设施商家数量；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店基础数据；

实现：统计计算提供各种基础服务设施的商家数量；

注：基础服务设施：wifi、叫醒服务、行李寄存、有电梯、电子结账系统、24小时热水等；

价格区间分析

分析：住宿价格起始价各区间段商家数量；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店基础数据；

实现：对起始价按划分的价格区间对商家数量进行统计求和；

注：①起始价：50元以下、50-100元、100-150元、150-200元、200-250元、250-300元、350-400元、450-500元、500元以上；

热门房型分析

分析：评论较多的房型；

数据源：京东、艺龙、驴妈妈、携程、同程酒店评论数据；

实现：计算各房型在所有平台的评论数；

热门酒店分析

分析：评论较多的酒店；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据；

实现：计算各商家在所有平台的评论数；

推荐度分析

分析：位置、设施、服务和卫生等表现较好的酒店、客栈等；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据

实现：通过提取评论情感词和情感修饰的名词/代词，编写代码实现对位置、设施、服务和卫生等维度进行好差评分析，计算各商家各维度好评率，根据各维度好评率建模，得出商家推荐度；

(3)行业健康度分析

总体健康度

分析：网评按位置、设施、服务和卫生等维度建模结果——总体健康度评分；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据；

实现：通过提取评论情感词和情感词修饰的名词/代词，编写代码实现对位置、设施、服务和卫生等维度进行好差评分析，计算各维度好评率，根据各维度好评率建模，得出总体健康度评分；

各业态健康度

分析：星级、等级相应评论按位置、设施、服务和卫生等维度建模结果——各业态健康度评分；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据；

实现：参照总体健康度方法，计算各星级和等级对应健康度；

注：①星级：五星、四星、三星、二星、一星；

②等级：五星、四星半、四星、三星半、三星、二星半、二星、一星半、一星、半星、无星；

评价维度分析

分析：位置、设施、服务和卫生等维度评价好评占比；

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据；

实现：通过提取评论情感词和情感修饰的名词/代词，编写代码实现对位置、设施、服务和卫生等维度进行好差评分析，计算各维度好评率；

好评企业排行

分析：好评企业排行top10

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据；

差评企业排行

分析：十个差评企业

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据；

实现：类似好评企业排行实现过程；

热评词

分析：好差评热词

数据源：京东、艺龙、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛酒店评论数据；

实现：对好差评中出现次数较多的名词和形容词等进行提取，计算出现频次。

3、交通类别

(1)道路丰富程度分析

道路丰富程度分析

分析：不同类型的道路里程数；

数据源：成都市公共数据开放平台-公路里程数信息；

实现：查询国道、省道、县道、乡道、专用公路和村道的里程数；

(2)班车分析

公交

分析：公交线路条数

数据源：成都市公共数据开放平台-公交线路信息；

实现：按线路名称统计线路条数；

分析：拥有最多公交线路到达站点的公交站点；

数据源：成都市公共数据开放平台-公交线路信息；

实现：按站点统计到达站点的公交线路；

(3)行业健康度分析

总体健康度

分析：网评按价格、服务、卫生和设施等维度建模结果——总体健康度评分；

数据源：大众点评交通评论数据；

实现：通过提取评论情感词和情感词修饰的名词/代词，编写代码实现对价格、服务、卫生和设施等维度进行好差评分析，计算各维度好评率，根据各维度好评率建模，得出总体健康度评分；

评价维度分析

分析：风景、管理、交通、价格、服务和设施等维度评价好评占比；

数据源：大众点评交通评论数据；

实现：通过提取评论情感词和情感修饰的名词/代词，编写代码实现对价格、服务、卫生和设施等维度进行好差评分析，计算各维度好评率；

热评词

分析：好差评热词

数据源：大众点评交通评论数据；

实现：对好差评中出现次数较多的名词和形容词等进行提取，计算出现频次。

4、旅游类别

(1)行业业态构成及增长情况分析

成都市旅行社增长情况分析；；

分析：各区县旅行社占比，逐年旅行社注册数

数据源：成都旅游政务网-行业管理-旅行社-成都市旅行社名录；

实现：按区县统计旅行社数量，计算占比，按注册年份统计旅行社数量；

外省市在蓉旅行社增长情况分析；

分析：各区县旅行社占比，逐年旅行社注册数；

数据源：成都旅游政务网-行业管理-旅行社-外省市在蓉分社名录；

实现：按区县统计旅行社数量，计算占比，按注册年份统计旅行社数量；

服务网点数量统计分析；

分析：各旅行社在成都服务网点数，各区县旅行社服务网点数；

数据源：成都旅游政务网-行业管理-旅行社-成都市旅行社服务网点名录；

实现：按旅行社统计服务网点数量，按区县统计旅行社服务网点数量；

行业业态构成情况分析；

分析：星级数量、占比

数据源：百度旅游、驴妈妈、去哪儿、携程、同程和途牛门票；

实现：按星级统计景区数量，计算相应数量占总数量比例；

注：①星级：aaaaa、aaaa、aaa、aa、a和无星；

(2)行业经济运行分析

景区数量分析

分析：旅游景区数量

数据源：京东旅行、百度旅游、驴妈妈、马蜂窝、去哪儿、携程、同程和途牛门票、景点、当地游玩基础数据；

实现：景区数量求和；

旅游线路分析

线路构成

分析：出游人数最多的线路top10；

数据源：驴妈妈、马蜂窝、去哪儿、携程、途牛周边游、当地玩乐基础数据；

实现：按线路统计游客人数；

线路供给量分析；

分析：统计线路数量；

数据源：驴妈妈、马蜂窝、去哪儿、携程、途牛周边游、当地玩乐基础数据；

实现：计算到目的地的线路条数；

线路价格分析(价格区间，走势分析、增长分析)；

分析：旅游线路价格区间段包含数量；

数据源：驴妈妈、途牛周边游、当地玩乐基础数据；

实现：对起始价按划分的价格区间对路线数量进行统计求和；

注：①起始价：50元以下、50-100元、100-150元、150-200元、200-250元、250-300元、350-400元、450-500元、500元以上；

低价线路监测(低价线路预警、低价线路供应商)、线路出发地分析)；

分析：低价线路top10，低价线路相应供应商，低价线路出发地；

数据源：驴妈妈、途牛周边游、当地玩乐基础数据；

实现：查找起始价最低的部分路线；

热门景区分析

分析：评论较多的景区；